Common Voice 数据集突破 20,000 小时

由 Melissa Thermidor

发布于 2022 年 4 月 28 日在开发者工具，精选文章和Mozilla

今天发布的最新 Common Voice 数据集取得了重大里程碑：超过 20,000 小时的开源语音数据，任何人都可以在任何地方使用。该数据集在过去一年中几乎翻了一番。

为什么你应该关心 Common Voice？

你是否必须改变你的口音才能被虚拟助手理解？
你是否担心如此多的语音操控设备正在为专有的大型科技公司数据集收集你的语音数据？
你的语言是否无法使用自动字幕？

自动语音识别在我们可以获取信息的方式中发挥着重要作用，然而，在当今全球使用的 7,000 种语言中，只有少数语言受到大多数产品的支持。

Mozilla 的 Common Voice 试图通过支持社区收集语音数据来改变语言技术生态系统，以便为自己的语言创建支持语音的应用程序。

Common Voice 数据集发布

如果没有我们的贡献者，这次发布是不可能的——从语音捐赠到在我们的项目中启动他们的语言，再到为人们创造支持世界各地所有语言的语音技术工具开辟新的机会。

访问数据集：https://commonvoice.mozilla.org/datasets

访问元数据： https://github.com/common-voice/cv-dataset

最新数据集的亮点：

最新版本还包括六种新语言：提格雷语、台语（闽南语）、草地玛丽语、孟加拉语、托基·波纳语和粤语。
现在有 27 种语言至少拥有 100 小时的语音数据。它们包括孟加拉语、泰语、巴斯克语和弗里西语。
现在有九种语言至少拥有 500 小时的语音数据。它们包括基尼亚尔瓦达语（2,383 小时）、加泰罗尼亚语（2,045 小时）和斯瓦希里语（719 小时）。
现在有九种语言的性别标签中至少有 45% 是女性。它们包括马拉地语、迪维希语和卢干达语。
加泰罗尼亚社区推动了巨大的增长。 加泰罗尼亚社区的 AINA 项目 ——巴塞罗那超级计算中心和加泰罗尼亚政府之间的合作——动员了加泰罗尼亚语使用者为 Common Voice 做出贡献。
继续支持社区参与决策。 Common Voice 语言代表小组已贡献了关于最佳句子收集、语言变体纳入等方面的反馈和经验教训。

使用数据集进行创作

你将如何使用 Common Voice 数据集进行创作？

从使用 Common Voice 数据集创建对话聊天机器人、口语识别器、研究论文和虚拟助手的技术人员那里获得一些灵感，观看以下演讲：

https://mozilla.hosted.panopto.com/Panopto/Pages/Viewer.aspx?id=6492f3ae-3a0d-4363-99f6-adc00111b706

在社交媒体上使用 #CommonVoice 与我们分享你如何使用数据集，或在我们的社区论坛上分享。

Melissa 是 Mozilla 的高级互联网广告专家

Melissa Thermidor 的更多文章……