请选择 进入手机版 | 继续访问电脑版
Mozilla

火狐社区

登录    注册

用新浪微博连接 QQ互联

Mozilla 的开源计划 Common Voice 正在打开多语言化的大门

yingliu Mozilla员工 发表于 2018-6-14 17:05:16 | 显示全部楼层 [复制链接]
2 1325
本帖最后由 yingliu 于 2018-6-14 17:07 编辑

common voice.png
现正收集德、法语和威尔士语语音包,后续将收集包含简体中文在内的40多种语言

致力推动互联网平等、开放与自由的 Mozilla,宣布其最大开源语音收集项目- 同声计划(Common Voice,将正式多语言化!从本月起,同声计划已开始收集德语、法语和威尔士语的语音包,并紧锣密鼓地计划在后续收集其他包含简体中文在内的 40 多种语言的语音数据

Common Voice 是 Mozilla 发起的史上最大开源语音项目,希望通过此项目收集用于训练语音识别技术的声音数据。自去年 7 月计划启动以来,Mozilla 已通过网站iOS 应用收集到数十万笔的英语语音样本。Mozilla 也在去年 11 月发表 Common Voice 计划第一版数据集。这批语音数据的下载量至今已达数千次,并已用于开发商用语音产品、包括 Kaldi 在内的开源软件,以及 Mozilla 自己的语音识别引擎「深入语音识别」(Deep Speech上。

M4KnyA.png

目前,Common Voice 只接受英语文件,但其目标是支持多种语言,以实现 Mozilla 促成语音技术更开放、便于使用和更具包容性的愿景。因此,Mozilla 在过去几个月间积极与当地语言社区合作,希望在当地推广Common Voice,以收集更多种语系和方言的语音数据。

在努力将项目网站本地化之际,这些社区还设计许多建立高质量语音数据集所需特点的语句,以供有意捐声音的人诵读和录音。此外,他们还在各自的国家中推广这个网站,建立起语音贡献者的社区,以达成各语言文件总收集数的目标。

ChgwIkkv.jpeg

除了英文以外,Common Voice 现在也开始收集德、法、威尔士语的语音包,并规划将增加 40 多种语言,包括中文、西班牙语、印度尼西亚语和俄语等大众语言,以及用户较少的弗里斯兰语(Frysian)、挪威语和楚瓦什语(Chuvash)。弱势语言往往不受现有商用数字及语音识别服务重视,所以,Mozilla 认为有必要收集这些小语种的语音数据。有了数据以后,创业者和社区便有能量来缩短强势与弱势语言之间的落差。

Common Voice 开始收集多国语言的语音文件,是极为重要的一大步。Mozilla 希望,这对语音识别技术的整体发展是别具意义的进展。语音技术的民主化不仅能降低全球创新的门坎,也将降低取得信息的门坎。对于传统的信息弱势群体来说,如:视力障碍者、未受教育者、儿童、年长者等等,此重要性不容小觑。

Mozilla 在打造全球最大的开源多语音数据库之际,很荣幸能获得越来越多社区的支持。如果您想助我们一臂之力,欢迎您一起“捐出声音。您也可以通过iOS 应用来捐献语音录音文件。如果您想将您的语言纳入 Common Voice 计划和语音识别科技,请访问项目计划的语言页。若您所隶属的组织也想参与此计划,请与 Mozilla 联系。

您也可以在论坛找到更多有关参与 Common Voice 计划的信息,也可在上面提问和与社区互动。

关于同声计划(Common Voice)
Common Voice 计划是 Mozilla 为充实其语音识别技术开发工作——「深度语音识别」(Deep Speech)项目——所推出的计划。Deep Speech 为精确处理人类语音的开源语音识别引擎模型,于 2017 年 11 月发布。随着项目语音数据日渐茁壮,我们相信此技术将能催生出新一波的创新产品与服务,使人人都能受惠。




隐元 老狐狸
发表于 2018-6-17 05:11:17 | 显示全部楼层
我最支持mozilla造福人类的Common Voice 语音计划,大家要一起抵制害人的google与害人的苹果的语音工程。
aahongchaoaa 社区新人
发表于 5 天前 | 显示全部楼层
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表