请选择 进入手机版 | 继续访问电脑版
Mozilla

火狐社区

登录    注册

用新浪微博连接 QQ互联

Mozilla Common Voice开源语音库开始收集繁体中文

yingliu Mozilla员工 发表于 2018-7-20 17:36:31 | 显示全部楼层 [复制链接]
4 4906
本帖最后由 yingliu 于 2018-7-20 17:38 编辑

该计划目前已经累积超过 900 小时语音文档,年底可望成为全球最大开源语音数据库

7APIB-A.png

Mozilla 最大开源语音收集项目——同声计划(Common Voice),日前已正式开始收集繁体中文语音文档,成为其语音数据的第一种亚洲语言,目前在同声计划数据库中成长快速,已是英、法、德语以外的最大语音数据。

语音识别已逐渐成为个人与电子设备互动的首选方式,它能为用户节省大量时间,同时技术发展也能跨越键盘、鼠标或屏幕的框架。然而,今日的语音识别技术大多掌握在少数有产品优势以专属平台收集语音的企业手中。此外,现有商用数字及语音识别服务往往也偏离了弱势语言。鉴于此,Mozilla 认为需要建立多国语言开源语音数据库,通过语音技术的民主化支持创新,也为视力障碍者、未受教育者、儿童或年长者等相对的信息弱势群体降低取得信息的门坎。

8buiCMw.png
语音识别的三大元素:算法,运算能力与语音数据

Mozilla 自去年 7 月开始启动开源的同声计划,目标是收集用于训练语音识别技术的声音数据,至今共有超过两百位开发者参与计划的软件开发。到目前为止,同声计划已经收集了来自 112 个国家的 2 万 4 千多人所贡献的声音,收集到超过 900 小时的语音样本,一跃成为全球第二大开源语音数据库(公有领域的磁带书 Libri Speech 数据库大约有1千小时)。同声计划于上月开始收集多国语音样本后,预期在年底前可望成为全球最大开源语音数据库。

9w6tGbA.png

目前项目平台已拥有 60 种语言版本,并已开始收集 15 种语言的语音文件。Mozilla 继上个月开始收集德、法语和威尔士语语音文件之后,日前也开始由繁体中文着手,展开中文语音的文件收集。

过去一年内,同声计划成长快速。Mozilla 于去年 11 月发表了同声计划第一版数据集,语音数据下载量至今已达数千次。同时也与 Mycroft、Snips.AI 以及威尔士的 Bangor 大学等新创企业或校园合作伙伴进行语音收集与技术合作,所收集的语音数据同时也应用在 Mozilla 本身的语音识别引擎「深度语音识别」(Project Deep Speech)上。

Mozilla 目前正试图打造全球最大的开源多语言语音数据库,欢迎所有中文用户一起捐出声音,协助强化中文语音数据库。您也可通过 iOS 应用来捐献语音录音文件。如果您想将您的语言纳入同声计划和语音识别技术,请访问项目计划的语言页。若您所隶属的组织也想参与此计划,请与 Mozilla 联系。

关于同声计划(Common Voice)

同声计划是 Mozilla 为充实其语音识别技术开发工作——「深度语音识别」(Deep Speech)项目——所推出的计划。Deep Speech 为精确处理人类语音的开源语音识别引擎模型,于 2017 年 11 月发布。随着项目语音数据日渐茁壮,Mozilla 相信此技术将能催生出新一波的创新产品与服务,使人人都能受益。


隐元 老狐狸
发表于 2018-7-21 06:20:28 | 显示全部楼层
mozilla一直是造福于人类。
310971373 狐狸精
发表于 2018-7-21 10:32:02 | 显示全部楼层
语音识别,大有前途哦
FlamingFox 狐狸精
发表于 2018-7-24 19:57:30 | 显示全部楼层
不错,支持一下。
stain 老狐狸
发表于 2018-8-24 05:49:56 | 显示全部楼层
改变世界,贡献自己的声音就可以了。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表