Mozilla

火狐社区

登录    注册

QQ互联

Mozilla 研究表明:有些机器合成语音比真人语音更悦耳

yingliu Mozilla员工 发表于 2020-5-28 16:09:38 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式 [复制链接] 打印 上一主题 下一主题
0 13478
跳转到指定楼层
作者:Jofish Kaye

本文将随 2020 年人机交互大会 (CHI) 中发表论文《声音的选择:对长篇内容之文字转语音质量的大规模评估》(Choice ofVoices: A Large-Scale Evaluation of Text-to-Speech Voice Quality for Long-Form Content) 一并刊出。该论文作者包括:卡内基美伦大学研究员 Julia Cambre 与 Jessica Colnago、西北大学研究员 Jim Maddock,以及 Mozilla 员工 Janice Tsai 和 Jofish Kaye。

2019 年时,Mozilla 的语音团队开发出一种能评估文字转语音质量的方法。事实证明,在文字转语音的世界里,过去很少评估长篇内容(如:文章、书篇或博客文章)转语音的质量。许多既有的评估仅回答一个核心的问题:「你听得懂这个声音吗?」因此,在典型的质量测试中,研究人员可能会播放语法正确但毫无意义的语句,如「精通序列撤回协作手册」,要求听者在计算机上输入听到的句子。通过这种方式,听者无法从同一句中的上下文猜出漏听的字。但时至今日,我们已进入新的计算机化语音质量阶段,已经出现许多易于理解的计算机语音。接下来将如何发展?

我们如何判定某种声音悦耳与否——特别是得花一两分钟以上才听得完的长篇内容?我们的团队在这方面颇有经验:我们曾与 Pocket 的团队合作,连手开发出 Pocket Listen 功能,让用户无论在开车或做菜时,都能收听存放在 Pocket 的文章。即使如此,我们还是无法肯定地说甲声音会比乙声音听起来更舒服。

我们采用由 Jessica Colnago 在 Mozilla 实习时开发的评估方法。这方法的概念很简单。我们选了一篇文章「每天两分钟减压法」,录下不同来源阅读该文的声音。然后,我们在 Mechanical Turk 上招募 50 位试听者来听这些录音——每次都请 50 位不同的试听者(您也可听听看,体验一下)。每位试听者最多只能听一次该文章。听完后,我们问试听者几个问题,以确认他们确实有听,并了解他们对于那些声音的想法。

例如,我们请试听者以 1 到 5的评分来评估对各个录音音频的喜好度,以及他们想听到各声音录制更多内容的意愿。我们还问他们为什么认为某声音听起来令人愉快或不快。我们总共针对 27 种声音进行测试,下图呈现测试的结果。(我们在论文中的分析更严谨,用了好几种不同方法来排序,但最终的结果与下图相去不远。在论文完成后,我们又多加了几种声音,所以这项研究中在一些地方的语音数目才会有些出入。)



如同上图所示,有些声音的评分较高。左边的声音普遍获得试听者的正面评价;右边则较不获青睐。例如,预设的(美式英文)iOS 女性声音几乎排在最右侧,而 Mac 预设语音却排在前段班。我很自豪地发现,由 Mozilla 研发工程师 Eren Gölge 开发的 Mozilla Judy Wave1 语音名列前茅。测试结果显示,评分最高的电子语音是 Mozilla 的语音系统及 AmazonPolly 的神经文字转语音 (Neural)。虽然我们仍有一些授权问题必须解决,才能确保我们能制作出可持续、可公开使用的高质量语音,但令人振奋的是,此次研究证明我们可利用开源的评测方式,得出不亚于业界高额的语音评测研究的成果,更何况,后者的用意不见得是保障隐私、安全及便于人人使用。

我们归纳出几个概括性的研究发现:以男性与女性语音的对比而言,试听者青睐男性声音的机率高出 54%。我们还测试语速(一分钟讲几个字)。一般来说,结果显示,一分钟讲 163 到 177 字的速度「刚刚好」。高于或低于此区间的语速都不悦耳。

不过,我们在这阶段后期做了一件事,得到更有趣的结果。我们让真人直接通过麦克风读文章给试听者听。这些人的声音在下图中以红色圆圈标示:



我们发现,有些人声得到的评分比机器人还低。这实在太有趣了。这代表着,我们正处于一个转折点,有些机械合成语音已经比真人的声音更好听了。在您提出质疑前,请容作者先说明。作者听过那些真人录制的语音,您也可以试听看看。作者觉得 Janice 的声音(数据集内标示为 Human 2)听起来很自然、很舒服,但有些人却觉得她的声音不如机器语音好听。

这带出一系列有趣的问题、忧虑和机会。这是过去两年间计算机化语音的缩影。从做完研究以来,我们已看到语音质量变得更好。如果有一天计算机的声音比我们自己的声音更悦耳,那会发生什么事?当孩子喜欢听计算机读故事甚于父母读给他们听时,又将如何?

若将语音用于说服上,还可能引起更大的道德问题。我们在研究中没问的一个问题是,试听者是否信任或相信他们听到的内容。如果只需通过改变阅读的语音,就能得到更多人对某件事的信任时,我们将面临什么样的状况?有些人在专业上致力探索影响力和说服力的界线;轻松可得的「可信任」语音将如何改变我们对可信度信号的理解?英国国家广播公司 (BBC) 一直以类似的方式探讨英国人对不同区域口音的态度,很有意思的是,他们的素材取自一项关于英国人对1927 年广播中不同声音的反应的研究。显然,我们延续了这种对于语音、及语音对于信息理解和感受的影响研究的悠久传统。



评分

参与人数 1声望 +1 收起 理由
无心丶 + 1 很给力!

查看全部评分

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表