火狐社区
标题: Mozilla 研究表明:有些机器合成语音比真人语音更悦耳 [打印本页]
作者: yingliu 时间: 2020-5-28 16:09
标题: Mozilla 研究表明:有些机器合成语音比真人语音更悦耳
2019 年时,Mozilla 的语音团队开发出一种能评估文字转语音质量的方法。事实证明,在文字转语音的世界里,过去很少评估长篇内容(如:文章、书篇或博客文章)转语音的质量。许多既有的评估仅回答一个核心的问题:「你听得懂这个声音吗?」因此,在
典型的质量测试中,研究人员可能会播放语法正确但毫无意义的语句,如「精通序列撤回协作手册」,要求听者在计算机上输入听到的句子。通过这种方式,听者无法从同一句中的上下文猜出漏听的字。但时至今日,我们已进入新的计算机化语音质量阶段,已经出现许多易于理解的计算机语音。接下来将如何发展?
我们如何判定某种声音悦耳与否——特别是得花一两分钟以上才听得完的长篇内容?我们的团队在这方面颇有经验:我们曾与
Pocket 的团队合作,连手开发出
Pocket Listen 功能,让用户无论在开车或做菜时,都能收听存放在 Pocket 的文章。即使如此,我们还是无法肯定地说甲声音会比乙声音听起来更舒服。
我们采用由
Jessica Colnago 在 Mozilla 实习时开发的评估方法。这方法的概念很简单。我们选了一篇文章「
每天两分钟减压法」,录下不同来源阅读该文的声音。然后,我们在 Mechanical Turk 上招募 50 位试听者来听这些录音——每次都请 50 位不同的试听者(您也可
听听看,体验一下)。每位试听者最多只能听一次该文章。听完后,我们问试听者几个问题,以确认他们确实有听,并了解他们对于那些声音的想法。
例如,我们请试听者以 1 到 5的评分来评估对各个录音音频的喜好度,以及他们想听到各声音录制更多内容的意愿。我们还问他们为什么认为某声音听起来令人愉快或不快。我们总共针对 27 种声音进行测试,下图呈现测试的结果。(我们在
论文中的分析更严谨,用了好几种不同方法来排序,但最终的结果与下图相去不远。在论文完成后,我们又多加了几种声音,所以这项研究中在一些地方的语音数目才会有些出入。)
我们归纳出几个概括性的研究发现:以男性与女性语音的对比而言,试听者青睐男性声音的机率高出 54%。我们还测试语速(一分钟讲几个字)。一般来说,结果显示,一分钟讲 163 到 177 字的速度「刚刚好」。高于或低于此区间的语速都不悦耳。
不过,我们在这阶段后期做了一件事,得到更有趣的结果。我们让真人直接通过麦克风读文章给试听者听。这些人的声音在下图中以红色圆圈标示:
我们发现,有些人声得到的评分比机器人还低。这实在太有趣了。这代表着,我们正处于一个转折点,有些机械合成语音已经比真人的声音更好听了。在您提出质疑前,请容作者先说明。作者听过那些真人录制的语音,
您也可以试听看看。作者觉得 Janice 的声音(
数据集内标示为 Human 2)听起来很自然、很舒服,但有些人却觉得她的声音不如机器语音好听。
这带出一系列有趣的问题、忧虑和机会。这是过去两年间计算机化语音的缩影。从做完研究以来,我们已看到语音质量变得更好。如果有一天计算机的声音比我们自己的声音更悦耳,那会发生什么事?当孩子喜欢听计算机读故事甚于父母读给他们听时,又将如何?
若将语音用于说服上,还可能引起更大的道德问题。我们在研究中没问的一个问题是,试听者是否信任或相信他们听到的内容。如果只需通过改变阅读的语音,就能得到更多人对某件事的信任时,我们将面临什么样的状况?有些人在
专业上致力探索影响力和说服力的界线;轻松可得的「可信任」语音将如何改变我们对可信度信号的理解?英国国家广播公司 (BBC) 一直以类似的方式探讨
英国人对不同区域口音的态度,很有意思的是,他们的素材取自一项关于英国人对
1927 年广播中不同声音的反应的研究。显然,我们延续了这种对于语音、及语音对于信息理解和感受的影响研究的悠久传统。
欢迎光临 火狐社区 (http://mozilla.com.cn/) |
Powered by Discuz! X3.1 |