您现在的位置: 首页 > 推荐 > tts是什么意思 深入解读tts涵义(图文)

tts是什么意思 深入解读tts涵义(图文)

发布时间:2020-11-17 17:35:46 作者:编辑 栏目:推荐 阅读量:()

而TTS技术(Text-To-Speech,语音合成),是将文字转化为声音(朗读出来),类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话。

TTS的技术实现方法,主要有2种:“拼接法”和“参数法”——

AI: 人工智能之语音合成(TTS)

2、拼接法

1)定义:从事先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等;为了追求合成语音的连贯性,也常常用使用双音子(从一个音素的中央到下一个音素的中央)作为单位。

2)优点:语音质量较高

3)缺点:数据库要求太大。一般需要几十个小时的成品预料。企业级商用的话,需要至少5万句,费用成本在几百万元。

3、参数法

1)定义:根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。主要分为3个模块:前端、后端和声码器。

前端做的事情,是把文本进行解析,决定每个字的发音是什么,这句话用什么样的语气语调,用什么样的节奏来读,哪些地方是需要强调的重点等等。常见的语气相关的数据描述包含但不限于下面这些:韵律边界,重音,边界调,甚至情感。 还有更多的信息甚至是难以客观描述的,目前的算法只能暂且忽略。

注:拼接法和参数法,都有前端模块,拼接和参数的区别主要是后端声学建模方法的区别。

2)优点:数据库要求相对较小一些。

如果只需要出声(做demo),大概500句就可以,但是效果肯定不行。

通用TTS,一般至少需要5000句,6个小时(一般录制800句话,需要1个小时)。

——从前期的准备、找人、找录音场地、录制、数据筛选、标注,最终成为“可以用的数据”,可能至少需要3个月。

个性化TTS,大多数是用“参数”方法的。(adobe、微软也有尝试过拼接法,不过相对参数方法来说不是太成熟,效果也并不是太通用)

3)缺点:质量比拼接法差一些。因为受制于发声算法,有损失。

因为主要弱点和难点就是声码器。声码器的作用是复现声音信号,难在重现声音细节,并且让人听不出各种杂音、沉闷、机械感等等。目前常见的声码器都是对声音信号本身作各种理论模型以及简化假设,可以说对细节的描述近似于忽略。

注:DeepMind的WaveNet,基本解决了声码器的问题。因为他们直接对语音样本进行预测,不依赖任何发音理论模型。最后出来的音质细节十分丰富,基本达到了与原始语音类似的音质水准,而且几乎可以对任意声音建模。

4、TTS的评判标准

1)主观测试(自然度),以MOS为主

A)MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好。

注:微软小冰公开宣传是4.3分,但有业内朋友认为,也不能据此就说其“绝对”比科大讯飞好,因为每次评审的专家人选都不一样。说白了,目前整个AI行业内,还是各家说自己好的节奏。

B)ABX,普通用户评测(主观)。让用户来试听两个TTS系统,进行对比,看哪个好。

C)每次主观测评应该有区分。比如这次着重听多音字,下次主要听语气词等。

2)客观测试

A)对合成系统产生的声学参数进行评估,一般是计算欧式距离等(RMSE,LSD)。

B)对合成系统工程上的测试:实时率(合成耗时/语音时长)、首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时crash率等。

二、技术边界

1、通用TTS

1)在用户预期不苛刻的场景(APP/硬件),能满足商业化需求,比如语音助手/滴滴/高德/智能音箱/机器人);但如果用户预期非常高的话,是很难满足的,因为还是会有“机器感/机械感”,不能非常自然的模拟人声。

2)目前行业各家公司的产品效果差不多,都基本能商用。

2、个性化TTS

1)在用户预期不苛刻的场景,能“基本”满足商业化需求,但是效果没通用TTS那么好。但如果用户预期非常高的话,暂时是满足不了的。

2)目前行业内能成熟商用的,主要还是科大讯飞,也有些创业公司在这个领域有所布局,如微量分贝(HEARD)这家致力于海量内容音频化的企业,对声音进行了分门别类的生成和储备,他们瞄准的企业级需求也会更为个性化、品牌化,诸如阿里巴巴旗下的“动物园”品牌(如天猫、闲鱼、盒马、菜鸟等),都会生成诸如“小猪佩奇”这样的角色化TTS 并被商用。

3、情感TTS

1)目前业界的情感合成更多了,是因为数据本身变多了、更有节奏了,超过了传统的播音风格,但并不是真正的“喜怒哀乐”等情感合成(想高兴就高兴的这种智能)。

2)在情感TTS的理论方面,学术界是有储备的,但是,整个行业目前都没怎么做(或者没做好),是因为情感TTS很依赖“情感意图识别”,“情感特征挖掘”、“情感数据”以及“情感声学技术”等,是个系统工程。其中第1点,即是和自然语言处理相关,比如需要知道“什么时侯该高兴或悲伤”;同时,具有情感演绎的语音数据的储备,也非常重要。

三、瓶颈和机会

主要有5个方向的瓶颈(同时也是机会)。

1、基础技术

1)TTS技术正处于重大变革:

端到端(End-to-End)的TTS建模方法,加上WaveNet 的声码器思想,是未来TTS的发展方向。

端到端TTS,一般指tacotron,tacotron只是Google提出的合并了原先时长模型和声学模型的中段结构,可以接任何TTS前端和TTS后端。TTS前端如中文分词、注音、词性,都会提升tacotron性能;后端,参数、拼接、wavenet都可以选用。

关于WaveNet技术的商业化:

Google今年初将第二代WaveNet技术商业化了,速度比第一代快一万倍。而国内各家公司,基本也仿制出来了(论文算法),但工程化还需要时间,而且成本还是太高,短期内应该没法商用。

关于效果:

TTS最终效果好坏,技术只占50%不到,在技术都差不多的情况下,声优质量和数据量最重要,其次是相同部署规模和成本的TTS才能相互比较,即,不能简单的说哪家公司的效果比另一家更好,a)比如,拿百度/腾讯/阿里/图灵等很多家AI公司的WaveNet v1的效果,一般都能超过讯飞线上的接口,但部署成本高几万倍,且不实时;WaveNet V2商业化以后,虽然能实时,但部署成本至少也比高配拼接TTS高10倍左右。b)成本,部分和采样率相关,例如,讯飞/百度TTS的采样率都是16k,如果用24k和48k,主观体验至少强50%,但成本会翻倍;也就是说,其他AI公司的24kTTS的MOS,能吊打讯飞/百度的API,但不能说他们的技术就比讯飞/百度强,因为在商业化时,会牺牲效果来降低成本。

2)如何让离线版效果达到在线版水平。

很多客户希望(奢望)有离线版本,并且效果和在线版本一样好……现阶段来说,可能真是做不到。

2、数据缺乏

一方面,特别是个性化TTS,需要数据量更大。比如默认男孩声音,要转成女孩,就比较难。

另一方面,数据的获取(制作)成本和周期,也是各家在初期的竞争着力点,比如,一般来说,一款(套)TTS数据,至少需要先录制2-3万句话,再加上数据标注,通常耗时在3个月以上(且需要主播全力配合),对于30小时的数据,价格通常在30-50万,而上文提到的微量分贝(HEARD)这家公司,调动了8000+位优质播音人员,在给不同内容配音的同时,也做了大量结构化数据的存储(库存化),这样,针对大部分客户的数据需求,并不需要再找主播进行录制,而是直接从仓库调取数据进行解冻即可(数据标注);通过将这种 “边进行业务边赚取数据”的流程标准化,其获取数据的成本大大降低到行业的五分之一 ,并且一旦有需求,可以在1个月内进行交付。这家公司在南方搭建的数据标注工场的规模,也是巨大的,包括华为等公司都从其采购语音合成数据。

3、人才匮乏

不仅没法跟NLP、CV等热门AI人才比,就算跟同样不算热门的ASR比,TTS的人才都还要少一些。

4、产品化难度

由于技术限制,现阶段不可能有非常完美的TTS效果,所以

1)尽量选择用户预期不苛刻的场景,或者在产品体验设计时,管理好用户预期(比如打车软件,郭德纲/林志玲的声音,差不多就行)。

2)选择“参数法”还是“拼接法”,和公司的技术储备、成本、以及产品目标相关。

在垂直领域,现有的TTS技术(参数或者拼接)都可以针对产品做得很好。现在行业还没有太好的效果,很大原因是因为产品经理还没有深入介入,有很多细节的坑要踩(产品设计+工程化实现)——未来应该会有惊艳的产品出现。

3)体验细节设计,和一般互联网产品很不同,比如

A)文案设计,非常重要;因为在语音交互场景,不能太长,用户没耐心和时间听完的。

B)可以加入背景音乐,掩盖杂音等细节瑕疵。

C)特殊场景,还有特别的需求,比如远场场景和戴耳机场景相比,还是会有区别的。

D)中英文混合TTS。比如用户想播首英语歌曲,困难在于:所有中文的发音当中,中文和英文合拍念出来是很难的,为什么呢?因为往往录音的人。录中文是一批人,录英文又是一批人。两种语言结合起来,再用机器学习学出来,声音就会变得非常怪。这方面,小雅音箱曾经花了很大的精力和成本去“死磕”解决,详见《傅盛:人工智能的破局点是技术和产品结合【猎户星空发布小雅语音 OS】》。

5、商业化压力

如果要有足够的市场竞争力,至少需要12个月的时间,2~6人团队(如果有人做过前端相关工作,会节省巨大成本——工作量主要在中文前端NLP部分,比如分词、注音、词性文本规整化等),几百万资金投入(1个GPU一年十万,支持并发只有几十个)。并且,大公司的先发优势巨大,小公司必须切细分场景。

关键字: 涵义

最新版权声明:叽叽歪歪吧提醒您:在浏览本本网站关于tts是什么意思 深入解读tts涵义(图文)文章时,请您务必阅读并理解本声明。本站部分内容来源于网络或者网友投稿,如果您认为本站不应该展示与您相关的信息,请及时与我们取得联系,我们会当天作出处理。

相关文章

拓展阅读

屠呦呦怎么读(屠呦呦个人简历及身家背景)(图文)
屠呦呦怎么读(屠呦呦个人简历及身家背景)(图文)屠呦呦怎么读:tú yōu yōu屠呦呦简介屠呦呦,女,1930年12月30日出生于浙江省宁波市,祖籍宁波鄞县(今宁波鄞州区)。父亲给她起名“呦呦”,源自中国古籍《诗经》中的诗句“呦呦鹿鸣,食野之萍&
2020-11-24 21:28:39 阅读(715)
李蒽熙整容前后(最美蛇精女李蒽熙简介)(图文)
李蒽熙整容前后(最美蛇精女李蒽熙简介)(图文)现如今,整容之风已经无处不在。小编已经压根分不清人工美女与天然美女了。娱乐圈美女云集,又有多少是天然的呢。明星们面临整容,向来持着打死不承认的态度。但是群众的眼睛是雪亮的。网上总有明星整容前后对比照曝光。看到这些,小编不得不钦佩韩国的整容术呀,真是到了
2020-11-24 21:27:02 阅读(811)
怎么用电脑给手机杀毒(最简单的杀毒办法)(图文)
怎么用电脑给手机杀毒(最简单的杀毒办法)(图文)安卓手机中病毒的机率比苹果的中招机率要大得多,手机病毒和木马危害都极其大,会感染常用手机软件,造成莫名的被吃费,泄露个人隐私信息,如果经常用手机购物或交易的话,很有可能泄露银行密码,造成不必要的金钱损失。如何辨别手机有没有中病毒,这是困扰很多小伙伴的
2020-11-24 21:26:57 阅读(439)
越国怎么灭亡的(春秋五霸中的越国灭亡真相)(图文)
越国怎么灭亡的(春秋五霸中的越国灭亡真相)(图文)说起我国先秦的春秋战国时期,那就不得不提到春秋五霸,战国七雄。其中五霸之一的越国自然是在历史上留下了浓墨重彩的一笔。可是一提起越国,那可真是一个伤心的故事,生为五霸之一,却在最后成为了争斗之中的牺牲品,没能继续书写自己的传奇。那么为什么前期强势无比
2020-11-24 21:26:49 阅读(269)
z开头的是什么车(一分钟带你看懂列车车票首字母)(图文)
z开头的是什么车(一分钟带你看懂列车车票首字母)(图文)火车票,英文名称是railway ticket。是乘客乘坐火车需出示的票据,主要由客票和附加票两部分构成。客票部分为软座、硬座。附加票部分为加快票、卧铺票、软卧票等。火车票面上包含多样信息,包括车型、时间、座位号等。中国火车票为硬纸票、软纸票
2020-11-24 21:26:16 阅读(492)

热门精选文章

最好的音乐手机是哪款 这6款音乐手机你值得拥有(图文)
2020-11-04 19:40:53
2020剑灵哪个职业厉害 2020剑灵职业大盘点(图文)
2020-11-04 21:00:46
宝塔镇河妖下一句涵义 全面解析其涵义(图文)
2020-11-04 21:01:36
2020剑网三新手职业推荐 新手推荐2大职业(图文)
2020-11-04 22:08:17
手机上facebook的方法 免费教你玩转Facebook(图文)
2020-11-04 22:07:27
哪个网站看电影好 免费分享6款追剧网站(图文)
2020-11-04 21:00:39
微信朋友圈怎么转发别人的说说 教你转发别人微信朋友圈说说(图文)
2020-11-04 23:09:18
蓝翔挖掘机学费多少钱 浅谈蓝翔技校学费细则(图文)
2020-11-04 23:09:32
玩游戏买什么台式电脑好 推荐5款台式电脑(图文)
2020-11-04 19:39:45
中专是什么文化程度 全方面解读中专文化程度(图文)
2020-11-05 15:06:16
怕什么来什么是什么定律 曝光其定律的全面解析(图文)
2020-11-05 00:33:02
扎西德勒是什么意思 西藏解释扎西德勒(图文)
2020-11-10 17:33:37
华为手机开不了机怎么办 手把手教你解决步骤(图文)
2020-11-12 17:33:42
空军中校是什么级别干部 全面解析空军级别(图文)
2020-11-05 14:29:52
视频码率是什么意思 浅析视频码率的定义(图文)
2020-11-06 16:57:33
童星面试黑幕 曝光童星面试黑幕细则(图文)
2020-11-06 17:38:52
壁挂炉阿里斯顿怎么样 带你全方面了解壁挂炉阿里斯顿(图文)
2020-11-04 21:01:22
十大直播电商平台薇娅 分享2020最新薇娅带货榜内况(图文)
2020-11-05 14:29:07
火影忍者木叶丸的爸爸是谁 浅谈火影忍者木叶丸的爸爸(图文)
2020-11-06 16:58:25
手机随身wifi多少钱一个月 一文解读手机随身wifi月费详情(图文)
2020-11-07 14:32:12