语音合成技术 深度解读思必驰语音合成技术 干货满满

栏目:汽车 2021-09-16 04:08:34
分享到:

语音合成,也称为文本到语音转换技术,顾名思义,将文本信息转换为语音信息。它是会话式人工智能的最后也是关键环节,其效果直接影响人机语音交互的体验。

作为国内领先的会话式人工智能平台公司,Esprit的语音合成技术表现如何?

语音合成的“前世”

人的声音,本质上是发音器官的振动,产生声波。模仿人类声音最古老的方法是使用乐器。到了19世纪,通过机械手段产生语音成为可能。届时,科学家们将制作一些精致的气囊和风箱来构建发声系统,并合成一些元音和单音节。

人类发音示意图

1939年,当我们进入电子时代时,贝尔实验室的H. Dudley生产了第一台电子合成器,这是一台基于共振峰原理的语音合成器。这项技术利用一个固定的频率,在我们改变口型时,以电子方式重现元音,这正是英国剑桥大学著名物理学家斯蒂芬·霍金教授使用的声音合成器。

20世纪90年代,随着计算和存储能力的提高,出现了基于大语料库的单元选择和波形拼接合成方法,可以合成高质量的自然人语音。

语音合成技术的发展

21世纪,随着深度学习技术的兴起和快速发展,以语音合成为代表的语音处理技术取得了巨大的飞跃。近年来,神经网络语音合成取得了显著的突破。合成的质量和概率越来越高,语音合成的速度也越来越快。Esprit目前使用的正是这种方法。

Esprit TTS有什么魅力?

早在2007年,Esprit在英国剑桥大学成立时,就开始了语音合成技术的研究,由Esprit联合创始人、首席科学家、上海交通大学教授余凯领衔。

语音合成系统主要分为三个部分:文本处理、声学模型和声码器。文本处理负责文本的转录和音素序列转换。声学模型采用深度神经网络,可以学习文本特征和声学特征之间更复杂的非线性关系;声码器负责通过卷积运算将声学模型输出的声学特征转换为音频。

经过10多年的研究和积累,Spirit的建模方法涵盖了从传统的统计参数模型到最新的基于神经网络的方法;声码器的研究涵盖了从传统的基于信号处理的方法到最新的基于神经网络的方法。

语音合成的质量和效果不仅取决于语音厂商的算法模型,还取决于音频语料库的质量,即数据质量。Esprit拥有丰富的seiyuu资源和seiyuu选择经验。在苏州建有专业录音棚,与国内多个城市的录音棚有长期合作关系。同时,Esprit数据团队对数据标注也有严格的质量控制。

专业录音棚位于Esprit苏州总部

经过多年的技术积累,Esprit逐渐形成了一套成熟的技术案例,涵盖了数据语言定制、数据快速定制、语音克隆、歌唱语音合成、语言合成、声音合成、情感合成等。,可以部署在公有云、私有云和线下,经典可以在Esprit官方实时体验。

2017年和2020年,Esprit还参与制定了国家标准《中文语音合成互联网服务接口规范》和行业标准《中文语音合成服务系统评测规范》,成为国内首批通过评测并获得“TTS-4S服务证书”的公司之一。评价从综合质量、定制能力、场景表现力和系统安全可靠性等维度对综合水平和服务能力进行综合评价。

2019年11月,Spirit通过了第一批“汉语语音合成水平测试”

未来世界,百家“声音”争鸣

为了快速提供定制化的语音合成服务,Esprit提供音色选择、录音指导、音频处理、模型训练、服务部署等专业服务,赋予产品说话的能力。

截至目前,已建成的Esprit语音合成库包含近200种音色,涵盖各种风格、各个年龄段。

Esprit语音合成服务也已经成功登陆多个领域,如车、电、机、智能客服等。,赋予了很多终端产品声音魅力,让万物交流,逐渐进入人们的工作和生活。

当你在家“平躺”时,来自影智的语音管家“爱迪生”会用他温暖绅士的声音带给你实用性和舒适感;当你在车内驰骋时,车萝卜的语音助手“萝卜”清脆简洁的声音就像路上清澈的小溪;当您接听SF 95338服务热线的呼出电话时,智能客服“冯小米”善良严谨,凭借高效的工作能力,将为您带来最省心省力的服务体验...

镜头切换到泛娱乐领域,勇气号团队打造的“小池机器人”在央视《大才子》中用撒贝宁的声音制作了一首《好久不见》。在《经典吟诵》中,斯皮策与栏目组联合推出了“把诗读成音乐”的在线互动小工具,提供了实时把诗读成音乐的能力。用户只需读几首简单的诗,就能快速生成悠扬的歌曲,总互动量超过821万人次。

余,联合创始人兼兼职科学家的精神,和节目录制

在个性化定制方面,Spirit不仅可以提供普通话定制和唱歌定制,还可以为方言和小语种提供难度更大的TTS定制,如粤语、上海话、川话、东话、东北话、德语、法语等。

但Spirit的情感合成技术赋予优美的音色以丰富的情感,使声音更具表现力和感染力。

此外,Spirit的语音复现技术还应用于斑马智能、爱知汽车、蓝兔汽车、窦宪智能等联网客户,以及物联网领域。只需录制20个句子,约400个汉字,10分钟内即可完成模型制作,MOS合成语音/录音达到90%,相似度合成语音/录音达到80%。

人声是人类语言的物质外壳,但它承载着重要的信息和真挚的情感,具有无限的魅力。人工智能的快速发展不断催化着人机交互方式的巨大变化。“一切都能沟通,一切都能搞定”的语音互联未来世界正在加速发展...

  • 云麾勋章 你知道那时国民党勋章什么样吗

    国光勋章:国光勋章是国民政府陆军勋章之一。根据1937年11月8日颁布的《关于修改陆海军勋章的规定》空,凡战时抵抗外敌侵略,以特殊军事功勋保卫国家的陆海军将士,授予国家光勋章。所有为抗战立下功勋的士兵都应该得到这枚

    ·21-09-16

  • 大头贴制作 《PS软件课程》将自己的照片制作成可爱大头贴

    PS是什么? Adobe Photoshop,简称“PS”。PS有很多功能,涉及图像、文本、视频、发布等... 为什么学习PS? 提高自己的竞争力在职场上几乎和英语好一样占主导地位;学习photoshop其实相

    ·21-09-16

  • 风象星座之王天秤座 风象星座的人这么奇葩 想征服他们你有这个实力吗

    前面的文章已经分析了火象、水象和土象。今天我们来分析一下空气标志。 空气星座:天秤座、水瓶座、双子座 风没有形状,它可以自由流动,它也象征着空气标志的平衡。风象的特点是优雅、礼貌和人性化。他们可以意识到别

    ·21-09-16

  • 人遇到老虎必死吗 在野外遇到老虎 怎么做才能保命

    2021年4月23日,黑龙江省密山市白玉湾镇派出所接到报案。 村民们报告说,在村子里发现了一只成年野生东北虎。 “国王”充满了不快 民警到达现场后,一路狂奔,将东北虎,冲到车前。 一只老虎向下抓,打碎了窗户玻璃。 幸运

    ·21-09-16

  • 四季之美评课 语文教研永远在路上

    正文/张兰芬扎赉诺尔区融信小学 今年6月,我有幸前往通辽,参加了“北派名师”的语文教学培训活动,聆听了众多专家的语文课堂教学,感触颇深。每个专家的教学都有自己的特点。他们钻研教材的深度和广度,驾驭课堂的能力,丰富的

    ·21-09-16

  • ncsu 这是一篇“鸡汤” 鼓舞迷失在申请季的你

    本期作者 李沛文 录取结果 密歇根大学UMich 3年司法协助 佐治亚州UGA大学 2年司法协助 圣路易斯华盛顿大学的WUSTL 3年司法协助 北卡罗来纳州立大学NCSU分校 2年司法协助 背景资料 中国农业大学15级

    ·21-09-16

  • 曼巴日 曼巴日发售 欧文6最值得入手的配色

    又一年,曼巴日 科比已经离开太久了 今天不是提醒大家悲伤的回忆 我想和你谈谈即将上映的电影 李小龙主题垂怜经6曼巴日 什么是曼巴日? 2016年4月14日 洛杉矶湖人主场迎战犹他爵士 这是科比个人职业生

    ·21-09-16

  • 生活中的仪式感 论生活中的仪式感

    近年来,圣诞节等西方节日在中国流行起来,成为潮流引领者关注的焦点。然而,我国的传统节日正在逐渐衰落,这让人们哭泣。不得不说,“礼感”是节日的价值和意义。 12月初,商业区、商店、街道等繁华场所早早穿上了“新衣”醒

    ·21-09-16