语音合成,也称为文本到语音转换技术,顾名思义,将文本信息转换为语音信息。它是会话式人工智能的最后也是关键环节,其效果直接影响人机语音交互的体验。
作为国内领先的会话式人工智能平台公司,Esprit的语音合成技术表现如何?
语音合成的“前世”
人的声音,本质上是发音器官的振动,产生声波。模仿人类声音最古老的方法是使用乐器。到了19世纪,通过机械手段产生语音成为可能。届时,科学家们将制作一些精致的气囊和风箱来构建发声系统,并合成一些元音和单音节。
人类发音示意图
1939年,当我们进入电子时代时,贝尔实验室的H. Dudley生产了第一台电子合成器,这是一台基于共振峰原理的语音合成器。这项技术利用一个固定的频率,在我们改变口型时,以电子方式重现元音,这正是英国剑桥大学著名物理学家斯蒂芬·霍金教授使用的声音合成器。
20世纪90年代,随着计算和存储能力的提高,出现了基于大语料库的单元选择和波形拼接合成方法,可以合成高质量的自然人语音。
语音合成技术的发展
21世纪,随着深度学习技术的兴起和快速发展,以语音合成为代表的语音处理技术取得了巨大的飞跃。近年来,神经网络语音合成取得了显著的突破。合成的质量和概率越来越高,语音合成的速度也越来越快。Esprit目前使用的正是这种方法。
Esprit TTS有什么魅力?
早在2007年,Esprit在英国剑桥大学成立时,就开始了语音合成技术的研究,由Esprit联合创始人、首席科学家、上海交通大学教授余凯领衔。
语音合成系统主要分为三个部分:文本处理、声学模型和声码器。文本处理负责文本的转录和音素序列转换。声学模型采用深度神经网络,可以学习文本特征和声学特征之间更复杂的非线性关系;声码器负责通过卷积运算将声学模型输出的声学特征转换为音频。
经过10多年的研究和积累,Spirit的建模方法涵盖了从传统的统计参数模型到最新的基于神经网络的方法;声码器的研究涵盖了从传统的基于信号处理的方法到最新的基于神经网络的方法。
语音合成的质量和效果不仅取决于语音厂商的算法模型,还取决于音频语料库的质量,即数据质量。Esprit拥有丰富的seiyuu资源和seiyuu选择经验。在苏州建有专业录音棚,与国内多个城市的录音棚有长期合作关系。同时,Esprit数据团队对数据标注也有严格的质量控制。
专业录音棚位于Esprit苏州总部
经过多年的技术积累,Esprit逐渐形成了一套成熟的技术案例,涵盖了数据语言定制、数据快速定制、语音克隆、歌唱语音合成、语言合成、声音合成、情感合成等。,可以部署在公有云、私有云和线下,经典可以在Esprit官方实时体验。
2017年和2020年,Esprit还参与制定了国家标准《中文语音合成互联网服务接口规范》和行业标准《中文语音合成服务系统评测规范》,成为国内首批通过评测并获得“TTS-4S服务证书”的公司之一。评价从综合质量、定制能力、场景表现力和系统安全可靠性等维度对综合水平和服务能力进行综合评价。
2019年11月,Spirit通过了第一批“汉语语音合成水平测试”
未来世界,百家“声音”争鸣
为了快速提供定制化的语音合成服务,Esprit提供音色选择、录音指导、音频处理、模型训练、服务部署等专业服务,赋予产品说话的能力。
截至目前,已建成的Esprit语音合成库包含近200种音色,涵盖各种风格、各个年龄段。
Esprit语音合成服务也已经成功登陆多个领域,如车、电、机、智能客服等。,赋予了很多终端产品声音魅力,让万物交流,逐渐进入人们的工作和生活。
当你在家“平躺”时,来自影智的语音管家“爱迪生”会用他温暖绅士的声音带给你实用性和舒适感;当你在车内驰骋时,车萝卜的语音助手“萝卜”清脆简洁的声音就像路上清澈的小溪;当您接听SF 95338服务热线的呼出电话时,智能客服“冯小米”善良严谨,凭借高效的工作能力,将为您带来最省心省力的服务体验...
镜头切换到泛娱乐领域,勇气号团队打造的“小池机器人”在央视《大才子》中用撒贝宁的声音制作了一首《好久不见》。在《经典吟诵》中,斯皮策与栏目组联合推出了“把诗读成音乐”的在线互动小工具,提供了实时把诗读成音乐的能力。用户只需读几首简单的诗,就能快速生成悠扬的歌曲,总互动量超过821万人次。
余,联合创始人兼兼职科学家的精神,和节目录制
在个性化定制方面,Spirit不仅可以提供普通话定制和唱歌定制,还可以为方言和小语种提供难度更大的TTS定制,如粤语、上海话、川话、东话、东北话、德语、法语等。
但Spirit的情感合成技术赋予优美的音色以丰富的情感,使声音更具表现力和感染力。
此外,Spirit的语音复现技术还应用于斑马智能、爱知汽车、蓝兔汽车、窦宪智能等联网客户,以及物联网领域。只需录制20个句子,约400个汉字,10分钟内即可完成模型制作,MOS合成语音/录音达到90%,相似度合成语音/录音达到80%。
人声是人类语言的物质外壳,但它承载着重要的信息和真挚的情感,具有无限的魅力。人工智能的快速发展不断催化着人机交互方式的巨大变化。“一切都能沟通,一切都能搞定”的语音互联未来世界正在加速发展...