400-893-5552

百度提出 Deep Voice:实时的神经语音合成系统

 
2017-03-01 17:21:51所属分类:行业动态

百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量语音转文本系统。

\

百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量语音转文本系统。而如今建立这样一个系统最大的障碍就是音频合成的速度,因为以前的方法需要花几分钟到几小时来生成仅仅几秒钟的语音。我们致力于解决该难题,并且已经做到了实时的语音合成,这相比以前的 WaveNet 推理的实现有 400 倍的加速。

从文本合成人工语音,也就是我们所熟知的文本转语音(TTS),在许多的应用中都是非常重要的组件,比如语音设备、导航系统和对视力障碍人群的辅助应用。从基础上,它使得人类在不需要视觉界面的情况下能与科技进行交互。

现代 TTS 系统主要基于复杂的、多阶段处理流程(pipeline),每个都依赖人工调配的特征参数以及启发式规则。由于这种复杂性,开发新的 TTS 系统需要大量的人力,也非常的困难。

Deep Vioce 受启发于传统的文本转语音处理流程采用了同样的架构,但使用神经网络取代了所有组件且使用了更简单的特征。这使得我们的系统更适用于新数据集、语音和没有任何手动数据注释或其他特征调配的领域。

Deep Voice 为真正的端到端语音合成奠定了基础,这种端到端系统没有复杂的处理流程,也不依赖于人工调配(hand-engineered)的特征作为输入或进行预训练(pre-training)。

我们目前的流程并不是端到端的,由音素模型(phoneme model)和语音合成组件所构成。下面的剪辑是通过整个流程由文本合成的语音。

Copyright © 2013-2018 合肥彼岸互联信息技术有限公司 All Rights Reserved地址:合肥市高新区亚夏汽车大厦17楼
工信部备案号: 皖B2-20150071-4    增值电信业务经营许可证:皖B2-20150071-4 安全联盟认证 安全联盟认证 安全联盟实名认证

copyright@2015 合肥彼岸互联信息技术有限公司

电话:400-893-5552 0551-65371998 QQ:800022936

地址:合肥市高新区亚夏汽车大厦17楼