百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量语音转文本系统。
百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量语音转文本系统。而如今建立这样一个系统最大的障碍就是音频合成的速度,因为以前的方法需要花几分钟到几小时来生成仅仅几秒钟的语音。我们致力于解决该难题,并且已经做到了实时的语音合成,这相比以前的 WaveNet 推理的实现有 400 倍的加速。
从文本合成人工语音,也就是我们所熟知的文本转语音(TTS),在许多的应用中都是非常重要的组件,比如语音设备、导航系统和对视力障碍人群的辅助应用。从基础上,它使得人类在不需要视觉界面的情况下能与科技进行交互。
现代 TTS 系统主要基于复杂的、多阶段处理流程(pipeline),每个都依赖人工调配的特征参数以及启发式规则。由于这种复杂性,开发新的 TTS 系统需要大量的人力,也非常的困难。
Deep Vioce 受启发于传统的文本转语音处理流程采用了同样的架构,但使用神经网络取代了所有组件且使用了更简单的特征。这使得我们的系统更适用于新数据集、语音和没有任何手动数据注释或其他特征调配的领域。
Deep Voice 为真正的端到端语音合成奠定了基础,这种端到端系统没有复杂的处理流程,也不依赖于人工调配(hand-engineered)的特征作为输入或进行预训练(pre-training)。
我们目前的流程并不是端到端的,由音素模型(phoneme model)和语音合成组件所构成。下面的剪辑是通过整个流程由文本合成的语音。