语音交互技术和市场还有哪些不足？_小猪创梦CMS官方站,专业小程序电商分销商城 O2O平台开发商

国内普遍不太看好智能语音交互市场的原因其实很简单：体验不好，市场还早。的确，当前的语音交互技术，特别是远场语音交互技术还没有完全成熟，就连Echo至多也就是80分的水准。这主要是由于语音交互涉及了非常复杂的技术链条，包括了声学处理、语音识别、语义理解和语音合成等核心技术。

声学处理主要是仿真人类的耳朵，保证机器能够听得准真实环境下人的声音，语音识别则是把听到的人声翻译成文字，语义理解则分析这些文字的意义，语音合成就把机器要表达的文字翻译成语音。这四项技术虽然独立发展，但实际上无法割裂，同时在其他技术的配合下，才能形成一次语音交互的完整链条。

从当前的技术水平来看，这四项技术已经达到了商业初级可用的阶段，但是距离我们满意还应该有3-5年时间的距离。即便是被国内几家公司号称最为成熟的语音识别，其实也处在近场到远场的技术升级期。

以Siri为代表的近场语音识别已经发展了60多年，特别是在2009年以后借助深度学习有了实质性提高，但是正如扎克伯格所说的，当真正产品落地的时候，我们发现用户真正需要的却是类似Echo所倡导的远场语音识别。显然，这又是一个崭新的技术领域，因为拾音距离的扩大带来的问题不仅仅是语音信号的衰减，而且还带来了复杂的真实环境以及复杂的用户习惯。

以Siri为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景，比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号，同时还要求用户满足标准发音，其识别率才有可能达到95%以上。但是，若声源距离距离较远，并且真实环境存在大量的噪声、多径反射和混响，导致拾取信号的质量下降，这就会严重影响语音识别率。同样的，我们人类在复杂远场环境的表现也不如两两交耳的窃窃私语。

通常近场语音识别引擎在远场环境下，若没有声学处理的支持，比如麦克风阵列技术的适配，其真实场景识别率实际不足60%。而且，由于真实场景总是有多个声源和环境噪声叠加，比如经常会出现周边噪声干扰和多人同时说话的场景，这就更加重了语音识别的难度。因为当前的语音识别引擎，都是单人识别模式，无法同时处理多人识别的问题。

远场语音交互技术正在逐步成熟，Amazon通过Echo已经证明了远场语音交互已经迈过用户可接受的门槛，而国内的科大讯飞和声智科技也在发力这个领域。

从市场层面来看，语音交互毋庸置疑是继键盘、鼠标和触摸屏之后的主流交互方式，但是距离真正走入国内市场还总是差那么一点。技术链条仅仅是其中一个小部分原因，从战略认知、资金投入到需求挖掘，国内公司都欠缺了很大的火候，而国内各大巨头更应该在战略决心和技术链条上发力。智能语音交互的全球竞争之中，国内的AI巨头似乎才刚刚苏醒。

小程序产品

软件产品

友情链接

关注我们

小猪创梦CMS微信

小猪创梦CMS新浪微博

咨询热线

最近更新列表