1950年,计算机科学家阿兰·图灵就在其论文《计算机与智能》中提出了著名的“图灵测试”,这是最早探讨机器智能与人机交互的代表。
在1952年,贝尔实验室研制出首个利用分离技术的实用语音识别设备,能识别出10个英语数字发音。
从1950年开始至今,语音识别技术经历了由小词汇、孤立词汇的识别,到大词汇量、特定声音识别的飞跃发展。然而,语音识别技术只是智能语音助手实现工作的第一步。
总的来说,语音助手实现其工作大体要经过三步:其一是前端的语音识别,即将声音转换成文字;其二是自然语言的理解,将文字解读成行为;其三是通过开放API接口等技术来实现行为等操作。
因此,语音助手能否提供强大的服务,主要取决于其技术和连接整合能力。在技术上,主要使用云计算、语音识别、语音合成等AI技术。即在前端面向用户时,主要需要语音识别、语音合成技术。在语音识别时,系统需要把语音转化成文字,这就需要强大的语音库作为支撑,就需要云计算技术。而语音合成则是将反馈的文字结果转化成语音输出。
在后端则是人工智能技术的使用。面对用户的众多请求,语音助手需要通过机器学习(深度神经网络)来不断自我学习,了解用户的说话方式和爱好需求,进而输出个性化的服务。
而其连接整合能力就是指,语音助手将越来越多的设备和服务接入,从而构建自身生态的能力。尤其是在智能家庭中,用户最终获得的是体验和服务,单一设备单一APP控制不是智能家居的追求,智能家居需要的是形成一个生态,形成一个闭环,从而通过一个入口来更便捷的控制所有设备。而这需要语音助手平台一方面开放其语音助手,另一方面也要加强商务合作,来聚合服务。