
既然无法左右天南海北的用户怎么说,那就好好教导微信如何“洗耳恭听”。
2012年,微信团队悄悄开始投入语音系统的研究。不过,当时的尝试也仅仅是“谨慎”地上线了个语音提醒的公众号,并未过多发挥。
直到2013年,微信推出的语音输入在业界获得了巨大成功,随后在2014年,正式上线了语音转文字功能。有意思的是,如此实用的功能,入口却被微信“藏”的极深,但用户量越来越多。
你发现了吗?语音输入是在附加菜单里,语音转文字必须长按语音消息才能看到。
微信团队解释说,微信每一个接口和功能都是极为“克制”的,所有的设计都是跟随用户实际需求,而非炫耀技术。入口藏的深一点,可以避免骚扰那些不需要使用该功能的用户。
微信采用了深度学习法并迎难而上
回到技术——
首先,微信采用了深度学习法。简单而言,语音识别系统的输入是语音,输出的是汉字,机器要学习从语音到语言的映射关系。
先说语音,我们要教会微信怎么听。人的发声从声带的震动,要经过声道,口腔,受到其中很多肌肉组织运动的影响,类似原始信号要经过复杂函数的变换,深度学习框架由于具有多层结构,能很好的模拟这种复杂函数。
再说语言,我们要教会微信怎么懂。通常我们说的话是要符合句法的(组合性),而且要符合搭配习惯(因果性),我们要让机器学习到这种规律。其中的难点是词义,比如“知道”和“了解”读音截然不同,但词义有时是差不多的。
“研表究明,汉字的序顺不影阅响读。”
“比如当看你完这话句后,会发这现里的字全是都乱的。 ”
你看,很多时候,我们可能不会百分百听清楚一句话,但是我们还是能够根据语境和词语的组合发音方式明白它的意思。
机器深度学习的方式模仿了人类大脑的神经元,当处理的语言越来越多时,这种网络就可以逐渐理解语言。简单点说,语音识别系统就好比一个人学一门语言,同等聪明的情况下,听到的话(训练数据)越多,越容易识别出好的结果。
微信采用深度学习技术,并且微信拥有庞大的用户基础,有天然的语音交互场景,也拥有大量的语音资源积累,这也成为微信语音交互技术迅速发展的重要原因之一。
同时,疯狂的技术团队一直在知难而上。
除了深度学习以外,微信还做过哪些努力让语音识别更好用呢?微信语音识别团队一口气举了太多例子,小派深思熟虑后,挑了自己能听懂的来说……
比如,针对口语风格(比如电话)下的性能问题,微信采用了一个良好的分段断句引擎,融合了音频属性,说话人以及部分语义信息,能够良好的断句;
为克服噪声的影响,微信通过模拟真实场景的算法,可以把过去的无噪数据转换成包含多种不同场景噪声数据,让模型在学习内容的同时也学习到了不同的环境干扰。
对大数据下的难题,由于每个用户个体的声音都不一样,通用模型的长尾问题是导致错误发生的重要原因。微信不拘一格,通过算法让声学模型在学习的过程中将说话人的信息抹去,这样的做法也对提升识别率有了一定的帮助。
随着微信的语音识别技术不断发展。当识别率越高,就越能给实际场景运用中的用户带来更好体验,甚至会彻底改变玩法,也让用户对语音的依赖大大提升。
未来,微信将直接和你聊天
等AI能真正听懂了,对话还会远吗?
开头那些科幻电影里的人机语音交互场景,已经看得见摸得着。
正如人有五感一样,手机也有相应的图像识别、语音识别、NFC通讯等等“感官”。尤其语音作为一个重要的入口,苹果的siri、微软的cortana、google now等等应用纷至沓来。
很多人都没留意到,去年底,微信团队和香港科技大学宣布成立人工智能联合实验室,研究的主要方向是:数据挖掘、机器人对话、机器视觉、语音识别。有庞大的用户基础,有天然的语音交互场景,如果将不断智能化的语音助手作为微信的入口之一,微信的生态会进一步进化。
智能家居、互联网汽车、智慧医疗、在线教育、自动电话客服、机器同声传译等等领域都将充斥着语音交互技术。想象一下,当你不仅仅可以语音聊天及输入,而是可以告诉你的闹钟晚个10分钟再叫,用语音搜索要去吃饭的餐厅,或者开车的时候随口发个短信或者邮件。甚至,你的机器人助手完全可以听明白你随口说的每一句话,像一个拥有智慧的人一样跟你互动,那会是多么让人激动的事情。
这一切必将发生在未来,也许就是不久的未来。 (来源:微信派)