400-893-5552

人工神经网络的三次崛起和两次低谷

 
2017-03-27 14:42:29所属分类:行业动态

回顾历史,今天遍地开花的神经网络,并不是最近才冒出来的新鲜玩意,而是名副其实的老古董。

\

深度学习所依附的神经网络技术起源于上世纪50年代,那个时候还叫感知机(Perceptron)。在人工神经网络领域中,感知机也被指为单层的人工神经网络,尽管结构简单,却能够学习并解决相当复杂的问题。

虽然最初被认为有着良好的发展潜能,但感知机最终被证明存在着严重的不可逾越的问题:它只能学习线性可分函数。连简单的异或(XOR映射)等线性不可分问题,都无能为力。

1969年,Marvin Minsky出版的《Perceptrons》书,是一个历史的转折点,神经网络第一次被打倒。Minsky的书最著名的观点有几个:

(1)单层感知机没用,我们需要用MLPs(多层感知机,多层神经网络的另一种说法)来代表简单的非线性函数,比如XOR (异或)映射;

(2)世界上没人有办法将MLPs训练得够好。

简而言之, 要解决感知机(单层神经网络)学习线性不可分函数的问题,就必须发展多层感知机,即中间包含一个隐层的两层神经网络。

但是当时,根本找不到运用在多层神经网络上的有效算法。

学术权威开启了神经网络的反右运动,悲观主义开始蔓延。从现在看,突破性的误差反向传播算法,即著名的BP算法,开启训练多层神经网络的“钥匙”,很早就有人发现了。

冰冻十年中,尽管Paul Werbos在1974年的博士毕业论文中深刻分析了将BP算法运用于神经网络方面的可能性,成为美国第一位提出可以将其用于神经网络的研究人员,但是他没有发表将BP算法用于神经网络这方面的研究。因为这个圈子大体已经失去解决那些问题的信念。

这时候我们的燕乐纯燕大侠上场了。80年代博士在学期间,他提出了神经网络的反向传播算法原型(当时他在Hinton的实验室做博士后研究,Hinton是燕乐纯的导师)。

众人只知道,1986年BP算法开始流行开来,是因为Rumelhart、Hinton、Williams合著的《Learning representations by back-propagating errors》,真正的,David Parker 和燕乐纯是事先发现这一研究进路的两人。

1989年,燕大侠加入贝尔实验室,他开始将1974年提出的标准反向传播算法应用于深度神经网络,这一网络被用于手写邮政编码识别,尽管因为种种问题失败。但是这一时期,燕大侠发明了真正可用的卷积神经网络。

到90年代中期,贝尔实验室商业化了一批基于卷积神经网络的系统,用于识别银行支票(印刷版和手写版均可识别)。直到90年代末,其中一个系统识别了全美国大概10%到20%的支票。

燕大侠和其他人发展的神经网络,正开始被热捧的时候,他一生较劲的对象Vapnik(贝尔实验室的同事)出现了。因为两层神经网络尽管解决了10年前困扰神经网络界的线性不可分问题,但是多层神经网络在实际发展中碰上了新的难题:

1.尽管使用了BP算法, 一次神经网络的训练仍然耗时太久,因为当时没有如今可以用于大规模并行计算的GPU。 比如,燕大侠最早做的手写邮政编码识别系统,神经网路的训练时间达到了3天,无法投入实际使用。

2.训练优化存在局部最优解问题, 即过拟合,也许这是机器学习的核心难题 。简要来说,过度拟合指的是对训练数据有着过于好的识别效果,这时导至模型非常复杂。这样的结果会导致对训练数据有非常好的识别较果,而对真实样本的识别效果非常差。

3.随着添加越来越多的隐含层,反向传播传递给较低层的信息会越来越少。 即著名的梯度消失问题 。由于信息向前反馈,不同层次间的梯度开始消失,对网络中权重的影响也会变小,因而隐藏层的节点数需要调参,这使得使用不太方便,训练的模型质量并不理想。

90年代中期,由Vapnik等人发明的支持向量机(Support Vector Machines,SVM)诞生,它同样解决了线性不可分问题,但是对比神经网络有全方位优势:

1高效,可以快速训练;2无需调参,没有梯度消失问题;3高效泛化,全局最优解,不存在过拟合问题。

几乎全方位的碾压。

SVM 迅速打败多层神经网络成为主流。后来一度发展到,只要你的论文中包含神经网络相关的字眼,非常容易被会议和期刊拒收,研究界那时对神经网络的不待见可想而知。

这个事情连如今的谷歌老大都记得。2017年年初,谢尔盖在达沃斯的一个对谈环节上还回忆说,

“坦诚来说,我根本没关注人工智能”,“90 年代学习计算机科学的人都知道,人工智能并不管用,人们尝试过,他们试过各种神经网络,没有一个管用。”

神经网络再次堕入黑暗。10年沉寂中,只有几个学者仍然在坚持研究。比如一再提及的Hinton教授。

2006年,Hinton在《Science》和相关期刊上发表了论文,首次提出了“深度置信网络”的概念。与传统的训练方式不同,深度信念网络有一个“预训练”(pre-training)的过程,它的作用是让神经网络权值找到一个接近最优解的值,之后再使用“微调”(fine-tuning)技术,即使用反向传播算法或者其他算法作为调优的手段,来对整个网络进行优化训练。这两个技术的运用大幅度提升了模型的性能,而且减少了训练多层神经网络的时间。他给多层神经网络相关的学习方法赋予了一个新名词——“深度学习”。

后面的故事我们都知道了,2012年Hinton的团队用燕乐纯赖以成名的卷积神经网络,和自己在深度置信网络的调优技术,碾压了其他机器学习办法。

至此,深度学习开始垄断人工智能的新闻报道,像Hinton、燕乐存和他们的学生摇滚明星一般受到追捧,惯于见风使舵的学者们也来了个180度大转变,现在是没有和深度学习沾上边的文章很难发表了。除了名,还有利,谷歌、Facebook、Twitter们不但把学术界人物挖了个遍,更是重金收购深度学习大佬们所创建的公司,坐了几十年冷板凳的人忽然一夜之间身价暴涨财务自由。

令人唏嘘的是,现在主导Facebook AI 实验室的燕乐纯,他不断呼吁学术界对深度学习保持冷静,批判深度学习的泡沫繁荣...

Copyright © 2013-2018 合肥彼岸互联信息技术有限公司 All Rights Reserved地址:合肥市高新区亚夏汽车大厦17楼
工信部备案号: 皖B2-20150071-4    增值电信业务经营许可证:皖B2-20150071-4 安全联盟认证 安全联盟认证 安全联盟实名认证

copyright@2015 合肥彼岸互联信息技术有限公司

电话:400-893-5552 0551-65371998 QQ:800022936

地址:合肥市高新区亚夏汽车大厦17楼