这里并非视神经解剖学课程,但可以说,我们的大脑从一开始就完美地支持了视觉。相对于执行其他任务,大脑负责视觉的部分更多,而这些功能一直深入至细胞层面。数十亿细胞协同工作,从视网膜嘈杂、无序的信号中提取出模式。
如果视觉信息中出现某种模式,例如特定角度的线条,或是向着某个方向的快速运动,那么神经元将会被激活。更高层次的网络将这些模式聚合成为“元模式”。一个网络会判断,这一圆环是白色,有着红色的线条。而另一个网络会判断,这一圆环的尺寸在扩大。随后,基于这些信息大脑将会判断影像是什么。
由于这些网络非常复杂,早期的计算机视觉研究采取了不同的方法:“从顶向下”的推理。例如,一本书的外观是“这样”,因此“这样”的影像就是一本书。汽车看起来是“这样”,其运动方式又是“这样”。
对于受控环境下的少数对象,这种模式运转良好。然而,如果尝试描述周围不同角度的所有对象,这些对象的光照和运动情况都不同,那么很明显计算机需要获得大量数据,而这是不切实际的。
模拟人脑的“自底向上”模式看起来更有前景。计算机可以对图像进行一系列的转换,发现其中的边缘。而通过对多张图片的分析,计算机可以了解其含义、角度和运动情况。这些流程中包含大量的数学和统计学方法,但这种方式可以让计算机将需要识别的图像与已知图像进行对比。这与我们大脑的机制类似。
“自底向上”架构的支持者或许说过“我告诉你就是这样”。但实际上直到最近几年,人工神经网络的开发和运行还不切实际,因为这样的神经网络需要消耗大量的计算资源。并行计算的发展解决了这些障碍,过去几年,模拟人脑的计算机系统获得了长足发展。模式识别能力有了几个数量级的提升,而目前我们仍在这一领域取得不断的进展。