房间里有人扔给你一个球,你伸手接住。这很简单,不是吗?
但实际上,这正是我们试图理解的最复杂的过程之一,而用机器去复现这样的过程更困难。发明一种能像人类一样观察的机器是非常困难的任务。这并不仅仅是因为,让计算机做这件事很困难,而是我们首先就没有彻底弄明白,我们自己是怎么做到的。
具体的机制大概如下:球的影像通过你的眼睛投射在视网膜上,视网膜将会进行一些初步分析,将信号传送给大脑,而视觉皮层将会更彻底地分析影像。随后,信号将被传送至大脑皮层的其他部位,并与已知的其他一切进行对比,而对象将被归类。大脑将决定你做出什么样的反应:伸出手接住球。这一切会在极短的时间内完成,对人类来说不会是有意识的行为,而成功率几乎是 100%。因此,重建人类视觉并不是单一的问题,而是一系列问题,且相互依赖。
没有人认为这很简单。人工智能的先驱马文·明斯基(Marvin Minsky)曾在 1966 年指导一名研究生“将摄像头连接至计算机,让计算机去描述对象”。然而遗憾的是,在 50 年之后,我们仍在研究这一问题。
关于计算机视觉的严肃研究从 50 年代开始,其中包括 3 个方面:模拟眼睛(困难),模拟视觉皮层(非常困难),以及模拟大脑的其他部分(被认为是难度最大的问题)。