电脑传奇(外篇)：视“觉”-2 #传奇

-loading-

2020-07-02 , 880 , 0 , 216

听音频 🔊 . 看视频 🎦

14.视觉计算

与蝇视觉相比，人类视觉要复杂得多。

果蝇全部神经元约25万个，人类初级视皮层神经元就有2.8亿个，两者差距上万倍，更遑论结构复杂性。

但是，视觉的难度在人工智能早期被严重低估。

1967年，明斯基宣称，“创建‘人工智能’只需要一代人”。他的同事佩帕特则表示，“计算机联上摄像头，‘描绘它看到什么’这个问题一个暑期项目就能搞定”。

两人在1969年出版《感知机》，挑起人工智能和神经网络之战。

麻省理工学院人工智能实验室也在1970年正式成立。然而好景不长，1971年，神经网络旗手罗森布拉特猝然辞世，神经网络进入寒冬。唇亡齿寒，人工智能也未能坚持太久，1974年，英国和美国相继斩断对人工智能的资助。

人工智能寒冬将至未至的1973年，大卫·马尔(David Courtnay Marr, 1945-1980)加入麻省理工学院人工智能实验室。明斯基和佩帕特延揽马尔，是希望他收拾机器视觉这个牛皮吹破的“烂摊子”。马尔曾引用一段话描述当时的状况：“一些（计算机视觉）研究者都有一种共同的、几乎是令人绝望的感受：在一幅图像中任何事情都可能发生，而且事实上所有的事情也都在图像中发生。”

马尔1966年从剑桥大学获得硕士学位，本科和硕士专业都是数学，后转向神经生理学，1972年获得生理学博士学位。博士论文的内容是基于解剖学和生理学数据的小脑功能建模。1973年10月，马尔在给自己博士导师的信中说，决定把研究兴趣转到视觉，12月又写信说，“再也不准备写任何理论神经生理学方面的论文了”。

马尔说到做到，全身心投入视觉计算研究，1977年获生理学系正式教职，1980年升任教授，当年因白血病辞世。马尔的同事和学生把他尚未完成的《视觉》[12]补充完善出版，成为计算机视觉的开山之作。

马尔对视觉计算理论的重大贡献是把神经生理学和计算机科学深度结合。据波焦回忆，他1973年初次造访波士顿就见到了马尔，两人当时谈论的是马尔感兴趣的视网膜特征检测器。

1976年，波焦再次到麻省理工学院短期访问。

两人讨论认为，大脑和计算机都是信息处理系统[13]，而理解一个复杂的信息系统，至少应该分成三个层次：计算理论（对功能和行为的理解）、表征和处理、物理实现，这奠定了《视觉》一书的基本思想。

这个思想对神经生理学是一股新风，但在计算机学科却是常识：底层物理实现就是计算机本身（主要是体系结构）；中层的表征对应数据结构，处理对应算法；顶层是对要解决的问题进行理论分析建模。马尔把重点放在中间层，因此把“人对视觉信息的表征和处理的计算研究”作为《视觉》一书的副标题 [12]。

马尔在著作中描述了自己的“思想转变”过程：“我也曾相信，真理从根本上是属于神经的，研究的中心任务就是对神经系统的结构做彻底的功能分析”，转变为“用神经元（除作为实现一种计算方法的手段外）对视觉现象所做的任何解释已经不堪回首了。

取代它们的是对一系列问题的明确认识：要计算的是什么东西？怎样才能进行这种计算？计算使用的方法基于哪些物理假设？对可执行这种计算的算法怎样进行分析？”

马尔的视觉计算理论影响至今，但基于这套理论开发的计算机视觉系统，即使经过多年改进，也还远远不能和生物视觉系统相提并论。

回过头来看，马尔的视觉计算理论固然是一座重要的里程碑，但也是一个先天不足的早产儿。

马尔的视觉计算理论采纳了当时最新的神经生理学成果，但当时的神经生理学还不足以支撑这个新兴学科，马尔只能猜测视觉信息的处理过程。

“表征”是马尔视觉计算理论的核心之一，马尔将之划分为“要素图→物体2.5维描述→3维描述”三个层级，但是提取这些表征的算法很难获得可靠结果。“处理”是这套理论的核心之二，是“从一种表征获得另一种表征的一个映射”，处理流程自底向上，而实际的生物视觉系统是“自顶向下”和“自底向上”相互作用的双向动态过程。

20世纪70年代神经生理学家转向解剖学和可塑性，马尔认为是“停滞了”，这种看法失之偏颇。大脑皮层需要映射大千世界的各种复杂结构，必须有可塑性，这是大脑信息处理能力强大的关键。

因此，这个“转向”不是停滞，而是正确选择。当然，即使在今天，要突破计算机视觉，脑科学和神经科学仍然还有很长的路要走。

马尔假定底层“物理实现”是计算机，这个将要创立的新学科不是机器视觉，而是计算机视觉，这在当时对促进两个学科结合意义重大。

但是，计算机并非实现机器视觉的理想平台。生物大脑是个复杂的结构，已经为一些复杂功能进化出了专门的结构，因此“算法”就可以相对简单。

经典计算机是个简单的串行结构，实现视觉功能需要复杂的算法，有些视觉功能难以实现，甚至不能实现，必须依靠神经网络才能实现。

“先结构，后功能”是最终解决视觉计算问题的必由之路。近年来，深度学习利用海量数据训练出特征滤波器，采用多层神经网络结构提高表达能力，在图像识别等方面已经超越人类，说明“结构先行”的路线是有效的。当然，目前深度学习针对专门视觉任务“就事论事”，还远不是视觉的全部。

下一步应该从生物视觉系统中获得更多支持：视网膜是亿万年“进化大数据”训练的结果，是更为合适的视觉滤波器；视皮层不仅仅是多层结构，而是层级结构，这对人工神经网络设计也有重要参考价值；生物视觉对时空信息的处理机制更为巧妙，前馈、反馈和侧向互动更是机器视觉应该学习的。

-loading-

机器视觉要逼近乃至超越人类视觉，需要以人类视觉系统神经网络解析为基础，先构造具有类似视觉功能的机器视觉系统，再对该系统的信息加工过程进行分析，从而理解视觉功能背后的原理，进而设计更优的机器视觉系统。纵使马尔这样的天才，也不能逆转这个历史过程。

UfqiLong

15.回归结构

机器视觉对生物视觉的借鉴，首先是视网膜信号加工和信息处理过程。

神经形态工程开创者卡弗·米德就对生物视觉特别着迷。

他曾表示：“我对动物视觉系统背后的机制越来越佩服，我总是对自己说，‘我永远也想不到这一点，但这确实是个好主意’。”[14]在他的指导下，1985年入学的博士生米莎(Misha Mahowald)研制出硅视网膜(silicon retina)，采用与亚阈值MOS晶体管耦合的光电转换器件仿真视感受器，用二维电阻网络模拟视网膜水平细胞，将光电转换信号和水平细胞之差作为双极细胞输出，能够再现赫尔曼格点这样的视错觉现象[15]。

米莎入学时的专业方向是计算与神经系统(computation and neural systems)，1992年获得了计算神经科学(computational neuroscience)博士学位，这也是这个新兴学科确立的重要标志。

接手米莎工作的师弟博阿汉实现了基于地址事件表达(Address Event Representation, AER)异步传输的视网膜形态视觉系统[16]（之后他到斯坦福大学做神经形态计算系统Neurogrid）。

米莎1995年加入瑞士苏黎世大学和联邦理工学院联合创办的神经信息学研究所，至今视觉神经计算仍然是该所的重要研究方向。另外，多所大学也纷纷开展相关研究和芯片研制，仿视网膜应用日益增多。例如，IBM TrueNorth团队就采用神经信息学研究所的DVS芯片进行目标检测。

加里克·奥查德(Garrick Orchard)等人提出了一种利用AER视觉传感器所蕴含的时域信息进行对象识别的方法[17]。

仿视网膜芯片抓住了生物视网膜的部分特性，但还只是冰山一角。

正如2010年的综述论文《眼睛比科学家认为的更聪明：视网膜网络中的神经计算》[18]所言，生物视网膜还有大量巧妙特性等待发现。

为了获得视网膜的精细结构，麻省理工学院脑和认知科学系的承现峻（Sebastian Seung，现在普林斯顿大学）2012年发起Eyewire众包行动，来自150多个国家的20多万网友参与鼠视网膜电镜扫描图像的标注，发现了支持方向选择的具有时空连接特异性的精细网络结构[19]。

视皮层是大脑皮层中研究最多，也了解最多的部分，但就像大卫·休伯尔(David H. Hubel, 1926-2013)所言[20]，“我们可以看见中等距离的山峦，但还远远看不到尽头”。从他和威塞尔(Torsten Wiesel, 1924-)1959年在猫初级视皮层(V1)发现对特定朝向敏感的神经元以及眼优势柱开始，至今灵长类视皮层各功能区的精细分区已很清晰，从接收视束输入的V1（纹状皮层）到纹外V2、V3、V4、V5各分区之间的介观连接图谱已经绘制完成[21]，但神经元和突触层次的微观网络绘制还需要艰苦努力。

2016年3月，美国情报高级研究计划署MICrONS（大脑皮层网络机器智能）计划对1立方毫米的鼠视皮层进行反向工程，希望改进机器学习和人工智能算法，这是计算机视觉研究回归神经网络结构基础的重要标志。

在北京“脑科学与类脑研究”计划《脑初级视觉系统解析仿真平台研究与应用验证》的支持下，北京大学对灵长类视网膜中央凹进行了精细解析和仿真建模。

唐世明研究组对基因标记的清醒猴视皮层神经元和树突活动进行了长时间稳定清晰成像 [22]，开启了微观层面研究视觉乃至高级认知功能的大门。

16.意识开关

眼睛是心灵之窗，是大脑感知外部世界最重要的通道。

通往人类大脑的视觉、听觉、触觉和味觉等感知神经共计300多万根，其中每只眼睛各100多万根。

这些感知通道都采用神经脉冲向大脑皮层报告外界环境的信息。

1978年，美国神经学家弗农·蒙特卡斯特（Vernon Mountcastle, 1918-2015，1950年发现皮层功能柱结构）在《大脑功能的组织原理》中提出[23]，大脑皮层处理视、听、触等感知信息的原理是一样的。

因此，一旦发现了大脑的视觉“算法”，也适合其他感知通道。

对于计算机视觉研究者来说，视觉往往就是指识别，但识别只是视觉的外显功能。

视觉首先是“觉”，即知觉或意识(awareness或consciousness)。

清醒状态下外部世界“如影随形”，意识丧失前“眼前一黑”，就是视觉意识在起作用。

闭上眼睛，即使最熟悉的人站在你面前，你也回忆不起长相细节。

这说明我们习以为常的视觉是一个转瞬即逝的状态，维护这个状态就是生物视觉的基本任务。

视觉占大脑功耗的一半，占全身1/10。

我们“闭上眼睛想想”，实际上是要把能量调配到负责高级意识活动的脑区。

今天已经普及的高清视频（200万像素，30帧/秒）的原始带宽为1.5Gbps，人类两只眼睛加起来的空间分辨率与之相当。

但是，眼睛通往大脑的视神经束的“数据带宽”还不到10Mbps[24]。

那么，幽居于颅骨内的大脑如何从这稀疏的神经脉冲流中解码出清晰的世界？如果能揭开生物神经系统的编码机理，就能找到极高效的视觉信息编解码算法。

意识是活体大脑这个复杂神经网络系统的动力学现象，视觉是揭示意识奥秘的重要突破口。

在采用自然科学方法解决意识问题的科学家中，弗朗西斯·克里克(Francis H. Crick, 1916-2004)是最著名的一位。

克里克是坚定的还原主义者。1953年，他发现DNA双螺旋结构，为复杂生命现象找到了精细的物质基础。为了研究意识，1976年克里克加入美国圣迭亚哥索尔克研究所。

1979年，克里克邀请马尔和波焦来访，探讨视皮层结构和典型视觉功能的关系，例如初级视皮层的4cβ层的图像插值和锐度提升作用[25]。

1981年，克里克在德国马普生物控制论研究所遇到波焦的博士生克里斯托夫·科赫(Christof Koch，1956-)。科赫毕业后先在麻省理工学院跟随波焦数年，1986年加入加州理工学院。他指导博士生伊狄(Laurent Itti)开启的视觉显著计算广为人知，但他来加州理工学院的主要目的是与克里克相会。

-loading-

UfqiLong

1990年，两人合作发表《意识的神经生物学理论刍议》[26]，提出意识问题必须从也只能从神经基础进行逐步揭示，论文以视觉为例展开。

2003年，两人发表《意识的框架》[27]，提出人类意识可能是大脑皮层前扣带回的一组神经元以伽马振荡形式产生的。

同年，科赫出版《意识探秘》[28]，仍然围绕视觉展开，猜测在腹侧视觉通路较高层最有可能找到视觉意识相关的神经元。

2004年，克里克去世那天还在修改一篇论文[29]，猜测屏状核可能是意识这首交响乐的总指挥。

2014年，对一位左屏状核附近安装了电极的癫痫病人进行实验表明，刺激确实可以起到意识开关作用[30]。

从道理上讲，用透颅磁刺激正常人屏状核，就有可能体验到意识的暂停或重启，眼前世界就会消失或重现。但大脑如果没有自动重启，那就真玩过火了！所以还是老老实实仿照生物大脑制造“电脑”和“电眼”吧，这样就有机会动动它的“电屏状核”，当然是它在苏醒之前……

这正是：

开辟鸿蒙，谁为物种？都只为光影撩动。

飞蛾扑火，跳蛛觅侣，青蛙捉虫，无外乎生死食色本性。

视觉奥秘万千重，计算理论早产，撇下结构论功能，纵使马尔亦不成。

电脑再革命，感知须先行。

视网膜探微，视皮层厘清。电眼观世界，意识悄然醒。

趁着这迷离天，朦胧日，懵懂时，试遣愚衷。

因此上演出这怀今悼预的电脑梦。■

参考文献

[1] Pitts W, Mcculloch W S. How we know universals; the perception of auditory and visual forms[J]. Bulletin of Mathematical Biophysics, 1947, 9(3):127-147.

[2] Howland B, Lettvin J Y, Mcculloch W S, et al. Reflex inhibition by dorsal root interaction[J]. Journal of Ｎeurophysiology, 1955, 18(1):1-17.

[3] Wall P D, Mcculloch W S, Lettvin J Y, et al. Effects of strychnine with special reference to spinal afferent fibres[J]. Epilepsia, 1955, 4(1):29-40.

[4] Lettvin J, Maturana H, McCulloch W, et al. What the frog's eye tells the frog's brain[J].Proceedings of the Institute of Radio Engineers,1959, 47: 1940-1951.

[5] Maturana H R, Lettvin J Y, Mcculloch W S, et al. Anatomy and physiology of vision in the frog (Rana pipiens).[J]. Journal of General Physiology, 1960, 43(6)suppl:129-175.

[6] Gesteland R C, Lettvin J Y, Pitts W H. Chemical transmission in the nose of the frog[J]. Journal of Physiology, 1965, 181(3):525-559.

[7] Barlow H B. Summation and inhibition in the frog’s retina[J]. Journal of Physiology,1953,119(1):69-88.

[8] Gerter A. The man who tried to redeem the world with logic[J]. Nautilus, 2015, 2.

[9] Yong E. Seeing the light[J]. National Geographic, 2016,2.

[10] Reichardt W, Poggio T. Visual control of orientation behaviour in the fly. Part I. A quantitative analysis[J]. Quarterly Reviews of Biophysics, 1976, 9(9):311-75, 428-38.

[11] Poggio T, Reichardt W. Visual control of orientation behaviour in the fly. Part II Towards the underlying neural interactions[J]. Q Rev Biophys,1976, 9(3):377-438.

[12] Marr D. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information[M]. New York: Freeman. 1982.

[13] Marr D, Poggio T. From understanding computation to understanding neural circuitry[J]. Neurosciences Research Program Bulletin, 1976(3):470-491.

[14] Freedman D H. Brain makers - how scientists are moving beyond computers to create a rival to the human brain[M]. New York: Touchstone, 1995.

[15] Mahowald M. An Analog VLSI System for Stereoscopic Vision[M]. Kluwer Academic press, 1994.

[16] Boahen K A. A retinomorphic vision system[J]. IEEE Micro, 1996,16(5):30-39.

[17] Orchard G, Meyer C, Etiennecummings R, et al. HFirst: A Temporal Approach to Object Recognition[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(10):1-1.

[18] Gollisch T, Meister M. Eye smarter than scientists believed: neural computations in circuits of the retina.[J]. Neuron, 2010, 65(2):150-164.

[19] Kim J S, Greene M J, Zlateski A, et al. Space-time wiring specificity supports direction selectivity in the retina[J]. Nature, 2014, 509(7500):331-336.

[20] David H. Hubel. Eye, Brain, and Vision (2nd edition)[M]. W. H. Freeman. 1995.

[21] Dicarlo J J, Zoccolan D, Rust N C. How Does the Brain Solve Visual Object Recognition?[J]. Neuron, 2012, 73(3):415-434.

[22] Li M, Liu F, Jiang H, and et al. Long-Term Two-Photon Imaging in Awake Macaque Monkey[OL]. http://dx.doi.org/10.1016/j.neuron.2017.01.027, Neuron. Feb. 2017.

[23] Mountcastle V. An organizing principle for cerebral function: the unit model and the distributed system[J].The Mindful Brain, G. Edelman and V. Mountcastle, Eds., MIT Press, 1978:7-50.

[24] Koch K, Mclean J, Segev R, et al. How Much the Eye Tells the Brain[J]. Current Biology Cb, 2006, 16(14):1428-1434.

[25] Francis H. C. Crick, David C. Marr, Tomaso Poggio. An information processing approach to under the visual cortex[J]. The Organization of the Cerebral Cortex, ed. by F. O. Schmitt, F. G. Worden, G. Edleman and S. C. Dennis. MIT Press, 1981:505-533.

[26] Crick F, Koch C. Towards a neurobiological theory of consciousness[J]. Seminars in the neurosciences. 1990, (2):263-275.

[27] Crick F, Koch C. A framework for consciousness[J]. Nature Neuroscience. 2003,6(2):119-126, 2003.

[28] Koch C. The Quest for Consciousness: A Neurobiological Approach[M]. Roberts & Company Publishers, 2004.

[29] Crick F C, Koch C. What is the function of the claustrum?[J]. Philosophical Transactions of the Royal Society B Biological Sciences, 2005, 360(1458):1271-1279.

[30] Koubeissi M Z, Bartolomei F, Beltagy A, et al. Electrical stimulation of a small brain area reversibly disrupts consciousness.[J]. Epilepsy & Behavior, 2014, 37(37C):32-35.