皮茨打小就喜欢数学和哲学,初中时还读过罗素的《数学原理》,还和罗素通信,罗素爱才,邀请他到英国跟随自己学习逻辑。但皮茨家里是苦出身,连高中都读不起,英国留学自然未果。他十五岁时,他爸强行要他退学上班,就像所有爱读书的穷孩子,皮茨一怒就离家出走了。他打听到偶像罗素那时要到芝加哥大学任教,就只身来到芝加哥,还真见到了罗素,老罗遂把他推荐给那时也在芝加哥任教的卡尔纳普。卡尔纳普想看看这孩子到底有多聪明,就把自己的《语言的逻辑句法》一书送给皮茨,没过一个月,皮茨就看完了,把写满笔记的原书还给卡尔纳普。老卡惊为天人,于是给他在芝加哥大学安排了份打扫卫生的工作。别看不起打扫卫生,电影《心灵捕手》(Good Will Hunting)里马特·达蒙饰演的角色也是在知名大学打扫卫生时,不小心解了道数学难题,引起老师的注意。扫马路至少可避免流浪街头。皮茨后来结识了也在芝加哥的麦卡洛可。
沃伦-麦卡洛可比皮茨大一辈,他本科在耶鲁学哲学和心理学,后在哥伦比亚得了心理学硕士和医学博士(MD),其实医学博士和哲学博士不是一回事,MD不是学术学位,属终极职业学位,和MBA、MFA差不多。MD的那个D是指“医生”,PhD的D才是博士。麦卡洛可毕业后做了几年实习医生,先去了耶鲁研究神经生理学,后又去了伊利诺伊大学芝加哥分校,做精神病学系的教授。麦卡洛可的强项是神经科学,但不懂数学,他和十七岁的流浪汉数学票友皮茨是绝配。他们合作的成果就是神经网络的第一篇文章:“A Logical Calculus of Ideas Immanent in Nervous Activity”, 发表在《数学生物物理期刊》上。这篇文章也成了控制论的思想源泉之一。
1949年,神经心理学家Hebb出版《行为组织学》(Organization of Behavior),在该书中,Hebb提出了被后人称为“Hebb规则”的学习机制。这个规则认为如果两个细胞总是同时激活的话,它们之间就有某种关联,同时激活的概率越高,关联度也越高。换句话说,就是“吃啥补啥”。2000年诺贝尔医学奖得主肯德尔(Eric Kandel)的动物实验也证实了Hebb规则。后来的各种无监督机器学习算法或多或少都是Hebb规则的变种。
弗兰克·罗森布拉特
神经网络研究的后一个大突破是1957年。康奈尔大学的实验心理学家弗兰克·罗森布拉特在一台IBM-704计算机上模拟实现了一种他发明的叫作“感知机”(Perceptron)的神经网络模型。这个模型可以完成一些简单的视觉处理任务。这引起了轰动。罗森布拉特在理论上证明了单层神经网络在处理线性可分的模式识别问题时,可以收敛,并以此为基础,做了若干“感知机”有学习能力的实验。罗森布拉特1962年出了本书:《神经动力学原理:感知机和大脑机制的理论》(Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms),这书总结了他的所有研究成果,一时成为“吃啥补啥”派的圣经。罗森布拉特的名声越来越大,得到的研究经费也越来越多。国防部和海军都资助了他的研究工作。媒体对罗森布拉特也表现出了过度的关注。毕竟,能够构建一台可以模拟大脑的机器,当然是一个头版头条的抢眼消息。此时的罗森布拉特也一改往日的害羞,经常在媒体出镜,他开跑车、弹钢琴,到处显摆。这使得另一派的人相当不爽。
明斯基是人工智能的奠基人之一,是达特茅斯会议的组织者。明斯基在一次会议上和罗森布拉特大吵,他认为神经网络不能解决人工智能的问题。随后,明斯基和麻省理工学院的另一位教授佩普特合作,企图从理论上证明他们的观点。他们合作的成果就是那本影响巨大、“是也非也”的书:《感知机:计算几何学》(Perceptrons: An Introduction to Computational Geometry)。在书中,明斯基和佩普特证明单层神经网络不能解决XOR(异或)问题。异或是一个基本逻辑问题,如果这个问题都解决不了,那神经网络的计算能力实在有限。其实罗森布拉特也已猜到“感知机”可能存在限制,特别是在“符号处理”方面,并以他神经心理学家的经验指出,某些大脑受到伤害的人也不能处理符号。但“感知机”的缺陷被明斯基以一种敌意的方式呈现,当时对罗森布拉特是致命打击。所有原来的政府资助机构也逐渐停止对神经网络的研究。1971年,罗森布拉特四十三岁生日那天,在划船时淹死。很多人认为他是自杀。王国维沉湖时遗言“经此世变,义无再辱”,在罗森布拉特,我猜“辱”是明斯基的书,“世变”是随后“神经网络”学科的消沉。不同的是,王静安谓之“世变”是历史潮流,但神经网络学科十年后会逆袭。
表面是科学,但有证据表明明斯基和罗森布拉特以前就有瓜葛。他们是中学同学。布朗克斯(Bronx)科学高中大概是全世界最好的高中,毕业生里出过八个诺贝尔奖、六个普利策奖、一个图灵奖。远的不说,明斯基是1945年毕业生,而罗森布拉特是1946年毕业生。美国高中学制四年,明斯基和罗森布拉特至少有两年重叠,而且彼此认识,互相嫉妒。1956年的达特茅斯会议定义了“人工智能”这个词,会议的组织者包括明斯基、麦卡锡和香农等,参会者还有司马贺,纽威尔等。这个会议在定义“人工智能”领域时只是提到了神经网络。那时明斯基是神经网络的支持者。他1954年在普林斯顿的博士论文题目是“神经-模拟强化系统的理论,及其在大脑模型问题上的应用”(Theory of Neural-Analog Reinforcement Systems and its Application to the Brain-Model Problem),实际是一篇关于神经网络的论文。他晚年接受采访时开玩笑说,那篇三百多页的博士论文从来没正式发表过,大概只印了三本,他自己也记不清内容了。貌似他想极力开脱自己和神经网络学科的千丝万缕的关系。达特茅斯会议的主题并不是神经网络,而是后来被纽维尔和司马贺称为“物理符号系统”的东西,也就是说达特茅斯会议,“想啥来啥”派是主要基调。
感知机的失败导致神经网络研究的式微,用加州理工学院的集成电路大佬米德(Carver Mead)的话说是“二十年大饥荒”。明斯基在《感知机》一书再版时,删除了原版中对罗森布拉特的个人攻击的句子,并手写了“纪念罗森布拉特”(In memory of Frank Rosenblatt)。但其他在“大饥荒”时期受到压迫的科学家认为明斯基不可原谅,后来神经网络得势后,这些人纷纷对明斯基口诛笔伐。美国电气电子工程师协会(IEEE)于2004年设立了罗森布拉特奖,以奖励在神经网络领域的杰出研究。
连接主义运动的成果之一就是那本著名的被称为PDP(Parallel and Distributed Processing)的文集(分两卷 )。此书的出版给认知科学和计算机科学吹了股大风,被后起的神经网络新秀们成为圣经。“神经网络”在八十年代就像九十年代的互联网,后来的Web2.0,和眼下的“大数据”。谁都想套套近乎。一些做理论的大佬也不能免俗,发明RSA算法的R(Rivest)也带了几个学生转做神经网络学习问题的复杂性。一时间红旗不倒,彩旗飘飘,好不热闹。1993年,美国电气电子工程师学会IEEE开始出版《神经网络会刊》,为该领域的高质量文章提供出版渠道。美国国防部和海军、能源部等也加大资助力度。神经网络一下子成了显学。
辛顿则先转往卡内基梅隆,最终到加拿大多伦多大学计算机系任教。辛顿现在可是神经网络最牛的人了。他还有一段不太为外人所知的革命家史:他是布尔的外曾曾孙子(对,就是“布尔代数”的那个布尔),他曾祖母Ellen是布尔的女儿。中国革命的参与者、美国铁杆左派韩丁和寒春(William and Joan Hinton)也是Ellen的孙子孙女,照这么说韩丁是辛顿的堂叔,寒春是辛顿的堂姑。布尔的小女儿、Ellen的妹妹伏尼契(Ethel Lilian Voynich)是传遍苏联和中国的小说《牛虻》的作者。《牛虻》西方不亮东方亮,在苏联和中国是几代人的革命加爱情励志畅销书。晚年在纽约生活陷入困顿的伏尼契,靠了苏联和周恩来特批的中国的意外稿费得以善终。这一家子把中国、苏联、革命、逻辑和神经网络都联系起来了,通吃“吃啥补啥”派和“想啥来啥”派。智力题:伏尼契和辛顿是啥关系。