这篇文章是 深度学习有多深? 学了究竟有几分? (一) 的续篇.
1970年,当神经网络研究的第一个寒冬降临时,在英国的爱丁堡大学,一位二十三岁的年轻人, Geoffrey Hinton, 刚刚获得心理学的学士学位。
Hinton 六十年代还是中学生时,就对脑科学着迷。当时一个同学给他介绍关于大脑记忆的理论是:
大脑对于事物和概念的记忆, 不是存储在某个单一的地点,而是像全息照片一样, 分布式地, 存在于一个巨大的神经元的网络里。
分布式表征 (Distributed Representation), 是神经网络研究的一个核心思想。
它的意思是,当你表达一个概念的时候,不是用单个神经元,一对一地存储定义; 概念和神经元是多对多的关系: 一个概念可以用多个神经元共同定义表达, 同时一个神经元也可以参与多个不同概念的表达。
举个最简单的例子, 一辆 "大白卡车",如果分布式地表达,一个神经元代表大小,一个神经元代表颜色,第三个神经元代表车的类别. 三个神经元同时激活时,就可以准确描述我们要表达的物体。
分布式表征,和传统的 局部表征 (localized representation) 相比,存储效率高很多。线性增加的神经元数目,可以表达指数级增加的大量不同概念。
分布式表征的另一个优点是,即使局部出现硬件故障,信息的表达不会受到根本性的破坏。
这个理念让 Hinton 顿悟, 使他四十多年来, 一直在神经网络研究的领域里坚持下来没有退缩。
本科毕业后, Hinton 选择继续在爱丁堡大学读研, 把人工智能作为自己的博士研究方向。
周围的一些朋友对此颇为不解. "你疯了吗? 为什么浪费时间在这些东西上? 这 (神经网络)早就被证明是扯淡的东西了。"
Hinton 1978 年在爱丁堡获得博士学位后, 来到美国继续他的研究工作。
神经网络当年被 Minsky 诟病的问题之一是巨大的计算量。
简单说,传统的感知器用所谓 "梯度下降"的算法纠错时,耗费的计算量,和神经元数目的平方成正比。当神经元数目增多,庞大的计算量,是当时的硬件无法胜任的。
1986年七月, Hinton 和 David Rumelhart 合作在自然杂志上发表论文, "Learning Representations by Back-propagating errors", 第一次系统简洁地阐述,反向传播算法在神经网络模型上的应用。
反向传播算法,把纠错的运算量, 下降到只和神经元数目本身成正比。