深度学习有多深? 学了究竟有几分? (四)

(1)

九十年代末, 神经网络研究遇到的困境,除了慢,还是慢。

抛开计算速度的因素,传统神经网络的反向传播算法,捉虫时极为困难,一个根本的问题叫做所谓 vanishing gradient problem (梯度消失问题)。

这个问题在1991年, 被德国学者 Sepp Hochreiter第一次清晰提出和阐明原因。

简单的说, 就是成本函数 (cost function)从输出层反向传播时, 每经过一层,梯度衰减速度极快, 学习速度变得极慢, 神经网络很容易停滞于局部最优解而无法自拔。

这就像原始部落的小混混,山中无老虎时,在本地称王称霸很舒服。但任何关于"外面的世界很精彩"的信息, 在落后的层层传播机制中被噪音混淆淹没了。

小混混一辈子很开心, 没有意识到外面的世界有多大, 也从未想出去多看看。

支持向量机 (SVM) 技术在图像和语音识别方面的成功, 使得神经网络的研究重新陷入低潮。

SVM 理论上更加严谨完备, 结果重复性好, 上手简单, 得到主流学术界的追捧。

学术界的共识是: 多层神经网络的计算模型, 实践效果不好,完全没有前途。这是个死胡同。

这个情况到本世纪初,变得如此糟糕, 以至于任何论文送到学术期刊时,研究者都不敢用 "神经网络"几个字,免得被粗暴拒绝。

2003年, Geoffrey Hinton, 还在多伦多大学, 在神经网络的领域苦苦坚守。

一个五十六岁的穷教授, 搞了三十多年没有前途的研究,要四处绞尽脑汁, 化缘申请研究经费. 他不是卢瑟 (loser) , 谁还是卢瑟?

2003年在温哥华大都会酒店, 以Hinton 为首的十五名来自各地的不同专业的科学家, 和加拿大先进研究院 (Canadan Institue oF Advanced Research, 简称 CIFAR) 的基金管理负责人, Melvin Silverman 交谈。

Silverman 问大家,为什么 CIFAR 要支持他们的研究项目。

计算神经科学研究者, Sebastian Sung (现为普林斯顿大学教授), 回答道, "喔, 因为我们有点古怪. 如果CIFAR 要跳出自己的舒适区,寻找一个高风险,极具探索性的团体,就应当资助我们了!"

最终 CIFAR 同意从2004年开始资助这个团体十年,总额一千万加元. CIFAR 成为当时, 世界上唯一支持神经网络研究的机构。