本文是 深度学习有多深? 学了究竟有几分? (六) 的续篇。
神经网络计算, 另一个常为人诟病的问题,是过度拟合 (overfitting)。
一个拥有大量自由参数的模型,很容易通过调试,和训练数据吻合。但这并不意味着,这就是个好模型。
美国数学家冯纽曼 (John Von Neumann) 曾说, "给我四个参数,我的模型可以拟合一个大象. 给我五个参数, 我可以让它扭动它的鼻子。"
神经网络模型的自由参数,现在往往超过一亿。如果说四个参数可以拟合一个大象的话,对于全世界总数不到一百万的大象来说,实在是游刃有余。
一个模型好坏的试金石,不在于和现有数据的拟合度, 而在于它是否可以在全新的情况和数据面前,做出正确的判断和预测。
金融界的人常会看到各种交易模型,许多模型面对历史数据的测试时,表现非常好,胜率极高。但是如果投资者天真地以为找到了致富的捷径, 把模型用于实际交易时,结果往往差强人意。
另外一个典型的过度拟合的例子,可以在小孩教育上看到。许多家长把孩子从小就送到奥数,钢琴,小提琴等各类才艺和竞赛的培训班,唯恐孩子学得不够, 以后上不了好大学,找不到好工作。
这实际上就是根据社会现有的经济结构做出的一种过度拟合的训练。
当时代迅速发展,以前吃香的技能,职业突然被淘汰,孩子必须面对社会变化和学校教育体系的巨大落差,而无法迅速随机应变时,悲剧将很难避免。
解决这个问题的算法上的革新, 启迪又是来自生物界,来自有性繁殖和无性繁殖的对比。
爱尔兰著名哲学家和诗人,奥斯卡·王尔德 (Oscar Wilde)先生曾有名言, "世界上所有东西都是关于性. 除了性本身" (Everything in the world is about sex. Except sex)。
直觉上,有性繁殖是为了生物进化,适应环境。但是如果一个已经非常健康的个体, 为什么还要通过有性繁殖, 抛弃掉自己一半的优秀基因,去和另外一个个体合作, 制造下一代呢?
无性生殖的优点是节能省时,无须浪费时间求偶交配。但致命的弱点是,基因没有任何变化,遗传病很容易被传播到下一代,进而降低生存的概率。
加州大学伯克利分校学者 Adi Livnat 在2007年的论文, "关于性在进化中的角色的混合能力理论 "(A mixability theory of the role of sex in evolution )中通过模拟计算得出下述结论:
性在生物进化中的目的,不是制造适合某个单一环境的, 最优秀的个体基因,而是为了制造最容易和其它多种基因合作的基因,这样在多变的外界环境下,总有一款可以生存延续下来。