赋予人工智能记忆的人，带你梳理深度学习核心算法

Jürgen Schmidhuber 被称为是赋予人工智能记忆的人，递归神经网络之父，2004 年到 2009 年，担任慕尼黑大学认知与机器人领域的教授，从 1995 年起就在瑞士人工智能实验室 IDSIA 担任负责人。2009至2012年年间，他的研究小组赢得了模式识别和机器学习的八个国际比赛。如今Jürgen Schmidhuber 创办了 Nnaisense 公司。1960年-2013...

ShuYunBIGDATA

526人浏览 · 2019-06-10 12:24:33

ShuYunBIGDATA · 2019-06-10 12:24:33 发布

1960年-2013年深度学习时间线亮点

[A] 1962年：来自简单细胞和复杂细胞的神经生物学的启示

Hubel和 Wiesel描述了视觉皮层的简单细胞和复杂细胞[18]，它启示了后来的深度人工神经网络框架，这在某些现代屡获殊荣的深度学习系统中仍在使用。

[A0]1965年：第一代深度学习系统

Ivakhnenko和 Lapa [71]公布了，第一款对于深度监督前馈式多层感知器（supervised deep feedforward multilayer perceptrons）的通用而有效的学习算法。1971年的一篇文章描述了一个通过“数据成组处理法（Group Method of Data Handling）”训练的8层深度网络，仍然在新千年中很流行。考虑到一个输入向量的训练集有对应的目标输出向量，层逐渐地增多并通过回归分析训练，接着用一个分离的验证集的帮助改进，正则化被用于淘汰多余单元。每层的单元和层的总数可以在与问题相关的环境中习得。

[A1] 1970 ±10年左右：反向传播

复杂多级非线性可微分的，与NN相关的系统的误差函数和它们的梯度至少从1960早期就开始讨论了，如[56-58,64-66]。在这种系统中的梯度下降可以通过在动态规划风格下（dynamic programming style）[67]来迭代这个古老的链式法则[68,69]（与只是用链式法则简化推倒相比[57b]）。然而，高效误差反向传播（BP）在任意的、可能是稀疏的，类似NN的网络中的使用很显然是第一次被Linnainmaa在1970 [60-61]提出。这也被认为是自动微分的反向模式，向前传播的激活值（activation）本质上等于反向微分计算值的成本（cost）。参见早期FORTRAN代码[60]。比较[62,29c] 和一些与NN有关的讨论[29]，和1981年Werbos [29a,29b]第一个特定NN的高效BP算法。比较[30,31,59]和顺序处理递归神经网络的概括，如[32-34,37-39]，参见自然梯度（naturalgradients）。到了2013年，BP也仍然是重要的深度学习算法。

[A2]1979年：深度新认知器（Deep Neocognitron），权重分享和卷积

Fukushima的深度新认知器框架[19a,19, 40]整合了神经生理学的观点[A,18]并引入了权重分享卷积神经层，还有胜者通吃层（winner-take-all layers）。它与现代屡获大奖的前馈式纯监督以梯度为基础的深度学习系统相似[A11-A12]（但它使用了本地非监督学习规则）。

[A3]1987年：自动编码器框架

Ballard发表了自己关于非监督自动编码器的想法 [35] ，这与2000年后的以非监督预训练为基础的前馈式深度学习系统相关，如[15, A8] 。比较调查[36]和有一定关系的RAAMs[52]。

[A4] 1989年：CNN的反向传播算法

LeCun等人应用的反向传播算法[16, 16a] 到Fukushima的权重分享卷积神经层[A2, 19a, 19, 16] 。这种结合是很多现代在竞争中有优势的前馈式视觉深度学习系统的重要部分。

[A5] 1991年：深度学习根本问题

20世纪90年代早期，实验表明深度前馈式或者递归网络很难通过反向传播训练[A1] 。我的学生Hochreiter发现并分析了其中的原因，原因是梯度突然消失或者梯度膨胀（exploding）引起的深度学习根本问题[3]。比较[4]。

[A6] 1991年：递归神经网络的深度框架

我的第一个递归深度系统（上述提到）[1,2] 通过在非监督情况下的一个深度RNN栈预训练（a deep RNN stack pre-trained in unsupervised fashion），部分克服了根本问题[A5] ，进而加速了后来的监督学习。这是在2000年后有效的深度学习系统，并且也是第一个神经分层时间记忆模型，也是第一个“很深的学习系统”。

[A7] 1997年：监督式深度学习系统（LSTM）

长短期记忆人工神经网络（LSTM RNN）成为第一个纯监督式深度学习系统，如[5-10,12,A9]。LSTM RNN能够学习找到很多之前无法解决的问题的答案。

[A8] 2006年：深信网络（DeepBelief Network）/CNN结果

Hinton 和Salakhutdinov发表了文章，主要着重前馈式NN的非监督预训练来加速后继的监督学习（比较 [A6] ）。这帮助激起了人们关于深度人工网络的兴趣（关键词：受限玻尔兹曼机，深信网络）。同年，通过使用训练模型变形（training pattern deformations）[42, 43]，Ranzato等人的监督式BP训练[A1, A4] 的CNN [A2, A4] 在MNIST 笔迹数字图像数据集基准测试中创下新纪录。

[A9] 2009年：深度学习赢得了第一次竞赛

深度学习赢得了第一次官方国际模式识别竞赛（有秘密测试集）：LSTM RNN同时执行分割和识别 [10, 11] ，在一些2009年ICDAR有联系的笔迹竞赛中取得胜利 [A7] 。

[A10] 2010年：GPUs上的普通反向传播算法产生了优秀的结果

深度但其他方面——没有非监督预训练，无卷积但是有训练模式变形——很标准的神经网络（NN）创下了新的MNIST记录 [17] ，通过一个快速GPU的实现方法 [17]。（一年之后，第一个在MNIST上有人类级别表现的系统产生——MCMPCNN [22, A11]）。

[A11] 2011年：GPU上的MPCNN——第一个超人类表现的视觉模式识别

Ciresan等人介绍了以GPU为基础的监督式最大池化CNN（卷积网络）[21]，今天被大部分（如果不是所有的）在竞争中取得优势的深度神经网络采用。通过使用深而广的多列（Multi-Column，MC）GPU-MPCNN，深度学习系统在视觉模式识别（在秘密的测试集上）上第一次超过人类的表现[25,25a-c]（比人类表现好两倍，比最接近的参赛人工神经网络好3倍，比最好的非神经方法好6倍）。深而广的多列（Multi-Column，MC）GPU-MPCNN是当前深度前馈式神经网络的黄金标准，现在被用于很多应用中。

[A12] 2012年：第一个在物体识别和图像分割上的竞赛的胜利

一个图像扫描[28,28a] GPU-MPCNN [21,A11]成为第一个在大型图片上的视觉物体检测竞赛中获胜的深度学习系统（与仅仅识别或分类相反）：2012年ICPR有丝分裂检测竞赛。一个在电脑视觉社区中流行的MC [A11] GPU-MPCNN变体模型，在ImageNet分类基准测试中创下记录。深度学习系统第一次在纯图片分割竞赛（ISBI 2012）中取胜（又是一个图片扫描GPU-MPCNN）[53,53a,53b]。

[A13] 2013：更多的竞赛和基准测试记录

LSTM创造的TIMIT音素识别新记录 [12] 。使用深度GPU-MCMPCNN的桌面机器在ICDAR中文笔迹识别基准测试（超过3700个类别）中创造了新记录（几乎达到人类表现）[45a]。GPU-MPCNN [54-54b] 赢得了MICCAI2013有丝分裂识别大奖挑战赛。GPU-MPCNN [21] 也帮助取得了在ImageNet分类和PASCAL物体识别 [54e] 中新的最好成绩 [26a] 。更多的竞赛情况在瑞士AI实验室IDSIA和多伦多大学的G.H.的网页中提到。