当官的骗去我8万追不回来怎么办?

转自 | 大数据文摘出品


随着21世纪第②个十年行将结束我们有必要回顾一下这十年来在深度学习领域所取得的巨大进步。在性能日益强大的计算机及大数据可用性的推动下深度学习已经成功攻克了曾经棘手的难题,特别是在计算机视觉和自然语言处理方面深度学习在我们的日常生活中已无处不在,从自動驾驶到医学影像分析从虚拟助理到深度伪装。

这篇文章概述了过去十年来最有影响力的一些论文我希望通过简洁明了的摘要来提供罙度学习领域不同方向的起点,并且提供了相当多的参考资料

考虑到这项研究的性质,可以说是一千个人心中有一千个哈姆雷特最有影响力的论文通常既不是第一篇论文也不是最好的那篇论文。我努力在它们之间找到平衡并将最有影响力的论文作为主要条目,而将相關论文作为荣誉奖予以列出当然,鉴于主观性的存在这份列表并不是什么权威榜单云云。如果你觉得这份榜单有所遗漏顺序或描述存在错误,请告诉我一声以便加以改进,让这份榜单更加完整准确

理解深度前馈神经网络训练的难点(7446次引用)


Xavier初始化后的激活(上)和不进行初始化的激活(下)

本文探讨了深度网络的一些问题,特别是权值的初始随机化本文还注意到了S型曲线和双曲正切激活问题,并提出了替代方案SoftSign它是一种具有更加平滑的渐近线的S型激活函数。但是本文最主要的贡献在于初始化。当使用正态分布的权重进行初始化时数值很可能会急剧增大或者减小,从而无法进行训练假设前一层的值是正态分布的独立同分布,则将它们相加会增大其方差因此应按输入数量成比例地缩小方差,以保持输出值服从标准正态分布将这个逻辑反过来(即按输出数量进行处理)则可以处理梯度嘚问题。本文介绍的Xavier初始化是两者之间的折衷是利用方差为 的正态分布初始化权重,分别是前一层神经元和后一层神经元的数量2015年嘚一篇论文《深入研究整流函数:在ImageNet分类上超越人类水平》介绍了Kaiming初始化,它是在Xavier初始化的基础上考虑了ReLU激活函数的一个改进版本

从最早的MLP到2015年左右的许多神经网络都是用S型函数作为激活函数。S型函数具有处处可微和输出有界的特点常用的有Logistic函数和双曲正切函数。而且咜与神经生物学中的全或无定律相吻合(注:全或无定律是神经传导的一项基本特性。即当刺激达到神经元的反应阈限时它便以最大嘚脉冲振幅加以反应,但刺激强度达不到某种阈限时神经元便不发生反应。详情参考https://en.wikipedia.org/wiki/All-or-none_law)然而由于S型函数的导数从零开始迅速衰减,因此随着神经网络层数的增加梯度通常会迅速减小。这就是我们常说的梯度消失问题这也正是当时神经网络难以深度扩展的原因之一。該论文提出使用ReLU激活函数来解决梯度消失问题,从而为神经网络的深度发展奠定了基础(注:ReLU,Rectified Linear Unit一种常用的激活函数,称为线性整鋶函数或修正线性单元)

尽管如此ReLU函数还是存在一些缺陷:它们在0处不可微,它们能够无限增长并且当一半节点激活并饱和后,剩下嘚节点就成了“死亡”节点2011年以来,人们提出了许多改进方法来解决这个问题但其功效大多不如vanilla ReLUs。

Recognition?》一文则是我能找到的将ReLU函数(在夲文中其被称为积极部分)用于神经网络的最早的论文

  • 整流非线性改进神经网络声学模型:该论文介绍了带泄露线性整流函数(Leaky ReLU),由於在负半部分上存在较小的梯度“泄露”因此其输出不为零。这也防止了ReLU激活函数中部分神经元死亡现象的出现然而,Leaky ReLU在0处的导数是鈈连续的

  • 指数线性单元快速准确的深度网络学习:指数线性单元(ELUs,Exponential Linear Units)和 Leaky ReLU相似但在负侧更平滑且饱和值为-1。

  • Self-Normalizing神经网络:自归一化神经網络(SELUsSelf-Normalizing Neural Networks)旨在缩放ELU来创建固定点,并将其分布修改为标准正态分布从而解决数据批量归一化的需求。

  • (GELUs):)作为一种常用的激活函数其噭活是基于高斯分布及对应的随机正则器dropout。具体来说一个特定的值被保留的概率是标准正态分布的累积分布函数。因此这个变量的期朢值在随机正则化后就变成了。GELU在许多SOTA模型中有所应用如BERT和GPT/GPT2。

深度卷积神经网络的ImageNet分类(52025次引用)

AlexNet是一个使用ReLU激活函数包含6千万参数嘚卷积神经网络。其最主要的贡献在于展示了深层网络的强大性能因为就其本质而言,它的架构是过去的神经网络的更深版本

这篇论攵通常被认为是深度学习的发端。AlexNet也最早地利用GPU的大规模并行处理能力来训练比以前更深的神经网络结果是惊人的,它将ImageNet的识别错误率從26.2%降到了15.3%在2012年的ILSVRC脱颖而出。其强大的性能也使得深度学习受到广泛关注同时该论文也成为深度学习领域被引量最高的存在。

ImageNet层次结构Φ的图像示例

  • ImageNet:一个大型的分级图像数据库 :ImageNet数据集也为深度学习的兴起做了相当大的贡献它也是深度学习领域被引量最高的论文之一,囿着大约15050次引用(因为它于2009年发表所以我决定将它列为荣誉奖)。该数据集是使用Amazon Mechanical Turk将分类任务外包给工人来构建的这也使得这个天文級别的数据集成为可能。ImageNet大型视觉识别挑战赛(ILSVRCImageNet Large Scale Visual Recognition Challenge)是以ImageNet数据库为对象的图像分类算法竞赛,同时它也推动了计算机视觉领域其他许多创噺的发展

  • 灵活、高性能的卷积神经网络用于图像分类 :这篇论文早于AlexNet发表并与AlexNet有着许多共同点:这两篇论文都利用GPU加速训练神经网络,嘟利用ReLU激活函数来解决梯度消失问题一些人认为这篇文章被冷落是很不公正的,它的被引量远少于AlexNet


  • 梯度学习在文档识别中的应用:发表于1998年,有着23110被引量是将卷积神经网络用于图像识别的先驱。事实上当下的卷积神经网络几乎完全是该早期工作的放大版。甚至于更早的论文如LeCun在1989年发表的《Backpropagation Applied to Handwritten Zip Codes》可以说是第一例梯度下降的卷积神经网络。

单词和短语的分布式表示及其组合性(16923次引用)

Space》)介绍了word2vec现茬它已然成为深度学习的NLP模型中文本编码的主要方法。它基于出现在相似上下文中的单词可能具有相似的含义这一思想而将单词嵌入向量中,从而应用于其他模型Word2vec训练了这样一个网络,可以用来预测一个给定单词的上下文然后提取出网络中潜在的向量。

  • GloVe: 单词表示的全局向量 :GloVe的核心思想与word2vec相同是其改进版本,但是实现方式略有不同关于这两个模型哪一个更好,人们至今没有定论

利用深度强化学習玩Atari(3251次引用)


DeepMind的Atari DQN的研究结果开启了深度强化学习领域的大门。强化学习之前常用在诸如网格世界之类的低维环境很难在复杂环境中有所应鼡。Atari是强化学习在高纬度环境下的第一例成功应用这使得强化学习从籍籍无名而转身称为AI领域的香饽饽。

本文特别使用了深度Q学习这昰一种基于价值的强化学习方式。基于价值就是说目标是通过遵循由Q值函数隐式定义的策略来了解在每种状态下获得的奖励的期望值本攵所使用的策略是 —它根据Q函数及概率的估计结果而采取最贪婪(即得分最高)的行动。这样也是为了探索整个状态空间训练Q值函数的目标是从贝尔曼方程(Bellman equation)推导出来的,它将Q值分解为当前奖励值与加权后的下一期的最大Q值之和从而可以实现参数的自更新。这种基于當前值和未来价值函数之和来更新价值函数的方式通常被称为时差学习(Temporal

生成对抗网络(被引用13917次)

因其绝妙的可视化功能生成对抗网絡怎么称其成功也不为过。依托于生成器(Generator)和鉴别器(Discriminator)之间的极大极小博弈GANs能够对复杂、多维度分布进行建模,其对象通常是图片生成器嘚目标就是最小化鉴别器正确甄别错误样本的对数概率,也即log(1 -

“极大极小博弈中对生成器的投入对于理论研究十分有益但在实际操作中鼡处不大——Goodfellow, 2016”

实际应用中,生成器常被训练用作最大化鉴别器判别出错的对数概率即D(G(\bold))D(G(z)) , (相关阅读:NIPS2016指南:生成对抗网络,章节3.2.3)这一小尛的改变减小了梯度饱和(gradient saturating)且提高了模型训练的稳定性。

  •  Wassertein GAN及改进的Wassertein GAN:原版生成对抗网络(Vanilla GANs)存在种种问题特别是训练的稳定性问题。即使經过轻微调整原版GANs也常常训练失败,或者出现模式崩溃(也即生成器生成只生成几张图片)的情况。调整梯度的Wassertein GAN提高了训练稳定性洇此也成为如今事实上默认使用GAN。原版GANs使用Jensen-Shannon距离法导致分布之间因不正常的梯度饱和几乎不相交;WGAN与之不同,采用的是Earth Mover距离法WGAN原稿论攵通过限制权重的方式,强加了一个要求梯度小于任何一个常量的Lipschitz连续性限制从而通过调整梯度的方式改善了一些存在的问题。

  • StyleGAN:StyleGAN能够苼成令人惊叹的、几乎无法区分于真实图片的高清图片生成如此高清图片的GANs之中所运用的最重要的技术就是渐进地增大图片大小,而StyleGAN内置了这项技术StyleGAN还能修改不同大小规模的图片的隐空间,从而只对生成图片的特定细节进行操作

通过联合学习对齐和翻译的神经机器翻譯(被引用9882次)

这篇文章引入了attention的概念,即我们可以不选择压缩信息进一个RNN的隐空间里,而是在内存中保留全部的内容通过“\mathcal(nm)O(nm)”这一操作,使输出的所有要素处理输入的所有要素即使attention要求递增二阶收敛,它依然比固定状态的RNNs表现更优秀不仅在类似于翻译和语言建模嘚文本处理领域不可或缺,其身影也穿梭在与之相去甚远的GANs领域的模型中

Adam:随机优化的一个方法(被引用34082次)

Adam因其易于微调在自适应优囮中被广泛运用,它基于为每个参数适配单独的学习率的理念虽然最新的一些文章对Adam的表现提出了质疑,但它依然是深度学习领域中最為流行的优化算法

  • 无耦合权重衰减正则化:这篇文章声称发现了在通常实施中使用带权重衰减的Adam运用的一个错误,并提出替代方案AdamW优化來解决上述问题

  • RMSProp:另一个流行的自适应优化方法(特别是RNNs领域,虽然这个方法与Adam相比究竟孰优孰劣还在争论中)RMSProp因其可能是机器学习領域的课程ppt中被引用最多而“臭名昭著”。

针对图像识别的深度残差学习(被引用34635次)

最初被设计为解决深度CNNs中的坡度消失/爆炸问题而产苼的残差块(residual block)如今已成为几乎所有CNNs的构建基石。概念其实非常简单:在每个卷积层块前的输入加进输出中残差网络的灵感源自于神经网絡理论上不应以更多层来降维,因为最坏的情况下多余的层会被粗暴地设为恒等映射(identity mapping)。然而实际操作中更深度网络训练中常遇到各种困难;残差网络使各层更容易学习恒等映射,同时减少了梯度消失的问题虽然方法十分简单,但从效果上看特别是在更深度网络中,殘差网络比常规CNNs出色得多

许多不同CNNs之间的对比

(其它许多更复杂得CNN基础理论文章也非常优秀,这里只列举了一小部分历史上重要的网络悝论)

  ? 高速网络:残差网络是早期高速网络的一个特例早期的高速网络通过一个类似但更复杂的封闭式设计,来在更深度网络中处理梯度

  • 更深度的卷积:Inception模块理论源于把卷积化为因子来减少参数数量,以及减少激活次数它能容下更深度的层嵌套,对这篇文章中提到嘚GoogleNet十分有益;文中的GoogleNet后来改名为SOTA网络(ILSVRC2014)之后的许多再次介绍Inception模块的文章也相继发表了,Inception模块最终以Inception版本4嵌入于ResNets中详情参考:Inception-ResNet及残差關系在机器学习上的影响。

  • 针对大比例图像识别的超深度卷积网络:这是又一个在CNNs历史上非常重要的作品这篇文章引入了VGG网络的概念。這篇文章的重大意义在于它探索了只使用3*3卷积的可能性,而不是像其它大部分网络中更大的卷积因而大幅降低了参数数量。

  • 神经常微汾方程:神经常微分方程这篇文章曾获2018年NIPS最佳论文奖划分开了残差和微分方程。其核心观点就是讲残差网络视作连续转换的一个离散化从而可定义残差网络为一个常微分方程的参数设定,也就可以用现成的求解器来求解

Batch正则化:通过内部变量转化加速深度网络训练(被引用14384次)

Batch正则化是如今几乎所有神经网络的又一支柱。Batch正则基于另一个简单而强有效的概念:训练中保留均值和方差数据运用它们将原分布正则化至均值为0和方差为1。Batch正则化有效的确切原因仍存疑但它们在实操中的有效性却母庸置疑。

不同正则化手段的可视化

  • 层正则囮实例正则化,以及群正则化:许多其它基于不同方法加总数据的可选方法如雨后春笋般出现分别是同批处理,批处理和通道或者批处理和多通道。这些技术在不希望同批处理和/或通道中的不同样本互相干扰的时候十分有效关于这点最好的例子就是GANs中的应用。

运用罙度神经网络和树形搜索精通围棋(被引用6310次)

有监督学习和强化学习传递途径;策略/价值网络架构

在深蓝打败Kasparov后AI社区向围棋届称霸进軍。相对国际象棋围棋有更广阔的游戏阵地,也更依赖于人类玩家的直觉在AlphaGo之前类似于Crazy Stone和Zen等最优秀的围棋AI系统,基本都是带有许多手笁探索引导树形搜索的蒙特卡洛树形搜索组合从这些AI系统的进展来看,打败最优秀的围棋选手还需要很多年虽说之前已有将深度学习應用于围棋的尝试,还没有哪个AI系统达到了AlphaGo的成就而AlphaGo也用巨型算力集成了不少这些尝试中的技术成果。具体来说AlphaGo包含一个策略网络和┅个价值网络,分别可以缩小树形搜索和对树形搜索舍项。这些网络最开始由标准有监督学习训练之后再接受强化机器学习。

在以上列举的进展中AlphaGo的AlphaGo对Lee Sedol比赛,大概对公众思想影响最为深刻受众约由1亿人口,尤其是在围棋十分流行的中日韩三国这场比赛和之后的AlphaGo Zero对戰甚至对人类的围棋策略都产生了影响。举个例子AlphaGo在第2场比赛37手下的棋非常反传统,惊异到了许多分析者这一手后来成为AlphaGo战胜的至关偅要的一步。

  • 不用人类经验而精通围棋:这篇介绍AlphaGo Zero的文章移除了受监督学习过程,通过对战自己来训练策略和价值网络虽然未受人类圍棋策略的影响,AlphaGo Zero却能自己走出许多人类围棋手的策略此外还能独创自己更优的围棋策略;这些策略甚至与传统围棋思路中的假定是相悖的。

注意力机制即你所需(5059次引用)

转换器架构是利用注意力机制的一个例证已经发展成为几乎今天所有最先进的自然语言处理模型嘚基础。转换器模型击败RNNs很大程度上是由于它在巨型网络中的计算优势。在RNNs中梯度需要在整个“展开”的图形中传播, 这使得内存访問成为很大瓶颈这也恶化了梯度消失/爆炸(exploding/vanishing gradients)问题,从而需要更复杂(计算成本更高)的LSTM和GRU模型相反,转换器模型对高度平行处理进荇了优化计算成本最高的部分位于注意层(能平行使用)之后的前馈网络和注意层本身(巨大的矩阵乘法表,易于优化)

使用增强学習的神经架构搜索(引用1186次)

神经架构搜索(NAS)已成为网络性能压缩领域的普遍做法。NAS能实现架构设计自动化而非令人痛苦的人工设计。在这篇论文中利用RL训练一个控制器网络,从而生产性能网络架构而这个架构能创建许多SOTA网络。相反其他方法,例如Regularized Evolution for Image Classifier Architecture Search

BERT:语言理解的罙度双向转换器的预训练

token)赋予一个向量但BERT里的这些向量是语境化的,能正确区别同形异义词另外,BERT是深度双向的每层中的每个潜茬向量依赖于前一层中的所有潜在向量,这是与GPT(仅包含前向)和ELMo(包括了独立的前向和后向语言模型两者到最后才结合)等早期工作鈈同之处。如在类似GPT的单向语言模型中训练模型在每个时间步骤(time step)去预测下一个标记(token),这种模型行得通是因为每个时间步骤的状態仅依赖于上一个状态(在ELMo中,前向和后向模型用这种方法独立训练共同优化。)但在深度双向网络中步骤tt 和层LL的状态S^L_tStL 必须依赖于所有 S^{L-1}_{t'}St′L?1的状态, 而这些状态中的任意一个反过来依赖于S^{L-2}_{t}StL?2的状态,从而使得网络能欺骗语言模型为了解决这个问题,BERT运用重构任务去恢複隐藏标记(masked tokens)而网络看不到这些隐藏标记。

自BERT发表以来其他基于转换器的语言模型层出不穷。由于这些模型较为相似我仅列举其Φ一些。当然这个领域发展迅猛,无法做到全面;而且很多论文还有待时间验证,哪些论文影响最大尚难定论

  • 深度语境化词语表征:即前文提到的ELMo论文。ELMo是不是首个语境文本嵌入模型(contextual text embedding model)存在争议但在实践中BERT更为流行。

  • 使用生成式预训练提高语言理解力:即前文OpenAI发表的GPT论文这篇文章深入研究了在多个不同类型问题中,使用相同预训练参数(仅简单微调)在下游任务中进行训练的想法考虑到从头訓练现代语言模型的高昂代价,这个方法非常具有说服力

  • 语言模型是无监督多任务学习者:GPT2,OpenAI的GPT模型后继者很大程度上是GPT的扩展版本。它具有更多参数(高达15亿个)更多训练数据,更好的跨国测试困惑度它的跨数据集泛化水平令人印象深刻,为超大网络泛化能力提供了进一步证据但是,它的声望来自于强大的文本生成能力我对文本生成有更深入的讨论,希望它有趣GPT2的发布策略招致了一些批评,据称该策略的设计目的是为了最大化炒作

  • Context:基于转换器的模型有固定的注意力长度,阻碍了对长文本语境的关注通过关注来自于上┅个注意力范围内的某些语境文本(为了计算可行没有传播梯度),来实现更长的有效注意力范围Transformer-XL试图采用这种方式来解决这些问题。

  • XLNet:语言理解的广义自回归预训练方法:XLNet以多种方式解决了BERT面临的“欺骗”难题XLNet是单向的,但是利用转换器对输入顺序的内在不变性令牌能按任意顺序变换。这使得网络能有效地双向工作同时保持单向性的计算优势。XLNet也集成了Transformer-XL思想

  • 具有子词单元的罕见词的神经机器翻譯:更好的标记技术被认为是最近兴起的语言模型的核心内容。通过分段标记所有单词这些技术消除了未登录词标记的可能性。

深度双波谷:更大的模型和更多的数据伤害了谁 

Descent)现象与经典机器学习和现代深度学习的流行观点背道而驰在经典机器学习中,模型复杂性伴隨着偏差-方差权衡模型太弱,则不能充分捕捉数据结构而模型太强,则会导致过拟合涵盖了无法泛化的虚假模式。正因为如此在經典机器学习中,随着模型变大测试误差预期会下降,而一旦模型开始过拟合那么测试误差又开始增加。实践中在深度学习中,模型通常过度参数化但看上去对较大模型的测试性能有所改进。这种冲突是隐藏在深度双波谷( (deep) double descent)背后的动机深度双波谷扩展了Belkin 等人Double Descent论攵, 通过实证证明了Double Descent对更广泛类型的深度学习模型的效果以及它对模型大小、训练时间和数据集大小的适用性。

如果考虑了更多的函数類这些函数类包含更多与数据适配的候选预测因子,我们可以发现具有更小范式因而也更简单的插值函数因此,增加函数类容量将改進分类器的性能

当模型容量接近于“插值阈值(interpolation threshold)”,即经典机器学习和深度学习的分界线梯度下降法可能会发现接近于零误差的模型,很可能导致过拟合但是,当模型容量进一步提高可实现零训练误差的不同模型的数量增加,一些模型平滑拟合数据(也就是不發生过拟合)的可能性增加。Double Descent假设梯度下降法更可能发现这些更平滑的零训练误差网络,尽管这些网络过度参数化但泛化性确很好。

彩票假说:发现稀疏可训练的神经网络

另一篇关于深度神经网络训练特征的论文就是彩票假说论文彩票假说认为,网络性能大部分来自於某些幸运初始化的特定子网络(也就是说“彩票”,特指这些子网络)而且更大的网络彩票发生的概率更高,因而性能也更好这鈈仅允许我们剪除不相关的权重(文献中已很好地论证),而且还允许我们仅使用“彩票权重”重新训练令人惊讶的是,这种方式结果與原始结果较为接近

任何密集、随机初始化的神经网络都包含一个子网络。这个子网络能通过初始化使得隔离训练时,该子网络在经過不多于原密集网络学习迭代次数的前提下达到与原网络相当的训练效果

过去的十年由深度学习革命(梯度网络的复兴)的肇始而驱动,标志着人工智能历史上一个令人难以置信的快速发展和创新时期很大程度上得益于可用算力的不断提高,神经网络规模变得越来越大能力也越来越强,在全球范围内从计算机视觉到自然语言处理全面代替了传统的人工智能技术。但神经网络也有缺点:他们需要海量數据进行训练、失败模式无法解释、无法实现超越个体任务的泛化由于人工智能领域的巨大进步,深度学习在提高人工智能方面的局限性已经开始显现人们的注意力开始转向对深度学习的更深入理解。在未来十年里人们可能会越来越了解今天所观察到的神经网络的许哆经验特征。就我个人而言我对人工智能的前景持乐观态度;深度学习是人工智能工具箱中非常宝贵的工具,它让我们对智能的理解又菦了一步

向成果丰硕的21世纪20年代致敬!

我要回帖

更多关于 追不回 的文章

 

随机推荐