本文来自微信公众号: AI研习社 的一篇文章——“”,我也打印了这本书的英文原版,正好可以带着这些问题去学习,每个题目下原文已经给出了具体问题答案的页码范围。然后我也会不定期的根据书中内容以及自己的理解,详细的更新下面问题的答案。若读者发现我的回答有翻译不对或者理解不正确的地方,也欢迎留言指正,相互讨论学习!
1.列举常见的一些范数及其应用场景,如 L0,L1,L2,L∞,Frobenius 范数。
Regularization: 就是在范数前面乘上一个惩罚系数(就是caffe框架下的 weight_decay 这个超参数。 ),加在WX后,来限制权重W,不限制偏置b。
2.简单介绍一下贝叶斯概率与频率派概率,以及在统计中对于真实参数的假设。
3.概率密度的万能近似器
答: 混合高斯模型。每一个模型都有一个独立的均值和方差,所以可以用一个或者多个高斯模型来拟合多种情形。
sigmoid常用来产生一个伯努利分布,因为它的值域范围时(0,1),当输入值很大或者很小时,曲线就会很平坦,将会对输入细微的变化不再敏感。
softplus常用来产生正态分布,因为它的取值范围是(0,正无穷)
Jacobian矩阵 可以看做是包含输出对所有输入的一阶偏导数的矩阵
Hessian矩阵 可以看做是包含输出函数对所有输入的二阶偏导数的矩阵,所以Hessian矩阵是Jacobian矩阵的求导结果。若二次偏导是连续的,则Hessian矩阵是就是对称的。
6.KL 散度在信息论中度量的是哪个直观量
如果我们对于同一个随机变量x,有两个独立的概率分布P(x)和Q(x),我们就可以通过KL散度来衡量这两个分布之间的不同程度。(交叉熵也是用来衡量各分布之间不同的)
7.数值计算中的计算上溢与下溢问题,如 softmax 中的处理方式
8.与矩阵的特征值相关联的条件数 (病态条件) 指什么,与梯度爆炸与梯度弥散的关系
条件数是指当A时一个nxn的矩阵并且可以特征值分解的时候,条件数 = | 最大的特征值/最小的特征值 |
当这个值很大时,矩阵变换就会对输入的error很敏感。
9.在基于梯度的优化问题中,如何判断一个梯度为 0 的零界点为局部极大值/全局极小值还是鞍点,Hessian 矩阵的条件数与梯度下降法的关系
10.KTT 方法与约束优化问题,活跃约束的定义
11.模型容量,表示容量,有效容量,最优容量概念
12.正则化中的权重衰减与加入先验知识在某些条件下的等价性
13.高斯分布的广泛应用的缘由
14.最大似然估计中最小化 KL 散度与最小化分布之间的交叉熵的关系
15.在线性回归问题,具有高斯先验权重的 MAP 贝叶斯推断与权重衰减的关系,与正则化的关系
16.稀疏表示,低维表示,独立表示
17.列举一些无法基于地图 (梯度?) 的优化来最小化的代价函数及其具有的特点
答:p155 最顶一段
18.在深度神经网络中,引入了隐藏层,放弃了训练问题的凸性,其意义何在
19.函数在某个区间的饱和与平滑性对基于梯度的学习的影响
20.梯度爆炸的一些解决办法
22.在前馈网络中,深度与宽度的关系及表示能力的差异
23.为什么交叉熵损失可以提高具有 sigmoid 和 softmax 输出的模型的性能,而使用均方误差损失则会存在很多问题。分段线性隐藏层代替 sigmoid 的利弊
24.表示学习的发展的初衷?并介绍其典型例子: 自编码器
25.在做正则化过程中,为什么只对权重做正则惩罚,而不对偏置做权重惩罚
26.深度学习神经网络中,所有的层中考虑使用相同的权重衰减的利弊
27.正则化过程中,权重衰减与 Hessian 矩阵中特征值的一些关系,以及与梯度弥散,梯度爆炸的关系
28.L1/L2 正则化与高斯先验/对数先验的 MAP 贝叶斯推断的关系
29.什么是欠约束,为什么大多数的正则化可以使欠约束下的欠定问题在迭代过程中收敛
30.为什么考虑在模型训练时对输入 (隐藏单元/权重) 添加方差较小的噪声,与正则化的关系
31.共享参数的概念及在深度学习中的广泛影响
33.批量梯度下降法更新过程中,批量的大小与各种更新的稳定性关系
34.如何避免深度学习中的病态,鞍点,梯度爆炸,梯度弥散
35.SGD 以及学习率的选择方法,带动量的 SGD 对于 Hessian 矩阵病态条件及随机梯度方差的影响
36.初始化权重过程中,权重大小在各种网络结构中的影响,以及一些初始化的方法;偏置的初始化
38.二阶近似方法: 牛顿法,共轭梯度,BFGS 等的做法
39.Hessian 的标准化对于高阶优化算法的意义
40.卷积网络中的平移等变性的原因,常见的一些卷积形式
答:平移等变性:p338-p339;常见的一些卷积形式:p347-p358
42.循环神经网络常见的一些依赖循环关系,常见的一些输入输出,以及对应的应用场景
44.采样在深度学习中的意义
45.自编码器与线性因子模型,PCA,ICA 等的关系
46.自编码器在深度学习中的意义,以及一些常见的变形与应用
47.受限玻尔兹曼机广泛应用的原因
48.稳定分布与马尔可夫链
50.配分函数通常难以计算的解决方案
51.几种参数估计的联系与区别: MLE/MAP/贝叶斯
52.半监督的思想以及在深度学习中的应用
54.深度学习在 NLP,语音,图像等领域的应用及常用的一些模型
这个问题没找到答案,我去找了 quora 和知乎上的相关问题以及 quora 一个回答提及的论文。 (若有人在书中找到,请批评指正)
56.注意力机制在深度学习的某些场景中为何会被大量使用,其几种不同的情形
答: 此问题答案未在书中找到,为此我去找了原论文,论文图 1 有详细的介绍。 (若有人在书中找到,请批评指正)
58.核回归与 RBF 网络的关系
60.过拟合在深度学习中的常见的一些解决方案或结构设计
61.怎么理解贝叶斯模型的有效参数数据会根据数据集的规模自动调整
答:关于非参数模型:p115-p116 ;非参数模型不依赖于特定的概率模型,它的参数是无穷维的,数据集的规模的大小影响着模型使用更多或者更少的参数来对其进行建模