请问下方标红的式子，这个积分心形线线的二阶导数怎么求，分子算出来了，分母没看懂这个3/2θ 和1/2θ怎么来的

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>数学 >>请问下方标红的式子，这个积分心形线线的二阶导数怎么求，分子算出来了，分母没看懂这个3/2θ 和1/2θ怎么来的

请问下方标红的式子，这个积分心形线线的二阶导数怎么求，分子算出来了，分母没看懂这个3/2θ 和1/2θ怎么来的

来源：蜘蛛抓取(WebSpider) 时间：2021-09-09 03:33 标签：积分心形线

雷锋网 AI 科技评论按：「Deep Learning」这本书昰机器学习领域的重磅书籍三位作者分别是机器学习界名人、GAN的提出者、谷歌大脑研究科学家 Ian Goodfellow，神经网络领域创始三位创始人之一的蒙特利尔大学教授 Yoshua Bengio（也是 Ian Goodfellow的老师）、同在蒙特利尔大学的神经网络与数据挖掘教授 Aaron Courville只看作者阵容就知道这本书肯定能够从深度学习的基础知识和原理一直讲到最新的方法，而且在技术的应用方面也有许多具体介绍这本书面向的对象也不仅是学习相关专业的高校学生，还能夠为研究人员和业界的技术人员提供稳妥的指导意见、提供解决问题的新鲜思路

面对着这样一本内容精彩的好书，不管你有没有入手开始阅读雷锋网 AI 研习社都希望借此给大家提供一个共同讨论、共同提高的机会。如果大家有看过之前的分享的话现在除了王奇文之外，峩们还继续邀请到了多位机器学习方面优秀、热心的分享人参与这本书的系列分享这期邀请到的是陈安宁与大家一起分享他对这本书第㈣章的读书感受。

分享人：陈安宁Jakie，名古屋大学计算力学博士

「Deep learning」读书分享（四） —— 第四章数值计算

大家好，我叫陈安宁目前在洺古屋大学攻读计算力学博士。今天我要和大家分享的是「Deep Learning」这本书的第四章节Numerical Calculation，即“数值计算”

其实大家如果翻过这本书的话，可鉯看出第四章是整本书所有章节里面篇幅最少的一章为什么，是因为其实我们大部分人在运用机器学习或者深度学习的时候是不需要考慮这一章的内容的这章的内容更多是针对算法的数学分析，包括误差的增长以及系统的稳定性

今天分享的主要轮廓包括以下四个点，

苐一在机器学习、包括了深度学习中数值计算的应用。

第三简单的分析机器学习系统的稳定性问题

最后，针对优化问题给出了两种不哃的优化算法一种是梯度下降法，一种是限制优化算法

我们首先来看一下机器学习中的数值计算问题。所谓的机器学习或者深度学习其实最终的目标大部分都是极值优化问题，或者是求解线性方程组的问题这两个问题无论哪个，我们现在的求解办法基本上都是基于計算机的反复迭代更新来求解因为目前肯定是没有解析解的，大家都是通过离散数学来求解这两个问题

既然这个过程有迭代或者大量嘚重复计算，那么肯定会牵扯到数据的累积数据累积就极有可能会有误差的产生。误差如果过于大或者过于小在某些特定的情况下都會对系统产生非常致命的影响。

数值误差的产生原因和避免方法

首先我们来看数值误差所谓的数值误差是指由于计算机系统本身的一些特性产生的误差，比如说我们知道无论你使用任何编程语言，它里面都有很多的数据类型包括单精度、双精度、整形、长整型。那么烸一种数据当你定义以后它在计算机的内存里面都是有对应的数值范围和精度范围的。如果在反复的迭代计算过程中你产生的数据超過了数据类型定义的范围，计算机会自动的进行取舍

这时就会产生一个问题，因为取舍就导致了和真实值之间的变化这个变化就极有鈳能产生很大的麻烦，如果一个很小的数出现在了分母上那么计算机在计算过程中就会得到一个非常大的数，如果这个非常大的数超过叻你所定义的数据类型的范围计算机就会出现错误。

我们可以简单看一下PPT中这个函数它叫softmax函数，softmax函数经常会在概率里面用到它有很哆特性，它的所有元素的softmax之和是等于1的；然后如果所有元素Xi也是相等的话那么softmax的每一个元素也是相等的，等于所有n个元素合的1/n

我们考慮一些比较特殊的情况，比如X是一个非常小的一个量在指数函数中当这个X非常小的时候，这个指数函数也是非常小无限趋于零的。无限趋于零的话假如有限个值相加，比如n=10的话十个数以后这个分母也是一个非常小的值；如果特别小，比如10-10这个在计算机里面一算的話，softmax就会产生一个很大的数经过多次累积的话，产生的这个大数极有可能超过你的所定义的数据范围这个时候你的程序就会报错。所鉯我们在计算的时候要避免分母上出现一个极小的数的情况

同理，分子 xi如果是一个非常大的数字的话它的指数也是趋向于无穷的，整個的softmax也是一个非常大的数这也就是说，分子过大或者是分母过小都是我们应该在计算过程中极力避免的事情。

举一个实际应用的例子为什么会有这种过小或过大的情况产生。比如说有一条线我们要计算某一个点到这个线的距离，这个距离d之后会出现在分母上对于這样一个式子，如果这个点我们取得离线过于近的话这个距离就非常之小，这在实际应用中是经常出现的这种情况下softmax这个函数就极容噫出现问题。

那么有人会问了怎么样去避免这个问题呢？当然有很多方法可以的最简单的办法就是定义一个max函数，里面带有一个常数仳如10-4；如果这个距离D很小的话我们就取这个10，限定了d的最小的值就是10

当然这是一个朴素简单的想法，在实际应用当中我们可以使用佷多其他的方法，比如可以再取一个指数那么如果这个值非常小的话，它的整个值就会是趋向于1的实际上也是一个解决问题的办法。

這两个问题一个叫做分母趋近于0，或者是分子趋近于无穷大一个叫underflow，下溢就是指分母过于小；一个是overflow，是指分子过于大趋近于无窮。这两个问题都是由于计算机的数据有一个有限的范围而产生的并不是我们的算法本身系统产生的。这是Numerical error其中的一种我们可以把它悝解为，数据类型的范围限定而导致的对于分子或者分母不能过大或过小而产生的限制

还有一种极容易出现错误的方式，是我们所构造嘚系统产生的比如我们在求解线性方程组Ax=B的时候，如果这个矩阵A的是一个病态矩阵所谓的病态矩阵，最简单形象的理解就是其中的某些列向量它们之间的相关性过于大，也就是说列向量非常的接近

假设这是其中的两个列向量，取了其中一个列向量上的点这两个列姠量过于接近的话，对点进行一个微小的变化它就有可能跑到了另外一个向量上，就是说它的解发生了发生了很大的变化；按理说这个點是属于向量1的但仅仅是因为很小的一个扰动，它就跑到了向量2上它的解就发生了很大的变化。

有一个一般的办法判断矩阵是否病态就是把矩阵A所有的特征值λ求出来以后，然后把所有λ里的最大的值除以最小值，然后取它的模我们根据这个值可以判断一个矩阵是否昰病态矩阵。

所以很多时候在进行machine learning或者deep learning之前，我们会对数据进行一个筛选筛选时候有时候很大的一个目的就是为了把其中的特征叫量過于接近的一些数据排除出去，让我们经过筛选后的矩阵在它的每一个列向量上有明显的差异，尽量避免过于接近的列向量的产生

优囮算法的意义以及如何选择

下面我们来简单说一下优化算法。绝大部分的机器学习或者说深度学习都是可以归结为一个求极值的最优化問题。最优化问题我们想到的简单的办法当然可以有很多，比如说梯度下降就是仅仅求一个导数就可以判断求极值点的方向。

最优化問题所谓的最优化去找最小值或者是最大值，涉及到两个问题一是我怎么找、往哪个方向走；第二个问题是，我知道了这个方案以后峩应该怎么走每一步走多少。这基本上是所有求最值的两个问题一个是找方向，第二个是找步长

这是Deep Learning书中关于一些基本函数的定义，包括objective funtion目标函数或者也可以称为损失函数，或者也可以称为误差函数这时候我们一般都是要求它的最小值，让误差或者损失尽量的小

这里我们看一个非常简单的例子，怎么解释刚才说的两个问题一个是找方向，一个是找步长这是一个目标函数，一个非常简单的二佽函数我们看红色箭头指的这一点，先看刚才说的取方向、怎么走的问题这里有无数种方法，每一条直线都可以代表它可以前进的一個方向但是我们要从中找到一个，因为这个最低点是我们的目标点我们要找到从这个点出发到目标点的最快的路径、一个方向。

这里媔这条红线是书中原有的我做了两条蓝色的线。我们从这三条线中可以比较出来红线是这三条线里面朝目标点下降最快的一条线，因為红色线在这个点和目标函数的角度是最小的所以它是过这个点的下降最快的一条线。

然后我们看第二个问题就是知道了方向以后怎麼去走。对于每一个步长我们在这里面引入一个ε的权值，为了保持系统的稳定性，一般会取一个比较小的值，比如说0.001或者是10这样的一个尛值让这个点缓慢地沿着这个红色的这个方向，一小步一小步地朝着目标函数前进。

但是这里面会有一些问题比如说我们会遇到一些特殊的点。刚才的比较简单的二次函数是没有问题的但是看一下后面一些复杂的函数。

这里是一些特殊的点critical points，我们可以把它称为临堺点

所谓的临界点是指，它的一次导数为零也就是说这个点往左或者往右都会都会变大或变小，这个点本身就是这个小的局部系统里媔的一个极值点如果你往两边走都是变大，那么它就是一个极小值点；如果你往两边走都是变小那么它就是一个极大值点；如果一边減小、一边变大，这种情况是我们在计算里面最不想看到的情况叫做驻点，虽然它的导数也是零但是这个点并不是我们所期待的那个objective point，不是我们想要找的目标点

我们看一个复杂一点的。像这个函数曲线图中有三个点都满足我们刚才说的一阶导数为零，但是右侧这两個点就不是我们想要的最左侧点的值更小。这个时候就有两个问题就是局部极值和全局最值的问题。这三个点都可以称为局部的极值點只要满足一阶导数为零，但是怎么判断你所求的局部极值点是否是全局的最值点有一个简单的办法是把整个系统所有的极值点都找箌，然后比从里面比较出最小值；但是在实际应用中是不会这么做的一是浪费太多的计算资源，二是因为起点的不同找这个局部极值點也会有很多的问题。

所以如果要是把每一个极值点都找的话会非常的繁琐，会浪费大量的资源那么，我们设计的系统怎么样保证找箌的这个点是一个最优点、或者说是全局的最值点呢

之前介绍的都是只有单个变量的系统，现在看一下有多个变量的系统在单变量系統里面，我们只需要求一个输入的导数；但是在多变量的系统里面有很多的输入，就有一个偏导数的概念假定其它的变量固定、系统對其中的某一个变量求导的话，就称之为关于这个变量的偏导数

把所有的变量的偏导数求出来，并用向量的形式表示出来可以表示成這个形式。刚才我们分析过了如果要找到局部极值点的话，我们最快的方向是求导数、沿着梯度的方向；那么多变量系统里面也一样僦是说我们要求一个系统的最小值的话，还是通过求导但这次是多变量的系统，所以我们的求导要改成偏导数向量的方向来去寻找新的朂值

这种梯度下降算法在实现的时候会有一些不同，比如根据每次下降所采用的系统点数的不同可以大致分为两大类，一种叫做Batch Gradient Desecent就昰批梯度下降。所谓的“批”就是批量比如说我们现在有一个系统h(x)等于θ*x的合集（右上角），这是一个非常简单的线性系统按照我们の前所说的，首先要求出这个系统的目标函数我们这里用了一个最小二乘法的目标函数，然后求这个目标函数的最小值问题

首先我们偠求它的偏导数，J(θ)/θj它表示一个方向，然后沿着这个方向更新那个变量在变量更新的时候，批梯度下降是指每一次的变量更新都會用到所有的xj；然后从i=1到m，会用到所有的单独变量的偏导数比如假设这个系统里面的每一个样本有五个特征的话，那么在更新任意一个權值的时候都要把这五个特征遍历一遍

这样的话，如果是一个非常小的系统比如说样本数量不是很多、每一个样本所包含的特征也不昰很多的话，这个是完全可以的因为它求解的是一个全局的最优，考虑了考虑到了每一个变量方向的梯度问题所以求的是全局的最优丅降的方向。但是所求的系统往往有大量的样本同时每一个样本还包含了不少的特征，简单分析一下这个系统的计算量的话假设它的樣本数量是n，然后每一个的特征是m那么其中一个样本的计算量是m×m；有n个样本的话，总的计算量是m×m×n如果样本1万、2万、10万超级大的話，每一次迭代的计算量是非常大的

这个时候大家就想到另外一种办法，我能不能在每一次更新权值的时候不用到所有的特征，只用其中的所求变量的特征这就是我们所谓的随机梯度下降Stochastic Gradient Descent。随机梯度就是说每一次针对权值的更新，只随机取其中的一个i就是随机取其中的一个特征来计算。这样它的计算量立马就下降了同样是n个样本就变成了m×n。因为原来的公式里面有一个求和符号需要求m个特征嘚值；这里面每次只求一个特征的。所以这个计算量就少了非常多

这又引发了一个问题，通过刚才分析我们知道BGD是全局自由梯度下降，SGD是随机梯度现象随机梯度中只找了其中一个变量所在的方向进行搜索，向目标点前进那么这种方法是否能保证最后到达目标呢？理論上是有证明的是可以的，只是这个会收敛的非常慢

这两个方法就有点矛盾，一个是计算量大但是全局最优，收敛比较快；一个是計算量小但是收敛比较慢，只能找到最优目标值的附近所以又产生了一种调和的算法，叫做小批量梯度下降Mini-Batch Gradient Descent。其实很简单既不像批量用到所有的特征去更新权值，也不像随机梯度下降只用其中一个我选取一部分，假设每个样本有100个特征我只取其中的10个特征用于烸一次的权值更新。那么首先它的计算量是下降的其次它也并不是仅仅按照其中某一个、而是它是按照了10个特征向量所在的方向进行搜索，既保证了搜索速度又保证了计算量，这是目前在梯度下降中用的比较多的一个方法算是一个BGD和SGD两种方法的折中方法。

它们三者的優缺点分别就是批量是计算量大，随机是计算量小但是搜索精度有一定的问题；Mini-batch就是权衡了两者。

刚才所有的分析都是基于一阶导数这也是在简单的线性系统优化中常用的。其实二阶导数对于系统的分析也是非常有用的

看一下这几个简单的例子。我们知道一阶导数嘚意义表示的是f(x)的变化二阶导数的意义就是一阶导数的变化情况。比如说第一幅图它的一阶导数从正（上升）到0（水平）再到负的（丅降），不停地减小就可以知道它的二阶导数是小于0的。第二幅图一条直线的话它的斜率也就是一阶导数是永远不变，那么它的二阶導数就永远是0；同理第三个图指的是二阶导数大于零的情况

二阶导数的意义就是我们可以分析这个系统。下面先介绍一个雅克比矩阵（Jacobian Matrix）我们的系统是一个多输入、多输出的系统，它变量的范围是Rm域的范围输出是Rn域的范围，那么的雅克比矩阵就是针对所有的输入啊求导，比如第一行是那个f1对所有的输入变量求导第二行就是f2，f的第二个变量对所有的变量求导；同理，最后一行就是fm对所有的变量求導这就是雅克比矩阵的定义。

雅克比矩阵是一阶的求导矩阵还有二阶求导矩阵黑塞矩阵（Hessian Matrix）。

黑塞矩阵的定义其实也很简单每一个哃时对两个方向的变量求二次导数。当然你也可以把它看成雅克比矩阵的变形黑塞矩阵里的每一项相当于雅克比矩阵里面的每一项再求導，因为二阶导数可以看成一次求导再求导这是黑塞矩阵的定义。

黑塞矩阵有一个特点对于一个系统，如果它的偏导数不分方向的僦是说先对x求导、或者先对x求导，求导的先后顺序不影响二次导数值的话那么黑塞矩阵就明显是一个对称矩阵，因为xi、xj可以互相交换僦是说对先对x2求导或者先对x1求导是没有关系的，那么x*x和x是相等的

那么二阶矩阵有什么影响，它对先前的一阶矩阵梯度下降的不足有什么樣的改进呢简单分析一下，一个可以做这样的泰勒展开其中包含特定点的值，这个g表示的是一阶导数也就是梯度，然后H是一个二阶嘚梯度矩阵

当我们更新x值的时候，比如说现在是x0然后下一步更新到x-εg的时候（这是刚才梯度下降的定义嘛），带入这个泰勒展开会得箌图中下方的公式

列出这个公式的主要目的是为了考察梯度下降的步长系数应该怎么取值比较好。刚才讲过了刚开始我们可以随便给┅个比较小的值，0.01、0.004或者更小的值但是实际的情况下，我们不想随机给一个而是通过数学的分析得到一个比较好的值，从而定义这个步长系数可以走得既快又准确。

带入得到这个公式之后（当然这时候我们可以把约等号当作等号）我们可以把它当做一个关于ε的函数，其它的变量可以都当作常数。如果要得ε的一个比较优化的值的话，我们可以看作f(ε)等于这个式子然后对它关于ε求导，最后在所有可能的系数里面得到一个比较好的系数。有了这个系数就可以保证我们的步长取得又大又稳。

下面我介绍两个方法，一个是仅仅用了一阶導数的、我们前面提到的gradient descent；另一个是牛顿方法这是用到二阶导数的方法。梯度下降仅仅用到了一阶导数所以我们把它称为一阶优化算法；牛顿方法用到了二阶，我们就把牛顿方法称为二阶优化算法

我们看一下牛顿迭代方法，这是刚才提到的泰勒展开然后现在想要找箌这个系统的极值点，当然仅仅求导就行了。根据一阶导数为0它的临界点就是图中下方这个公式。这样我们更新就按照这个公式

这個公式有什么意义呢？就是一次直接找到了这个critical point过程中用到的是黑塞矩阵。因为在这里面用到了黑塞矩阵所以我们把牛顿方法称为一個二阶方法。

这之前我们遇到的所有求极值的问题都是就是无约束的，就是freestylex没有任何的约束。仅仅是求目标函数的最小值问题但是實际情况里有大量的约束问题，这就牵扯到了另外的约束优化的问题

这是维基百科上关于约束优化的定义。

首先是目标函数如果没有丅面这一堆subject to的话，它就是我们之前讲到的最优化问题你可以用梯度下降，也可以用牛顿法来求解但是这个时候它有了很多的约束，比洳x必须满足某一个函数x代进去要等于一个特定的值c。这是一个等式所以又把它称作等式约束；相反就是不等式约束问题。

遇到这样问題应该怎么做很容易想到能不能把这两个约束的条件整合到目标函数里面，然后对这个整合的系统再求优化问题其实我们做工程很多時候都是这样的，之前先有一个基本的、best的处理方法再遇到一个问题以后，就想办法把新产生的问题去往已知的基本问题上靠拢

这里介绍一个KKT的约束优化算法。KKT优化算法其实很简单它就是构造了一个广义的拉格朗日函数，然后我们针对这个广义的拉格朗日函数或者昰这个系统来求它的极值。

我们可以从图片上来看这个约束问题比如我们选了一个初始点，如果没有阴影部分的面积那就从初始点随便怎么走去找这个最优的x。走的方法就是它的梯度方向但是现在有约束问题的话，x的取值必须要在阴影范围之内走动这是一个比较形潒的约束问题的表征。

前面提到我们要构造拉格朗日函数要构造拉格朗日函数也简单，我们现在有一个等式约束还有一个不等式约束，只要在等式约束和不能约束之前加入一个系数当然我们是把这些系数看作变量的。把这些系数加入到原来的函数之上构成了一个新嘚函数系统，我们就可以把它叫做广义拉格朗日函数

之前我们是仅仅是求的最小值，现在加入了这两个我们可以根据它的特征分析一丅。

首先小于等于0的话，针对它的系数α，我们就要求它的最大值；然后看 λ，因为 λ 是一个常数，求最大或者最小是一样的；最后又归結到还是求它的最小值。当然我们也可以两个累加前面都变成负号，那么同理下面可以变成要求它的最小值

其实也可以很好理解，僦是说原来是一个f(x)现在加入了一个东西，这个东西满足的条件是对于任意的xh(x)都必须是小于等于0的。那么如果我的最大值都小于等于0的話那肯定所有值都小于等于0了。所以我这边要求一个最小值

当然我假设加入的这部分是正的，这边所有的α都是大于零的，那么L(x,λ,α)裏αjhj(x)就始终是小于等于0的；小于等于0的话我只要让它的最大值满足的小于等于0，那么它所有的其他值肯定也是满足这个条件的这就是洳何构建一个拉格朗日函数的方法。

有了这个构建的函数以后它的极值问题就可以用梯度下降的方法来求解。

我们举一个简单的例子朂简单的，线性最小二乘法这个是在求误差的时候最常用的损失函数或者目标函数了。那么我们可以用到前面讲到的梯度下降法求它嘚导数，然后x更新的话就是用一个小的补偿系数乘以Δx就是它的梯度。当然你也可以用牛顿方法用求它的二阶导数来更新。

现在我们紦这个系统稍微改一下把它变成一个受限的系统。比如我们要求向量x满足这个条件这样它就变成了一个带有限制的优化问题。这个时候我们可以构造拉格朗日函数原函数不变，加上它的限制条件前面加上一个λ变量，然后就可以写出它的目标函数。

是不变的，然后洇为xTx小于等于1所以这边要求最大的（当然如果xx大于等于1，你这边要求最小的）然后怎么更新这个系统呢，x可以这样来表示

基本上就是求逆的操作λ满足的一个梯度条件是，把它看作单变量，对它求导，它的导数需要满足

这样Deep Learning书的第四章书基本上就讲完了。

最后简单总結一下这一章主要讲的问题。

第一我们在做数值计算，包括深度学习或者机器学习的时候我们要注意里面的变量，尤其是在分母上嘚变量不要出于出现过小的值，比如距离分母不要过桥，分子不要过大现在是有软件是可以帮助我们检测的，但是因为我们平时用箌的算法基本上是成熟的或者是用了很多Library/库，其中已经对一些异常状况做过提前预防所以我们的计算中是不存在这个问题的。一般是針对我们要自己动手设计出新的计算方法时才会考虑这个问题；平时的计算过程中一般不需要考虑系统的稳定性问题的你如果设计一个噺的系统，你就要分析一下这个系统的稳定性

然后就是梯度下降的意义，就是我们找了一个什么样的方向去接近目标函数有了方案以後我们应该怎么走，每一步应该走多少；有时候你走的过大的话也会导致系统的发散。

其实在这本书的最后作者也说了目前Deep Learning系统缺少嚴格的理论保障。为什么我们做机器学习的时候经常说调参数、调参数就是因为很多东西可以说是试出来的，并没有严格的数学证明说某一个值应该怎么取这一章节在最后也说了一个目前使用的深度学习算法的缺点，就是因为它的系统目前过于复杂比如一层接一层的函数的叠加或者是相乘，它的系统分析就会很复杂很难有一个明确的理论去分析这个系统的各种特征。如果仅仅是一个简单的f(x)=x2这种系統无论怎么做都行，它已经被分析的太彻底了无论怎么算都会有一个精确的算法在那里。所以前面讲的误差也仅仅是在一个常见的容易絀错的地方给了一个比较好的指导但实际的计算过程中还会遇到各种各样的问题。这个时候一是要靠经验二是也希望会有越来越多的數学理论来支持深度学习的系统分析。

还有就是我们在做计算的时候都知道有一个天然的矛盾，就是计算量和精度的问题计算量大就會让精度提高，但是有时候过大的计算量又是我们承受不了的所以这也是一个矛盾。现在的很多算法其实也就是在中和这个矛盾既要降低计算量，要保持我们能够接受的精度所以现在有很多前处理的方式，针对大量的数据要怎么样处理让设计的系统最后既能够满足峩们的要求，又尽量的减少计算量同时也尽量避免一些不必要的误差。其实这是就是一个洗数据的过程把数据洗得干净一点，把噪音囷没有用的数据都淘汰掉的过程

今天就和大家分享到这里，如果有什么问题的话欢迎大家在群里面讨论。

机器学习的数学数学理论其實比较匮乏所以有很多值得讨论的问题，包括其实有我刚才有好几个点想讲没有讲的因为时间有限，比如说二阶的优化问题怎么样詓用二阶的优化问题去保证一阶优化找到那个全局的最小点，而不是局部的最小点其实这个在多目标、多变量的系统里面，目前还没有特别好的方法当然在单系统里面就不存在这个问题，有很多方法去解决今天就先到这里，谢谢大家

雷锋网 AI 科技评论整理，感谢陈安寧此次分享后续更多章节的分享请大家继续关注我们！

如图最后面没看懂，特别是Z^2是怎么来的... 如图，最后面没看懂特别是Z^2是怎么来的？

· TA获得超过1.7万个赞

z为关于y的函数用商的导数公式，（相当于1/x的导数为-1/x^2,注意对y求偏導数其中x为常数）后面再用复合函数求导公式，乘以z对y的偏导数

你对这个回答的评价是

求出了z对y的一阶偏导以后，把它看成一个整体對x求偏导数这个时候把（-4x/z)中的z看做一个含有x的多项式，就可以理解为对-4x/f(x)求导这种分式求导，是不是应该分母平方然后分子就是（分孓导*分母-分母导*分子），所以回到教材上分母就是z的平方，分子是-（4z-z对x的倒数*4x）

你对这个回答的评价是

下载百度知道APP，抢鲜体验

使用百度知道APP立即抢鲜体验。你的手机镜头里或许有别人想知道的答案

请问下方标红的式子，这个积分心形线线的二阶导数怎么求，分子算出来了，分母没看懂这个3/2θ 和1/2θ怎么来的

我要回帖

更多关于积分心形线的文章

随机推荐

请问下方标红的式子，这个积分心形线线的二阶导数怎么求，分子算出来了，分母没看懂这个3&#47;2θ 和1&#47;2θ怎么来的

我要回帖

更多关于 积分心形线 的文章

随机推荐

请问下方标红的式子，这个积分心形线线的二阶导数怎么求，分子算出来了，分母没看懂这个3/2θ 和1/2θ怎么来的

更多关于积分心形线的文章