如何直观地理解过拟合与机器学习 欠拟合合那些事

1、什么是投行?有一个投行菜鸟问:“什么是投行?”前辈拿了一些烂水果问他:“你打算怎么把这些水果卖出去?”菜鸟想了半天说:“我按照市场价打折处理掉。”这位前辈摇头,拿起一把水果刀,把烂水果去皮切块,弄个漂亮的水果拼盘:“这样,按照几十倍的价格卖掉”。2、长线投资一位8岁的女孩拿着三角钱来到瓜园买瓜,瓜农见她钱太少,便想糊弄小姑娘离开,指着一个未长大的小瓜说:“三角钱只能买到那个小瓜”,女孩答应了,兴高采烈的把钱递给瓜农,瓜农很惊讶:“这个瓜还没熟,你要它怎么吃呢?”女孩:“交上钱这瓜就属于我了,等瓜长大熟了我再来取吧。”3、“天下没有免费的午餐”由来这句话最早由经济学大师弗里德曼提出来。它的本义是即使你不用付钱吃饭,可你还是要付出代价的。因为你吃这顿饭的时间,可以用来做其他事情,比如谈一笔100万的生意,你把时间用于吃这顿饭,就失去了这些本来能有的价值。这是机会成本的概念,以前你知道吗?4、经济学笑话课堂上,教授讲授经济学:“何谓第一产业?喂牛,养羊。何谓第二产业?杀牛,宰羊。何谓第三产业?吃牛肉,喝羊汤。”有学生问:“那么,文化产业呢?”教授眼睛一亮:“问得好!不愧是俺的好学生。”然后回答:“所谓文化产业,就是吹牛皮,出羊相!”5、穷人税经济学上有个说法叫“穷人税”,最典型的是买彩票的人大多都是穷人(经常买彩票的兄弟不要介意),这是他们承受能力和支付能力范围以内能够实现财富剧增的少有机会,但中奖毕竟是小概率,长期以往,细水长流,出得多,进得少,就权当缴税了。6、帕累托分布把全世界每个人拥有的财富从大到小排起来,一边是一个纤细但高耸入云的头,另一边是漫长的一望无际,低矮的让人绝望的尾。这样的分布在经济学里被冠名为“帕累托分布”。7、无利润投资“请举例说明,什么叫无利润投资。”经济学教授提问。“带自己的妹妹出去玩。”一个男学生答道。8、择偶观美国有位经济学家发表了篇论文,从交易学角度分析择偶观。假如把男人、女人分为ABCD四种优秀程度,那现在的现状就是,A男想找B女,B男想找C女,C男找D女,所以D男就剩了。反之,女人方面却不同,即是,ABCD女都想找A男。最后结果是剩下A女和D男。经济学里有个案例:两个人在森林里遇到一只熊,那么对手不会是熊!只要比另一个人快一步就胜利。9、博弈论与追女生如四个男生都去追一个漂亮女生,那她一定会摆足架子,谁也不搭理。这时男生再去追别的女孩,别人也不会接受,因为没人愿当次品。但是,如果他们四个先追其她女生,那个漂亮女孩就会被孤立,这时再追她就简单多了。——数学大师纳什关于博弈论最简单表述。10、快乐痛苦四原则一次捡75元,和先捡50元后捡25元,选哪个?一次丢75元,和先丢50元再丢25元,选哪个?实验证明,多数人选分开捡¥75,一起丢¥75。这就是经济学的快乐痛苦四原则:①n个好消息要分开发布;②n个坏消息要一起发布;③一个大的坏消息和一个小的好消息,分别公布;④一个大的好消息和一个小的坏消息,一起公布。11、停车一位富豪到华尔街银行借了5000元贷款,借期为两周,银行贷款须有抵押,他用停在门口的劳斯莱斯做抵押。银行职员将他的劳斯莱斯停在地下车库里,然后借给富豪5000元。两周后富豪来还钱,利息共15元,银行职员发现富豪账上有几千万美元,问为啥还要借钱。富豪说:15元两周的停车场,在华尔街是永远找不到的。12、网聊当你决定上网聊天,这叫创业;上来一看MM真多,这叫市场潜力大;但GG也不少,这叫竞争激烈;你决定吸引美女眼球,这叫定位;你说你又帅又有钱,这叫炒作;你问“谁想和我聊天”,这叫广告;你又问“有美女吗”,这叫市场调查;有200人同时答“我是美女”,这叫泡沫经济。13、经济学笑话:如果有2头母牛美国:卖掉1头母,买回1头公,牛群增长,效益增加,最后卖掉退休。法国:继续罢工,因为你要3头母牛。日本:创造卡通母牛,卖到全世界。德国:基因改造,母牛能活100岁,日产10桶牛奶。英国:后来都疯了。俄罗斯:数一遍,5头,再数,10头,烦,打开第3瓶伏特加……14、幸福公式经济学中有个公式:幸福=效用:期望值。如果你男友发奖金,拿到1000块,可你期望他给自己买10000块的LV包,1000除以10000,幸福感只有0.1。但如果你的期望是让男友请自己吃顿200块的西餐,1000除以200,幸福感是5。要获得爱情中的幸福,最好不要让欲望影响你的生活。-----帮大家赚钱的公号-----什么值得投(smzdt8),是一个第三方的帮助用户在新时代,更好地投资、理财的平台。主要是挑选令人头疼的P2P产品、宝宝理财等产品,小编团队是80后与90后,用户倾向也是这样滴哦。欢迎大家在后台与小编联系,这样,我们会更加努力哦。 什么值得投(smzdt8) 
 文章为作者独立观点,不代表大不六文章网立场
smzdt8中立、客观,挑选那些值得投资的产品,给用户,投资是一种生活方式,而如何投资更是需要学习的一门课热门文章最新文章smzdt8中立、客观,挑选那些值得投资的产品,给用户,投资是一种生活方式,而如何投资更是需要学习的一门课&&&&违法和不良信息举报电话:183-
举报邮箱:
Copyright(C)2016 大不六文章网
京公网安备78随着电视剧《芈月传》在东方卫视的热播,这部由郑晓龙执导的宫斗古装剧又在年前足足火了一把。剧中逐渐白热化的后宫争斗让观众大呼过瘾,不过我们不难发现,即使身为王的女人,一人之下万人之上也是处处被逼无奈。她所有的权术都是被逼出来的!和秦王侍寝是被逼无奈。没办法和子歇走也是被逼无奈。和亲姐妹对撕还是被逼无奈。哎,做人难做女人更难。。。王的女人都要处处被逼,何况小编这种普通小百姓捏~(无奈脸)~但是!生活家2016款家具现在你说了算!小编精选了我们生活家2016年即将上样的家具,供大家进行投票,为你希望在生活家看到的家具投上一票吧!这次,不用被逼无奈!这次,你的装修你做主!1号
摩高蔻斯图2号
现代FC044号
澳玛枫度5号
兴利澳玛-拉斐7号
兴利澳玛-珞美8号
诺丁山-法式ND400510
诺丁山-法式ND400611
美式-MG400812
法式-MG4009一共12款家具,下面就为你喜欢的类型投票吧~我们会根据大家的投票为大家准备更多家具款式哦!“阅读原文”报名定装修抢特权贵阳生活家(w) 
 文章为作者独立观点,不代表大不六文章网立场
w客户服务,交流联系热门文章最新文章w客户服务,交流联系&&&&违法和不良信息举报电话:183-
举报邮箱:
Copyright(C)2016 大不六文章网
京公网安备78&如何直观地理解过拟合与欠拟合那些事~
如何直观地理解过拟合与欠拟合那些事~
日08时59分来源:
在上前几期中,我们曾谈到过在我们希望借助统计学习方法,能够在现有的数据当中掌握规律,从而能够对未来/未知进行预测控制。虽然是说从现有的数据当中掌握规律,但是很显然地,我们的重心还是在于预测上。
既然我们是在做预测,不可避免地,就存在对错的问题,就存在这预测准确率的问题。若是用了精度不够的模型,轻则可能影响生产,重则也是有可能造成事故~当年,要是孔明先生不能准确预测东风,就是不是大事可成,而是万事休矣~
那当然,预测精准率高不仅仅指的是,通过学习得到这个模型对已有的数据有很好的预测能力,更重要的是对未来,未知的数据也能够有很好的预测能力。但是在具体的执行层面,由于我们并没有未来的数据,为了能够充分评价模型的性能,因此我们一般可以会把现有的数据集简单划分为两个部分:一部分数据用作训练集,进行模型训练;剩下的数据用作测试集,用于模型性能评估。(具体的划分比例需要根据实际情况进行调整,一般的做法,我们会将大约60% ~ 80%的数据用于训练,剩下的样本用于测试)。
其实,我们需要把数据划分为训练集合测试的原因很好理解,如果我只有一个训练数据集合,无论是模型训练还是模型测试,都是在训练集上执行的话,这就有点类似于运动会上,咱们既当运动员又当裁判,这事儿怎么看都透着这么点诡异了。
一般地,我们把在训练集上的计算得到误差称之为训练误差,在测试集上计算得到的称为测试误差(也称作为泛化误差)。一般来说,我们通过比较测试误差的高低从而进行模型的选择。
举个简单例子说明,例如我们在研究客户流失,在集合D中我们有1000个样本,我们利用随机抽样的方法从中抽取800个样本作为训练集,剩下的200个作为测试集。划分出集合后,我们就可以在训练集S上进行模型训练,再在测试集T上评估结果。假如在训练集中,我们有700个样本被正确分类,那么训练集的正确率就有700/800*100%=87.5%,而在测试集中,假如我们只有150个样本被正确分类,那么测试集的正确率绩则是150/200*100%=75%.
虽然,一般来说,训练集的准确率都是高于测试集,但是,我们认为训练集测预测准确率不能很好地评估模型的预测能力,直观地说,就类似上面所说这样会带来‘即是裁判又是运动员的问题’。进一步地说,这样很可能会导致过拟合的问题。
让我们再看看如下的例子,对包含10个样本的数据集进行线性回归,分别构建多项式:M=1,M=3,M=5以及M=9(注M=9,因为含有常数项的话,实际上已经包含有10个参数)
(1)首先,我们选择了一个一次项的回归模型,我们拟合出一条直线,可以看到数据拟合的效果并不好,不但与训练数据偏差较远,而且变动情况也没有很好的拟合出来,可以想象得到,该模型无论是在训练集上还是在测试集上,误差都比较大。由于变量考虑不足或者对模型形式估计不足,这种对训练数据基本特征都不能够很好拟合的情况,我们称之为“欠拟合”。
(2)进一步地,当我们选取M=3的时候,尽管拟合曲线并没有能够完美拟合出所有的点,但已基本能够把数据趋势很好地拟合出来,基本能够反映出自变量与因变量的关系,该模型在训练集以及测试集的误差可能都比较低,这个状态相对合适。
(3)接下来,我们进一步考擦,当我们选取M=6的时候,我们发现曲线的拟合效果进一步提高,已经非常接近实际数据;当最后,我们选择M=9,可以发现拟合曲线穿过所有的样本点,效果达到最好状态,训练误差为0。尽管,这是在训练集当中最好的状态,但是正因为把样本数据学习得太好了,将会导致我们的泛化能力大大的下降,要知道在我们的训练集中,也是存在噪声的!这种把训练集中数据所有特性(包括噪声特性)都学习起来的状态,我们称之为‘过拟合’。过拟合状态往往在测试集的数据上都表现都要比训练集效果差得多;
实际上,当我们选择M=3的时候,就已经把训练数据的基本特征学习到了,并且这个时候模型也相对简单,因此我们可以选取多项式(M=3)作为最终选择。
从上面的例子,我们可以看到,随着模型复杂度的提高(例如更多的参数),训练误差也会随之减少,直至趋向于0(甚至等于0)。但对于测试误差来说,则不是,一开始随着模型复杂度的增加,测试误差逐渐降低,直至模型符合现实数据情况达到最低,如果在这个基础上模型复杂度继续增加,那么测试误差就会从最低点又开始增大。
下图展示了模型复杂度与模型误差之间的关系。
从上图,我们就可以明显看出,模型复杂度并不是越高越好。实际上,模型越复杂,出现“过拟合”的可能性就越大,因此一般而言,我们更喜欢“简单”的模型,而这种思想确实又与众所周知的“奥卡姆剃刀原理”是不谋而合的。
“奥卡姆剃刀原理”是有14世纪逻辑学家奥卡姆的威廉所提出,简单来说就是“如无必要,勿增实体”。而放在统计学习领域里面,我们则可以翻译为“若有两个预测能力相当的模型时,我们应该选择其中较为简单的一个”。
一般来说,欠拟合的问题比较清楚明了,不外乎是由于所选择的特征不足够或者所选择的学习算法学习能力不够强大。相反,过拟合的问题就比较复杂了,很多时候我们并不清楚问题是否由过拟合引起,或者说过拟合所带来的问题有多严重,因为我们总是不可能避免过拟合的出现。因此,怎们选进行合适的模型选择就变得重中之重。
因此综合来说,为了能准确评估模型性能,我们就可以把整个数据集集分成两个部分,一部分用于训练模型,得到估计参数(训练集);另一部分用于评估模型误差,得到准确率(测试集)
更进一步,在有些实践当中,如在分类问题上,我们往往在事先不知道那种算法是最优的,并且不同的算法里面也包含大量的需要人为设定的超参数。在这些情况下,我们往往需要再划分多一个验证集,用于选择具体超参数,因此也可以把数据集划分为训练集,验证集以及测试集。
(1)首先按照一定比例划分为广义训练集A以及测试集T;
(2)由于我们还需要一个验证集,所以我们再从广义训练集A再按比例划分训练集S以及验证集V;
(3)我们在训练集S上分别采用不同的算法/参数得出模型,再利用验证集V评估各个模型的性能。经过这一步,我们已经得到了最优的算法/参数配置;
(4)根据得到的最优配置,我们在广义训练集A上(即S+V)重新构建模型,得到最终模型;
(5)把最终模型用于测试集T检验结果,进行评估测试。
a):在步骤(3)中,利用随机方法把广义训练集A直接划分为训练集S以及验证集V我们一般称之为留出法,这里的划分方法不但可以使用随机抽样也可以选择分层抽样,这样可以一定程度保持分布的一致性;
b):针对留出法只是直接切割划分,可能会为模型带来一定的不确定性,因此这阶段我们可以选择交叉检验(Cross Validation,简称CV)进行代替;
c):可以在第四步中的广义训练集A得到的模型作为最终模型,也可以在确认算法及超参数的配置后,用整个数据集(A+T)作为最终模型。
近期热门文章精选(点击标题即可阅读):
1.干货教程|可能是最方便好用的文字云工具
2.可视化干货|可能是最好玩的像素地图
3.(理论+案例)如何通俗地理解极大似然估计?
4.XGBoost 与 Boosted Tree
5.统计挖掘那些事——强大的逻辑回归(理论+案例)
作者简介:浩彬老撕
好玩的IBM数据工程师,
立志做数据科学界的段子手,
致力知识分享,每月至少一次送书活动Service Unavailable
Service Unavailable
HTTP Error 503. The service is unavailable.

我要回帖

更多关于 欠拟合 的文章

 

随机推荐