关于logit和logit与logisticc模型的区别

18被浏览3211分享邀请回答0添加评论分享收藏感谢收起03 条评论分享收藏感谢收起写回答【图文】logistic回归模型_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
logistic回归模型
大小:501.50KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢logistic回归_百度百科
声明:百科词条人人可编辑,词条创建和修改均免费,绝不存在官方及代理商付费代编,请勿上当受骗。
logistic回归
logistic回归又称logistic,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。
logistic回归概念
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。[1]
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。[1]
Logistic回归模型的适用条件
1 因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。
2 残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
3 自变量和Logistic概率是线性关系
4 各观测对象间相互独立。[2]
原理:如果直接将线性回归的模型扣到Logistic回归中,会造成方程二边取值区间不同和普遍的非直线关系。因为Logistic中因变量为二分类变量,某个概率作为方程的因变量估计值取值范围为0-1,但是,方程右边取值范围是无穷大或者无穷小。所以,才引入Logistic回归。[2]
Logistic回归实质:发生概率除以没有发生概率再取对数。就是这个不太繁琐的变换改变了取值区间的矛盾和因变量自变量间的曲线关系。究其原因,是发生和未发生的概率成为了比值 ,这个比值就是一个缓冲,将取值范围扩大,再进行对数变换,整个因变量改变。不仅如此,这种变换往往使得因变量和自变量之间呈线性关系,这是根据大量实践而总结。所以,Logistic回归从根本上解决因变量要不是连续变量怎么办的问题。还有,Logistic应用广泛的原因是许多现实问题跟它的模型吻合。例如一件事情是否发生跟其他数值型自变量的关系。[2]
注意:如果自变量为字符型,就需要进行重新编码。一般如果自变量有三个水平就非常难对付,所以,如果自变量有更多水平就太复杂。这里只讨论自变量只有三个水平。非常麻烦,需要再设二个新变量。共有三个变量,第一个变量编码1为高水平,其他水平为0。第二个变量编码1为中间水平,0为其他水平。第三个变量,所有水平都为0。实在是麻烦,而且不容易理解。最好不要这样做,也就是,最好自变量都为连续变量。[2]
spss操作:进入Logistic回归主对话框,通用操作不赘述。
发现没有自变量这个说法,只有协变量,其实协变量就是自变量。旁边的块就是可以设置很多模型。
“方法”栏:这个根据词语理解不容易明白,需要说明。
共有7种方法。但是都是有规律可寻的。
“向前”和“向后”:向前是事先用一步一步的方法筛选自变量,也就是先设立门槛。称作“前”。而向后,是先把所有的自变量都进来,然后再筛选自变量。也就是先不设置门槛,等进来了再一个一个淘汰。
“LR”和“Wald”,LR指的是极大偏似然估计的似然比统计量概率值,有一点长。但是其中重要的词语就是似然。
Wald指Wald统计量概率值。
“条件”指条件参数似然比统计量概率值。
“进入”就是所有自变量都进来,不进行任何筛选
将所有的关键词组合在一起就是7种方法,分别是“进入”“向前LR”“向前Wald”&向后LR&“向后Wald”“向后条件”“向前条件”
下一步:一旦选定协变量,也就是自变量,“分类”按钮就会被激活。其中,当选择完分类协变量以后,“更改对比”选项组就会被激活。一共有7种更改对比的方法。
“指示符”和“偏差”,都是选择最后一个和第一个个案作为对比标准,也就是这二种方法能够激活“参考类别”栏。“指示符”是默认选项。“偏差”表示分类变量每个水平和总平均值进行对比,总平均值的上下界就是&最后一个&和&第一个&在“参考类别”的设置。
“简单”也能激活“参考类别”设置。表示对分类变量各个水平和第一个水平或者最后一个水平的均值进行比较。
“差值”对分类变量各个水平都和前面的水平进行作差比较。第一个水平除外,因为不能作差。
“Helmert”跟“差值”正好相反。是每一个水平和后面水平进行作差比较。最后一个水平除外。仍然是因为不能做差。
“重复”表示对分类变量各个水平进行重复对比。
“多项式”对每一个水平按分类变量顺序进行趋势分析,常用的趋势分析方法有线性,二次式。[2]
logistic回归主要用途
logistic回归寻找危险因素
正如上面所说的寻找某一疾病的危险因素等。
logistic回归预测
如果已经建立了logistic,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的有多大。
logistic回归判别
实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的有多大,也就是看一下这个人有多大的可能性是属于某病。
这是logistic回归最常用的三个用途,实际中的logistic回归用途是极为广泛的,logistic回归几乎已经成了和医学中最常用的分析方法,因为它与相比有很多的优势,以后会对该方法进行详细的阐述。实际上有很多其他分类方法,只不过Logistic回归是最成功也是应用最广的。[1]
logistic回归案例分析
关于富士康跳楼曲线的Logistic回归分析。
首先找出所有富士康员工自杀的日期:
列出如下表格:(以07年6月18号,第一例自杀案例为原点,至今(10年5月25日)1072天)
自杀时间x/d
累计自杀人数y
在MATLAB中容易做出散点图:
可见这是一个增长的曲线。
其增长曲线与对数增长很接近。
General model Exp2:
f(x) = a*exp(b*x) + c*exp(d*x)
Coefficients (with 95% confidence bounds):
a = 7.569e-007 (-6.561e-006, 8.075e-006)
b = 0.0473, 0.0241)
c = 1.782 (0.)
d = 0..37e-005, 0.002125)
Goodness of fit:
SSE: 8.846
R-square: 0.9684
Adjusted R-square: 0.9598
RMSE: 0.8968
可见0.96也是非常高的。
然而和所有疾病一样,一旦其事件引起了人们的关注,则各方的反馈作用,将阻碍其继续上升。
因此,和很多流行病分析一样,该曲线很有可能呈S型。对于该曲线的分析,使用Logistic回归。
首先假设Logis(B,x)=F(x),之中B为参数,则由经验和可能的微分方程关系,回归曲线应该为
S(x)=m*Logis(B,x+t)/(n+Logis(B,x+t))格式
由于当Logis(B,x)较小时S(x)=Logis(B,x),则可以认为f(x)的参数可以直接引入S(x)作为一种近似,而对于m,n的确定,以1为间隔,画出m*n=40*20的所有曲线,
选出其中最吻合的的一条(m=22 n=20 t=50):[1]
logistic回归其他信息
由此可以见,富士康的跳楼人数最终会稳定在在22人左右,仍然不会超过全国平均跳楼率。
对此曲线的分析,借鉴的方法,将其分为:
缓慢期,,,
缓慢期,富士康员工虽然受到很大的工作压力,可是其自身的心理并没有崩溃,因此跳楼这种事件发生频率很少,而且呈,说明没有跳楼者受到别的跳楼者的影响。
对数期,富士康员工由于受到工厂巨大的工作压力,以及来自社会各方的压力,甚至加上上级的欺压,心理防线渐渐崩溃,无处发泄。而一旦有想不开者跳楼,则为其提供了一个发泄的模板,这种情况下,很容易有相同经历的员工受到跳楼者的影响,从而一个接一个的跳楼自杀。目前的富士康正处于此时期。
稳定期,由于社会、媒体各方面的关注以及社会、广大人民对工厂的压力,工厂不得不做出改变,员工的心理压力渐渐得到释放,从而员工跳楼轻生频率会很快下降。[1]
.人文网[引用日期]
.三亿文库[引用日期]
本词条内容贡献者为
副研究员审核[转载]logistic回归的一些直观理解
已有 20526 次阅读
|个人分类:|系统分类:|关键词:的|文章来源:转载
原文地址:
DVlogistic
lBinary logisticlogisticDV01
lOrdered logisticlogisticDV
lMultinomial logisticlogisticDV
LogisticDV
&Logistic回归”、“Logistic模型”、“Logistic回归模型”及“Logit模型”的称谓相互通用,来指同一个模型,唯一的区别是形式有所不同:logistic回归是直接估计概率,而logit模型对概率做了Logit转换。不过,SPSS软件好像将以分类自变量构成的模型称为Logit模型,而将既有分类自变量又有连续自变量的模型称为Logistic回归模型。至于是二元还是多元,关键是看因变量类别的多少,多元是二元的扩展。其次,当因变量是名义变量时,Logit和Probit没有本质的区别,一般情况下可以换用。区别在于采用的分布函数不同,前者假设随机变量服从逻辑概率分布,而后者假设随机变量服从正态分布。其实,这两种分布函数的公式很相似,函数值相差也并不大,唯一的区别在于逻辑概率分布函数的尾巴比正态分布粗一些。但是,如果因变量是序次变量,回归时只能用有序Probit模型。有序Probit可以看作是Probit的扩展。
前面写了一些读书笔记是关于用logit回归做二分类问题后的效果评价,基本上已经可以告一段落。然后打算回过头来整理一下logit回归本身的一些思路。很惭愧,我不是统计学出身,当年概率论差点考挂,数理统计也是一门选修课(唯一印象深刻的是老师的口音),所以大概很难从理论上进行严格的阐述,主要还是写一点直观的理解。
限制一下问题的范围吧,基本上用到logistic回归的,很多是二分类问题,也就是因变量是0-1类型的情况。我们想要研究的是因变量与自变量之间的关系,跟线性回归是完全类似的问题。但是由于因变量形式比较特殊,所以造成了处理方式的不同,也就引出了我的第一个困惑:为什么要引进广义回归方法呢?
首先,假设我们从线性回归的思路出发,遇到的第一个问题就是,我们问题的因变量是什么?这个因变量是一个分类的变量,看一下散点图就能知道因变量与自变量之间不是那种直线的关系,这就导致我们没办法写出传统的那种比较容易理解的线性回归公式 y = a + b*x 。我们想到的一个解决办法是,将这个因变量抽象成它的期望值(这应该是广义线性回归的核心内容之一)。在0-1变量的情形下,这个期望值就等于因变量取1的概率,一般就写成P了。这个P貌似是可以涵盖了0-1因变量的信息,同时也能够用来比较直观地理解我们的问题:当自变量发生变化时,我们的目标变量取1的概率是怎样变化的。
然后,我们继续试图用线性回归的思路,把问题写成 P = a + b*x ,也就是说,我们假设因变量取1的概率跟自变量是线性关系。这个假设挺自然也挺合理的,但是却导致了另外三个问题:参数估计,因变量P的取值范围,以及非正态的误差。由于这里的P是我们抽象出来的一个变量,我们没办法从观测数据中得到这个值,所以也就没办法用我们熟悉的最小二乘法,而如果不用最小二乘法,说实话,我还真不知道应该用什么方法来估计参数(知识太有限了)。另一方面,等式右边是自变量x的线性函数,于是他的取值范围是负无穷到正无穷,这显然与等式左边的概率P的取值范围相矛盾,是不合理的。同时,非正态的误差也与线性回归的基本假设相违背。
于是,我们就得想办法对上面的这个回归公式 P = a + b*x 做一些调整,这里就涉及到了广义线性回归的另一个核心内容,连接函数。连接函数可以认为是对等式左边的概率P做一点变换,使得我们能够有办法进行参数估计,并且让变化之后的取值范围变得合理。参数估计这块,我不是非常明白,因为可能涉及分布族的一些理论,貌似是为了能够方便地进行极大似然估计。而对取值范围进行缩放变换似乎稍微容易理解一点,就是努力地将P的[0,1]限制取消。这里常用的连接函数就是logit()与probit()。经过变换后,回归公式变成了:
logit(P) = log(P / (1-P)) = a + b*x 以及 probit(P) = a + b*x
这两个连接函数的性质使得P的取值被放大到整个实数轴上。
事实上可以把上面的公式改写一下:
P = exp(a + b*x) / (1 + exp(a + b*x)) 或者 P = pnorm(a + b*x)(这个是标准正态分布的分布函数)
可以看出,公式右边的取值被限制到[0,1]上了,从而使得公式变得合理。
但是,能够实现这种[0,1]限制的函数应该也蛮多的,为啥会推荐这两个变换呢?这个应该跟业务理解有关。
可以先看一下经过变换后,自变量和P的关系是个什么样子。
上半部分图形显示了概率P随着自变量变化而变化的情况,下半部分图形显示了这种变化的速度的变化(没记错的话,分布函数求导应该就是密度函数)。可以看得出来,概率P与自变量仍然存在或多或少的线性关系,主要是在头尾两端被连接函数扭曲了,从而实现了[0,1]限制。同时,自变量取值靠近中间的时候,概率P变化比较快,自变量取值靠近两端的时候,概率P基本不再变化。这就跟我们的直观理解相符合了,似乎是某种边际效用递减的特点,不恰当的例子就是我们青春期的时候狂长个子而当青春期过去我们的个头就基本稳定了。(确实是个不恰当的例子,恰当的例子暂时没想到。)这就基本解释了我们选择这两个变化作为连接函数的一部分原因。
同时也可以看出来,logit跟probit的形式虽然不同,外观还是蛮相似的。前几天我还跟老段讨论这个来着,我当时以为probit回归是跟logit回归完全不同的假设,看来是理解不够的缘故。
顺便来画一下不同系数的效果。
到这里,logit回归就基本成型了,里面用到比较重要的内容是”求期望“和”连接函数“,最后的回归公式就是
有这个形式,就比较容易用似然函数的方法进行参数估计了。
转载本文请联系原作者获取授权,同时请注明本文来自李峰科学网博客。链接地址:
当前推荐数:0
评论 ( 个评论)
扫一扫,分享此博文
作者的精选博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &

我要回帖

更多关于 多元logistic回归模型 的文章

 

随机推荐