Logistic回归中在什么情况下需要定义分类协变量

“Logistic回归分析中,以多分类协变量中的指示变量的最大取值为对照”是什么意思?_百度知道
“Logistic回归分析中,以多分类协变量中的指示变量的最大取值为对照”是什么意思?
我有更好的答案
血型a,b,ab,o分别赋值1234,那么就是以4这个为对照,也就是o型
采纳率:73%
来自团队:
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。苹果/安卓/wp
积分 1211, 距离下一级还需 164 积分
权限: 自定义头衔, 签名中使用图片, 隐身
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发下一级可获得
权限: 设置帖子权限道具: 提升卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
苦逼签到天数: 118 天连续签到: 1 天[LV.6]常住居民II
进行Logistic回归时(实际Cox回归同样存在类似问题)SPSS中可以用categorical...来定义分类协变量(哑变量),那么问题就来了,何时定义哑变量,对于二分类变量或三分类变量何时应该做为哑变量处理。因为做不做为哑变量处理结果完全不同。
下面举个例子,大家来看看:
举例数据库见附件:rar解压后即可
(920 Bytes)
22:56:52 上传
不同方法结果不同见附件word文档
(21.58 KB)
22:57:24 上传
筛选变量采用Foward:Wald
如果设置哑变量,则哑变量对照方法采用系统默认的indicator
针对术后是否复发做logistic回归分析
三种方法,结果不同
方法1、所有变量均不做为哑变量,直接分析,结果如下
22:57:56 上传
方法2、将变量除年龄外的胃切除、家族遗传、营养状况、术后化疗均做为哑变量进行分析,结果如下
22:57:57 上传
方法3、仅将三分类变量胃切除、营养状况做为哑变量分析,二分类变量家族遗传、术后化疗不做为哑变量分析,结果如下
22:57:57 上传
请问各位仁兄和老师,为什么三个结果会不同,我们应该选择哪种方法。该例数据实际来源于统计书《医学统计学与SPSS 软件应用》例13-1,书中采用的是第一种方法,为什么用第一种方法?书中的举例有问题?
载入中......
纠正你一下。方法2和3的结果是一样的。只是家族遗传、术后化疗系数的正负号不一样,这说明spss和你选择了不同的状况做为对照组。但实质上是一样的。
方法1和其他两种方法不一样是很正常的呀,完全就是不同的回归模型。方法1是把三分类变量当作一个变量处理,而方法2和方法3是spss把三分类变量自动分为两个虚拟变量后,才进行的回归。
我也是初学者,回答的不知道对不对,见笑了。
本帖被以下文库推荐
& |主题: 2161, 订阅: 20
纠正你一下。方法2和3的结果是一样的。只是家族遗传、术后化疗系数的正负号不一样,这说明spss和你选择了不同的状况做为对照组。但实质上是一样的。
方法1和其他两种方法不一样是很正常的呀,完全就是不同的回归模型。方法1是把三分类变量当作一个变量处理,而方法2和方法3是spss把三分类变量自动分为两个虚拟变量后,才进行的回归。
我也是初学者,回答的不知道对不对,见笑了。
观点有启发
分析的有道理
热心帮助其他会员
总评分:&经验 + 50&
论坛币 + 21&
学术水平 + 2&
热心指数 + 8&
信用等级 + 2&
士不可不弘毅,任重而道远。
ofzhengyi 发表于
纠正你一下。方法2和3的结果是一样的。只是家族遗传、术后化疗系数的正负号不一样,这说明spss和你选择了不 ...谢谢回答啊,后两个结果是一样的,也就是说如果是二分类变量无论如论是否当哑变量进行分析,结果都是相同的。非常感谢,我明白了。
但书中没有将三分类变量当虚拟变量处理是否是错误的?
ofzhengyi 发表于
纠正你一下。方法2和3的结果是一样的。只是家族遗传、术后化疗系数的正负号不一样,这说明spss和你选择了不 ...谢谢啊,细细想想,您说的有道理啊。二分类变量确实无论是否当哑变量处理结果都是一样的,高手就是高手。
另外一个问题不讨论了,我想教材中可能只是考虑数据的处理,而会忽略一些数据处理的合理性吧,我可能太钻牛角尖了。非常感谢您。
你这边的三分类变量其实是定序变量,按书本上那样子处理也是可以的。定序变量按照方法1的处理方法可以节约自由度,即用方法1比方法2可以少估计一个系数。
总评分:&学术水平 + 1&
热心指数 + 1&
信用等级 + 1&
士不可不弘毅,任重而道远。
ofzhengyi 发表于
你这边的三分类变量其实是定序变量,按书本上那样子处理也是可以的。定序变量按照方法1的处理方法可以节约自 ...谢谢,嗯,你说的有道理,营养状态确实可以当定序变量,但胃切除的方式有点牵强
ofzhengyi 发表于
你这边的三分类变量其实是定序变量,按书本上那样子处理也是可以的。定序变量按照方法1的处理方法可以节约自 ...感谢兄弟们(包括其它论坛的一些兄弟),您们让我清楚多了,尤其是你指点的这部分。
我现在理解的确实如你所说的,1、如果是二分类变量不用设为哑变量,2、如果是三分类以上的有序变量尽量不设哑变量,这样可以节省自由度,准确度会更高一些,3、非有序变量的三分类以上的变量必须设为哑变量,否则会影响结果。
观点有启发
总评分:&论坛币 + 1&
学术水平 + 1&
热心指数 + 1&
信用等级 + 1&
真是好心人啊,捧捧场
这个贴很实用,顶起
偶也学习了
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师关注今日:2 | 主题:201390
微信扫一扫
【求助】Logistic回归中在什么情况下需要定义分类协变量(哑变量)
页码直达:
丁香园荣誉版主
anyida05 要用啊。我是讲不用 要修改啊哦,我说嘛,误解,误解
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
一个迷途小书童 理论上,分类变量都需要设置哑变量。如地域:江苏、浙江、上海。这时需要设置2个哑变量(n-1,n=3)。“地域(1)”=1,浙江;0,非浙江。“地域(2”)=1,上海;0,非上海。从而得到:
江苏= 0 ,0;
浙江 =1, 0;
上海 =0 ,1。从中可以看出是以江苏作为参照水平,这样进入logistic回归会产生3个变量的参数:地域,地域(1),地域(2)。如图(数据为编造):其中“地域”是地域这个变量的总体参数估计(注意没有B和OR),只有P值。“地域(1)”代表模型中浙江对比参照水平(江苏)的系数,“地域(2)”代表上海相比参照水平的系数。而“地域(1)”和“地域(2)”的差就代表浙江与上海的差异。&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&分割线&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&如果我们不设置哑变量,而是单纯地赋值:江苏=1,浙江=2,上海=3。SPSS 默认将所有的自变量均视作连续性的,如本例,不同地域的变量赋值为1 、2 、3 ,但这仅仅是一个代码而己,并不意味着地域间存在大小次序的关系,即并非代表概率logit (p) 会按此顺序线性增加或减少。即使是有序多分类变量,如家庭收入分为高、中、低三档,各类别间的差距也是无法准确衡量的,按编码数值来分析实际上就是强行规定为等距,这显然可能引起更大的误差。&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&分割线&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&两分类变量也要进行哑变量的设置。只不过两分类是分类变量的特例。因为n=2,故只需设置一个哑变量,在0和1之间。如性别有男女,那么需要设置1个哑变量,“性别”=1,男;0,女。我想,如果我们用二进制的概念去理解哑变量可能会更好一点。木有看懂。。。你说什么。。。。如果开头地域设置项,干嘛不直接进行3个数值的单个哑铃变量就OK了。因为这样,就可以推导出相互直接的关系。你这样。。。。。可是完完整整的3个变量啊。!!!可能,你是把variable 和value两个概念弄混了。。。。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
pearzhouq 编辑于
cbchinese 谢谢兄弟,我也一直认为应该这样设置,否则以连续变量进行分析,结果肯定是有问题的,但是令我迷惑的是为什么一些教材也不按哑变量进行处理,例如刘润兴编的《医学统计方法与应用》中logistic里的例子中处理就没有把淋巴结有无等分类变量按哑变量进行处理。直接看国外的书。另外,其实这也是一个数据输入的问题,如果最开始变量设置为名义的,那后来也可以不用特别说明,就是按照哑铃变量来的。之前用过R语言,里面就很规范,任何数值样式的变量默认就是定量资料,这样名义变量就必须要强制设定,后来分析就能看很清楚了。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
pearzhouq 木有看懂。。。你说什么。。。。如果开头地域设置项,干嘛不直接进行3个数值的单个哑铃变量就OK了。因为这样,就可以推导出相互直接的关系。你这样。。。。。可是完完整整的3个变量啊。!!!可能,你是把variable 和value两个概念弄混了。。。。哈哈 我没有混淆 你再多看看吧 我的这个方法是十分常用的方法 教科书上也是这样解释的 其实你的意思我明白。我来做一个假设:按照你所说设置三个地域3个单独哑变量:江苏、浙江、上海。如果跑出来的结果是江苏的P值有意义,浙江、上海的P值没有意义。这个结果怎么解释?江苏对结果的影响油统计学意义,那么地域这个变量对结果到底有没有影响呢?按照我所说的方法设置“地域(1)”“地域(2)”两个哑变量。跑出来的“地域”的参数是对地域这个变量对结果影像的一个总体估计,如果“地域”的P值没有意义,地域(1)、地域(2)即使P值有意义,也要剔除!这就是哑变量的同进同出原则!
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
一个迷途小书童 编辑于
关于丁香园苹果/安卓/wp
积分 1211, 距离下一级还需 164 积分
权限: 自定义头衔, 签名中使用图片, 隐身
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发下一级可获得
权限: 设置帖子权限道具: 提升卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
苦逼签到天数: 118 天连续签到: 1 天[LV.6]常住居民II
进行Logistic回归时(实际Cox回归同样存在类似问题)SPSS中可以用categorical...来定义分类协变量(哑变量),但是是否所有的属分类变量的协变量都需要在这里进行定义,在网上查了,有些人说只是三个以上的哑变量才需在这里进行定义,两项的不需要定义,那么问题是:
1、为什么两项的不需要定义,如性别,男为0,女为1,处理时如果不按分类协变量处理,是否会不妥?
2、将两项的协变量以分类协变量进行logistic回归和不以分类协变量进行logistic回归分析,得出了OR会有较大差异,如何解释,哪个OR值更可靠?
请各位老师,高手多多指点,谢谢
载入中......
我也在做这方面的工作。结论,如果协变量为01变量,定义分类变量与不定义分类变量与结果没有差别。
比如,我原始数据中汉族为1,,非汉为0,如果在操作中将其定义为分类协变量,则spss在分析过程中将其改为汉族=0,非汉=1。结果为:
B S.E, Wals df Sig. Exp (B) EXP(B) 的 95% C.I.
步骤 1a mz01(1) -.621 .234 7.059 1 .008 .538 .340 .850
常量 .452 .183 6.117 1 .013 1.571
如果不定义协变量,在 ...
本帖被以下文库推荐
& |主题: 2161, 订阅: 20
这坛子就没有点专业点的热心人吗?
无语,自己顶,求各位老师指点指点,讨论讨论
算了,跟其它兄弟讨论过了
看来不是坛子里朋友的问题,是我自己的问题,可能没说清楚吧,说清楚了就会有人帮忙了,谢谢
我也遇到这个问题了&&在cox模型中协变量分类搞不清楚
我也在做这方面的,也遇到这类问题
我也在做这方面的工作。结论,如果协变量为01变量,定义分类变量与不定义分类变量与结果没有差别。
比如,我原始数据中汉族为1,,非汉为0,如果在操作中将其定义为分类协变量,则spss在分析过程中将其改为汉族=0,非汉=1。结果为:
& & & & B& & & & S.E,& & & & Wals& & & & df& & & & Sig.& & & & Exp (B)& & & & EXP(B) 的 95% C.I.
& & & & & & & & & & & & & & & & & & & & & & & & & & & & 下限& & & & 上限
步骤 1a& & & & mz01(1)& & & & -.621& & & & .234& & & & 7.059& & & & 1& & & & .008& & & & .538& & & & .340& & & & .850
& & & & 常量& & & & .452& & & & .183& & & & 6.117& & & & 1& & & & .013& & & & 1.571& & & & & & & &
如果不定义协变量,在分析过程中 汉族=1,结果如下:
& & & & B& & & & S.E,& & & & Wals& & & & df& & & & Sig.& & & & Exp (B)& & & & EXP(B) 的 95% C.I.
& & & & & & & & & & & & & & & & & & & & & & & & & & & & 下限& & & & 上限
mz01& & & & .621& & & & .234& & & & 7.059& & & & 1& & & & .008& & & & 1.860& & & & 1.177& & & & 2.941
常量& & & & -.169& & & & .146& & & & 1.344& & & & 1& & & & .246& & & & .845& & & & & & & &
不管哪种分析,最终汉族时的Z值是一样的。 系数正负号相反,常数项的值发生变化了。
总评分:&经验 + 3&
论坛币 + 3&
有三个及以上属性的变量,定义协变量,可能主要是spss自动会将其分为若干虚拟变量进行处理。不需要在手动分为若干01变量
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师Logistic回归中在什么情况下需要定义分类协变量_百度知道
Logistic回归中在什么情况下需要定义分类协变量
我有更好的答案
无序多分类的时候
为您推荐:
其他类似问题
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。

我要回帖

 

随机推荐