如何用单因素logistic分析回归进行多因素分析

表格1.江油市共21个乡镇通过居民健康体检筛
中国循证医学杂志
华西期刊社客户端
扫描二维码下载
随时随地收看更多文章
投审稿系统
下次自动登录
用户密码错误
点击发送激活邮件
可以使用下列方式登录:
注册(注册后免费阅读和下载全文)
阅读并接受
修改密码(注册后免费阅读和下载全文)
找回密码(注册后免费阅读和下载全文)
找回密码(注册后免费阅读和下载全文)
为了你的账户安全,请完成身份验证
找回密码(注册后免费阅读和下载全文)细胞库 / 细胞培养
ELISA 试剂盒
书籍 / 软件
实验室仪器 / 设备
原辅料包材
统计第五课:Logistic 回归分析——被冷落的「皇妃」
统计第五课:Logistic 回归分析——被冷落的「皇妃」
点击次数:15497
Logistic 回归:实际上属于判别分析,因拥有很差的判别效率而不常用。
1. 应用范围:
适用于流行病学资料的危险因素分析
实验室中药物的剂量-反应关系
临床试验评价
疾病的预后因素分析
2. Logistic 回归的分类:
按因变量的资料类型分:
其中二分较为常用
按研究方法分:
条件 Logistic 回归
非条件 Logistic 回归
两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。
3.Logistic 回归的应用条件是:
独立性。各观测对象间是相互独立的;
LogitP 与自变量是线性关系;
样本量。经验值是病例对照各 50 例以上或为自变量的 5-10 倍(以 10 倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确 logistic 回归分析,此时要求分析变量不能太多,且变量分类不能太多;
当队列资料进行 logistic 回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用 Poisson 回归)。
拟和 logistic 回归方程的步骤:
对每一个变量进行量化,并进行单因素分析;
数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。
对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;
在单变量分析和相关自变量分析的基础上,对 P ≤α(常取 0.2,0.15 或 0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向 筛选技术:a 进入变量的筛选用 score 统计量或 G 统计量或 LRS(似然比统计量),用户确定 P 值临界值如:0.05、0.1 或 0.2,选择统计量显著且最大的变量进入模型;b 剔除变量的选择用 Z 统计量 (Wald 统计量),用户确定其 P 值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问 题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结 果,这在与他人结果比较时应当注意。
在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立 (也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。
对专业上认为重要但未选入回归方程的要查明原因。
回归方程拟合优劣的判断(为线性回归方程判断依据,可用于 logistic 回归分析)
决定系数 (R2) 和校正决定系数 ( Logistic 回归分析简介 - 初学乍练 - 教学科研 ),可以用来评价回归方程的优劣。R2 随着自变量个数的增加而增加,所以需要校正;校正决定系数 (Logistic 回归分析简介 - 初学乍练 - 教学科研 ) 越大,方程越优。但亦有研究指出 R2 是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在 logistic 回归中不适合。
Cp 选择法:选择 Cp 最接近 p 或 p+1 的方程(不同学者解释不同)。Cp 无法用 SPSS 直接计算,可能需要手工。1964 年 CL Mallows 提出:
Cp 接近(p+1)的模型为最佳,其中 p 为方程中自变量的个数,m 为自变量总个数。
AIC 准则:1973 年由日本学者赤池提出 AIC 计算准则,AIC 越小拟合的方程越好。
在 logistic 回归中,评价模型拟合优度的指标主要有 Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指标、Akaike 信息准则 (AIC)、SC 指标等。Pearson χ2、偏差 (deviance) 主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用 HL 指标则更为恰当。Pearson χ2、偏差 (deviance)、Hosmer- Lemeshow (HL) 指标值均服从χ2 分布,χ2 检验无统计学意义 (P&0.05) 表示模型拟合的较好,χ2 检验有统计学意义 (P ≤ 0.05) 则表示模型拟合的较差。AIC 和 SC 指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其 AIC 和 SC 指标值排序,AIC 和 SC 值较小者一般认为拟合得更好。
拟合方程的注意事项:
进行方程拟合对自变量筛选采用逐步选择法 [前进法(forward)、后退法(backward)、逐步回归法(stepwise)] 时,引入变量的检验水准要小于或等于剔除变量的检验水准;
小样本检验水准α定为 0.10 或 0.15,大样本把α定为 0.05。值越小说明自变量选取的标准越严;
在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;
强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。
多重共线性的诊断(SPSS 中的指标):a 容许度:越近似于 0,共线性越强;b 特征根:越近似于 0,共线性越强;c 条件指数:越大,共线性越强;
异常点的检查:主要包括特异点 (outher)、高杠杆点 (high leverage points) 以及强影响点 (influential points)。
特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该 点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的「有害」 点。
对特异点、高杠杆点、强影响点诊断的指标有 Pearson 残差、Deviance 残差、杠杆度统计量 H(hat matrix diagnosis)、Cook 距离、DFBETA、Score 检验统计量等。这五个指标中,Pearson 残差、Deviance 残差可用来检查特异点,如果某观测值的残差值&2,则可认为是一个特异点。杠杆度统计量 H 可用来发现高杠杆点, H 值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA 指标可用来度量特异点或高杠杆点对回归模型的影响程度。
Cook 距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA 指标值反映了某个样品被删除后 logistic 回归系数的变化,变化越大 (即 DFBETA 指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处 理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出 现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。
回归系数符号反常与主要变量选不进方程的原因:
存在多元共线性;
有重要影响的因素未包括在内;
某些变量个体间的差异很大;
样本内突出点上数据误差大;
变量的变化范围较小;
样本数太少。
Logistic 回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。
Logistic 回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即 OR 或 RR 的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? (InL(t-1)-InL(t)) 三种方法结果基本一致。
存在因素间交互作用时,Logistic 回归系数的解释变得更为复杂,应特别小心。
模型估计出 OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic 模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。
能够进行 logistic 回归分析的软件非常多,常用的有 SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package) 等。
相关实验方法
本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
难度系数:
共466人点评打分
难度系数:
共195人点评打分
难度系数:
共159人点评打分
难度系数:
共154人点评打分
难度系数:
共135人点评打分
丁香通采购热线:400-
Copyright (C)
DXY All Rights Reserved.统计咨询:如何确定“最佳”logistic回归方程
问题:您好,想问下二元logistic回归的多因素分析中如何选择检验方法。是都选最常用的“向后(有条件)”,还是每个检验方法试过来然后根据什么指标选用一种检验方法?谢谢!
回复:回归模型的拟合,我们可以将回归拟合视为一种“探索性”分析,即通过回归拟合探索出最优的回归方程,logistic回归亦然。因此,我们可以根据专业知识,确定哪些需要变量引入logistic回归方程中,当然也可以采用不同的逐步回归方法进行拟合,根据各种统计量判断回归方程的优劣,找出“最优”的回归方程。概括起来有大概有如下几类指标
一、模型拟合优度检验
如果预测值与实际观测值相近,说明模型的拟合效果好,统计量的值偏小,对应的P值较大。检验假设H0:模型的拟合效果好,α可取0.1 或0.2。
1、偏差检验,统计量为χD2。
2、Pearsonχ2检验,统计量为χ2
3、Homser-Lemeshow 检验,统计量χHL2
判断原则:χ2值越小,P越大,模型拟合效果越好。
二、模型拟合优度信息指标
1、-2lnL。
2、AIC 准则。
3、SC准则。
在其他条件不变的情况下,这三个指标越小表示模型拟合的越好。
三、logistic 回归模型的预测准确度
1、广义决定系数:Cox-Snell 广义决定系数(Cox-SnellR2)、Nagelkerke广义决定系数(Nagelkerke R2),与线性回归分析中的决定系数R2相似,这2个指标都在0-1间取值,指标越大,说明变异中被模型解释的比例越大,模型预测的准确性越高。
2、预测概率与观测值之间的关联,常用的评价指标有Somers'D 、Goodman-Kruskal Gamma、
Kendall's Tau-a 和KendaIl'sTau-c,指标的绝对值越大,表示预测概率与反应变量之间的关联程度越高,也就意味着模型的预测能力越强。
四、预测准确率
用于评价logistic回归模型的预测准确性,准确率越高效果越好。
五、“最佳”模型的选择
读者可结合上述统计指标对拟合所得到模型进行综合评价,在统计分析的基础上,结合专业知识,从可解释性、简约性、变量的易得性等方面,最终选出“最佳”模型。通常“最佳”模型不是一次计算就可以确定的,往往是要对变量做不同的组合分析最终确定。
本文主要内容参考颜虹、徐勇勇主编的《医学统计学(第3版/八年制)》,建议购买一本书详细阅读。
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
本公众号各种学习资源下载
SPSS常用统计分析教程(SPSS 22.0中英文版 第4版)
今日搜狐热点多因素logistic回归分析
logistic multiple factor regression
multiple logistic aggression analysis
&2,447,543篇论文数据,部分数据来源于
应用单因变量多因素方差分析法分析产品属性,应用Logistic回归模型解决属性重要性排序问题,从而使产品属性分析作为定义产品结构的重要方法。
Logistic regression model can be used to sort the importance of property . Then analysis of product attributes can be the important ways to definite product.
先行t或x2检验,再应用非条件Logistic回归分析对大肠息肉患者进行单因素和多因素回归分析。
The results of investigation were analyzed with t orχ2 test, and then were analyzed with univariate analysis and multivariate analysis by non-conditional Logistic regression analysis.
回顾594例ACI患者发生多器官功能不全综合征的资料,对其发生产生影响的基础疾病进行多因素Logistic 回归分析,寻找其中的危险因素。
Methods The multivariate Logistic Regression analysis was used to survey retrospectively the underlaying disease in 594 cases of MODS induced by ACI and to search for the potential risk factors.
$firstVoiceSent
- 来自原声例句
请问您想要如何调整此模块?
感谢您的反馈,我们会尽快进行适当修改!
请问您想要如何调整此模块?
感谢您的反馈,我们会尽快进行适当修改!Logistic回归变量筛选及回归方法选择实例分析--《中国循证医学杂志》2016年11期
Logistic回归变量筛选及回归方法选择实例分析
【摘要】:目的探讨多因素Logistic回归分析中自变量筛选及逐步回归方法选择应注意的问题。方法针对冠心病危险因素病例对照调查数据(年龄X_1、高血压史X_2、高血压家族史X_3、吸烟X_4、高血脂史X_5、动物脂肪摄入X_6、体重指数X_7、A型性格X_8、冠心病Y),采用6种逐步回归变量筛选方法,进行多因素Logistic回归分析,比较不同方法筛选危险因素的差异性。结果单因素分析可见,冠心病组与非冠心病组的年龄分布无明显差异(P=0.116),而多因素Logistic回归分析显示,相对于65岁以上人群,低年龄组为保护因素[OR45=0.100,(0.000,0.484),P=0.020;OR45~54=0.051,(0.003,0.975),P=0.048]。将年龄定义为分类变量进行分析,筛选出的冠心病危险因素为动物脂肪摄入X_6、A型性格X_8、高血压史X_5和年龄X_1(P0.05);同时将年龄X_1当作连续性变量进行分析,结果显示年龄X_1无统计学意义(P=0.053)。6种逐步回归变量筛选方法得到的共同的危险因素是动物脂肪摄入X_6、A型性格X_8;向前-条件、向前-LR、向前-Wald法另筛选出高血脂史X_5为危险因素;向后-条件、向后-LR法另筛选出高血压家族史X_3和年龄X_1为危险因素,向后-Wald法筛另筛选出高血压史X_2为危险因素。结论多因素Logistic回归分析应采用逐步回归方法,对全部变量进行分析,包括单因素分析无统计意义的自变量;把多分类变量当作连续性变量进行分析,会损失部分信息,甚至可能漏掉重要的危险因素;当几种逐步回归变量筛选方法得到的危险因素不同时,最好结合临床和流行病学的意义以及生物学机制等专业知识,选择较为合理的结果。
【作者单位】:
【分类号】:R541.4;R181.3
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【相似文献】
中国期刊全文数据库
张政;冯国双;;[J];现代预防医学;2012年22期
苏景铭, 赵守军;[J];山西医学院学报;1994年02期
;[J];;年期
中国重要会议论文全文数据库
闫孟雨;韩汐;李奇峰;陈达;;[A];中国化学会第29届学术年会摘要集——第19分会:化学信息学与化学计量学[C];2014年
中国硕士学位论文全文数据库
谢文华;[D];北京工业大学;2015年
林燕;[D];厦门大学;2007年
杨国栋;[D];中南大学;2013年
&快捷付款方式
&订购知网充值卡
400-819-9993

我要回帖

更多关于 多因素logistic回归 的文章

 

随机推荐