怎么用logistic回归模型排除混杂因素的影响

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>理工学科 >>怎么用logistic回归模型排除混杂因素的影响

怎么用logistic回归模型排除混杂因素的影响

来源：蜘蛛抓取(WebSpider) 时间：2016-09-08 05:07 标签：单因素logistic回归

病例—对照研究中混杂因素的控制及其统计分析方法
李新& 刘海英&
关红阳（辽宁中医药大学& 辽宁沈阳&
【摘要】病例-对照研究是最常用的流行病学研究方法之一。在研究过程中，各种混杂因素对研究结果有着不同程度的影响。在众多的控制混杂因素方法中：匹配设计可以保证病例组与对照组在匹配的混杂因素方面分布一致，避免其混杂影响；分析某危险因素与疾病的关系时，如果存在可能的混杂因素，可以按混杂因素的特征进行分层分析；研究分析多种危险因素与研究疾病的联系，可以利用多元统计分析方法，获得更多的信息，得到更科学的结论。
【关键词】病例-对照研究&&
混杂因素&&&
【Abstract】case-control study is one of the most commonly used
method of epidemiological studies. In the course of the study, a
variety of confounding factors have great effect on the results of
the study. In many of the control of confounding factors method:
matching design can guarantees that case groups and control groups
in terms of matching confounding factors having their distribution
analysis of a mixture of risk factors and diseases, if
there is a possible confounding factors, you can press the
confounding factors feat research and analysis
of the various risk factors and of the Association, you can use
multivariate statistical analysis for more information and get more
scientific conclusions.
【Key words】Case-control study
Keywords&& confounding
factors& design&
layered& multivariate analysis
病例-对照研究是最常用的流行病学研究方法之一，它广泛应用于探讨疾病病因、干预措施、项目评价以及公共卫生与医学实践的许多方面。病例-对照研究特别适用于潜伏期长的、少见病的研究，有时是识别其危险因素的唯一可行的方法，也特别适用于研究分析多种危险因素与研究疾病的联系以及它们之间的相互作用等。
病例-对照研究中混杂因素的影响是不可忽视的，一个或多个潜在的混杂因素的影响，可能掩盖或夸大研究因素与疾病之间的联系，从而使两者之间的真正联系被错误地估计。&
控制混杂因素的方法有：（1）限制设计时对研究对象入选条件予以限制（2）匹配&
将对结果有干扰作用的某些因素或特性作为配比因素，是对照组与病例组在配比因素上保持相同的一种限制方法。（3）分层分析（4）多元分析等
病例对照研究中主要分析指标是优势比，当疾病发病率很低时，优势比近似等于相对危险度，可用来描述疾病发生与危险因素的关系。分析内容都是计算优势比、优势比的检验和估计，但不同设计类型的统计方法不同。
病例-对照研究设计类型可以分为两种：成组设计和匹配设计
1 成组设计（完全随机设计）
成组设计：从患某种疾病的病人中随机抽取样本作为病例组，从不患该种疾病的人中随机抽取样本作为对照组，对两组人的暴露情况进行比较。成组设计简单易行，但结果可能受一些重要的混杂因素干扰，影响结论的可靠性。
1.1四格表资料的分析
病例组和对照组的暴露因素为2水平时，资料可整理成四格表形式（如表1）。
Tuyns等（1977年）报道了食管癌与饮食习惯的研究，病例是从当地医院收集的1972年至1974年治疗的200例男性食管癌病人，对照是随机抽取的775名当地居民，将每日饮酒量在80克以上定为暴露组，以下定为非暴露组，资料整理成表1，对资料做统计分析。
对OR进行检验P&0.05，即可以认为食管癌与每日饮酒量有关联。
OR的95％可信区间为（4.），OR&1，可以认为饮酒史为食管癌的危险因素。&&&&&&&&&&&&&&&&&&&&&&&&
病例-对照研究属于回顾性研究，特别容易受各种混杂因素的影响。混杂因素的存在容易造成虚假的暴露与疾病的联系或掩盖暴露与疾病的真实关系。为了有效地控制重要的混杂因素的影响，可以采用分层分析或多元统计分析。
1.2分层分析
病例-对照研究资料按可能的混杂因素分层时，整个资料可分解为多个四格表（暴露因素为2水平），可采用Mantel-Haenszel法进行分层四格表的分析。
在食管癌与饮酒关系的分析中，年龄可能是混杂因素。将每日饮酒量的资料按年龄组分成4个四格表，估计出各层的OR值见表2，可见不同年龄组的OR有所不同。用Mantel-Haenszel法进行分层四格表的分析。
用SPSS18.0统计软件进行分层分析结果（1）OR的一致性检验：x2=1.868，近似P=0.600&0.05，不同年龄的OR值差异无统计学意义。
(2）计算公共ORM-H，
对ORM-H进行假设检验结果：公共OR=5.287，近似P＝0.000&0.05，可以认为按年龄分层后每日饮酒量与食管癌有关联。OR值的95%可信区间为（3.651，7.685），饮酒为食管癌的危险因素。
1.3多元统计分析
混杂因素只有一或两个，用分层分析可以控制混杂因素的影响。但是当考虑的混杂因素较多时，分组数量倍增，需要例数较多，有时无法实现。这时可以考虑用多元统计分析的方法，logistic回归分析可综合校正多个混杂因素的影响。
上例如用logistic回归分析整理数据见表3
在食管癌与饮酒关系的分析中，年龄可能是混杂因素。在下表中给出了按每10岁分组的年龄组中值，分析食管癌与饮酒、年龄有无关联。
用SPSS18.0统计软件进行logistic回归分析结果表明：年龄具有一定的混杂效应P=0.000，但优势比OR较小，只有1.064。在控制了年龄因素的混杂效应情况下，饮酒是食管癌的危险因素，OR=5.930，P=0.000。即每天饮酒量在80g以上者得食管癌的危险性是饮酒量80g以下者的6倍。
当考虑的危险因素较多时，可以用逐步回归分析方法筛选因素。
例4 为探讨胃癌的有关危险因素和保护因素，对32例胃癌病人及36例对照者进行病例-对照研究，收集资料见表4
，用逐步回归分析方法筛选因素，进行logistic回归分析。
用SPSS18.0统计软件进行logistic回归分析结果：进入方程的变量有4个：X1、X4、X5、X6的wald统计量=3.512、8.871、6.275、6.158，概率P&0.1，其偏回归系数在0.10水平上有统计学意义。优势比OR分别为1.112、5.589、9.006、3.825均大于1，这4个因素都是胃癌的危险因素，年龄大、吃盐渍食物及嗜重盐饮食和精神心理因素不良，对胃癌的影响都很大。
2 配对设计（匹配设计）
配对设计是在设计阶段控制混杂因素的一种方法。为了消除重要的已知混杂因素（如性别、年龄等）对研究结果的影响，按病例的混杂因素水平选择1至数例的匹配对照，共同组成一个匹配组。一个病例匹配m个对照称为1:m配对病例-对照研究，这是最常被采用的一种病例-对照研究形式。配对设计保证了病例组与对照组在匹配的混杂因素方面分布一致，避免其混杂影响。
2.1& 1:m匹配设计资料的分析
1976年Mack等报道了子宫内膜癌的病例-对照研究，病例是从美国洛杉矶退休团体收集的63例新发子宫内膜癌病人，按每个病例的婚姻状况和年龄配取4例对照，研究结果整理成表5。分析子宫内膜癌与服用雌激素史的关系。
计算优势比OR
对OR进行检验P&0.05，即可以认为子宫内膜癌与服用雌激素有关，OR的95％可信区间为（4.00，17.91），可以认为服用雌激素为子宫内膜癌的危险因素。&&&&&&&&&&&&&&&&&&&
在匹配设计资料的分析中，当配比是n:m、暴露因素是多水平或者考察因素较多时可以用条件logistic回归分析。
2.2 条件logistic回归分析
某北方城市研究喉癌发病的危险因素，用1:2配对的病例-对照研究方法进行了调查。现选取8个可能的危险因素并节录了25对数据，各因素的分级及说明见表6。
用SPSS18.0统计软件进行条件logistic回归分析结果：进入方程的变量有3个：X3、X5、X8的wald统计量=8.595、5.443、6.819，概率P=0.003，0.020，0.009。优势比OR分别为1.616、1.954、3.118均大于1，可见吸烟、声嘶、有癌症家族史都是喉癌发生与否的危险因素。
多元统计分析能使我们对所研究的问题更全面,
更深刻的认识，帮助我们透过现象看本质，发观事物之间内在的本质规律。
总之，在病例-对照研究中混杂因素的影响是不可忽视的，要正确地区分研究因素和混杂因素，进行科学的设计，选用正确的统计分析方法，尽可能地消除混杂因素的影响，以使我们的研究成果更真实可信。
已投稿到：
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。苹果/安卓/wp
积分 116, 距离下一级还需 29 积分
权限: 自定义头衔
道具: 彩虹炫, 雷达卡, 热点灯, 雷鸣之声, 涂鸦板, 金钱卡, 显身卡下一级可获得
道具: 匿名卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 雷鸣之声, 彩虹炫, 雷达卡, 涂鸦板, 热点灯
开心签到天数: 11 天连续签到: 2 天[LV.3]偶尔看看II
本帖最后由 wanghaidong918 于
04:39 编辑
Logistic回归模型为什么要先做单因素,然后做多因素
有的文献上是直接做卡方检验有意义的再进入回归模型，但是有的是Logistic 单因素分析，然后在进行多因素分析，不知道这个操作过程在SPSS中如何实现？还有这两种方法的区别是什么，还有我不知道Logistic 回归单因素分析怎么在SPSS中操作
载入中......
你随便找本书上一般都有的
bbyang1314
热心回答别人问题是美德。。。
总评分:&论坛币 + 50&
为将来，我要不断奋斗！
呵呵，回答的够简洁
My understanidng: univariate analysis is helpful for you to select variables which will be in the final logistic regression model. Just SPSS univariate analysis (T test, one-way ANOVa or Chi-square) to do it. Nothing special.
hplcdadong
同意楼上的观点，因为我也觉得就是可以用卡方检验也可以做的，但是不知道为什么还有用logistic回归分析单因素的，我印象中只能用logistic回归分析多因素的啊，所以我就不知道单因素如果用logistic回归分析怎么操作，在SPSS中
单因素是可以的，具体方法么，还要再看看……
统计学爱好者、应用者，打算精通者……
logistic回归在分析时是否必须按照“单因素—多因素”的分析过程，是否必须先进行单因素分析，然后才能进行多因素分析？单因素分析是否必须的？
这一问题是一个很实际的，许多人在分析时总是不知道如何下手？以下阐述一下我个人的意见，不一定正确，纯属个人心得。
理论上讲，在样本足够大的情况下，最好把所有的因素都放到方程中，以矫正所有可能的混杂因素，但这是有条件的，即必须所有的这些因素之间无相关，且样本足够大。而实际中，因素之间不可能是毫无相关的。当然，这种相关程度也不一样。如果所有的因素之间相关程度都非常低，最好是没有相关，那这时我可以把所有的变量都放在方程中同时进行分析，可以不做单因素分析。
如果你的例数不够多，比如，你有100例，但是有20个因素，那这时你如果把所有因素放在方程中，结果肯定要出问题。这种情况下，最好先进行单因素分析，筛选出一部分变量，将有意义的变量放入方程进行多因素分析。当然，单因素分析时最好将p值放宽一些，比如0.1或0.15等。避免漏掉一些重要因素。
真正进行多因素分析时，是很复杂的，需要仔细验证各个因素之间的关系，一旦发现因素之间有关系，需要仔细分析。如果某一因素放入方程中后，前面的几个变量变化比较大，那就需要小心了。仔细探讨因素之间存在何种关系。
总之，如果样本不多而变量较多，可以先进行单因素分析，筛掉一些可能无意义的变量，然后进行多因素分析，这样可以保证结果更加可靠些。即使样本足够大，也不建议直接把所有的变量放入方程直接分析，一定要先弄清楚各个变量之间的相互关系，弄清楚自变量进入方程的形式，这样才能有效的进行分析。
不论任何情况，分析时必须具体问题具体分析，不能一概而论，更不能套用。即使目的相同、变量相同的数据，也不一定分析结果会一样，因为总会有抽样误差存在的，设计的好坏是不一样的。所以千万不要看一篇类似的文章，然后照搬上面的分析步骤和分析方法，这是不可取的。
解释很到位
总评分:&学术水平 + 1&
热心指数 + 1&
信用等级 + 1&
大家好，我喜欢统计
7楼讲的比较详细.
讲的非常好！！
无限扩大经管职场人脉圈！每天抽选50位免费名额，现在就扫& 论坛VIP& 贵宾会员& 可免费加入
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向，请联系（010-）；
邮箱：service@pinggu.org
投诉或不良信息处理：（010-）
京ICP证090565号
京公网安备号
论坛法律顾问：王进律师采用Logistic回归分析时需注意的问题_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
采用Logistic回归分析时需注意的问题
上传于||暂无简介
阅读已结束，如果下载本文需要使用0下载券
想免费下载更多文档？
定制HR最喜欢的简历
你可能喜欢小木虫 --- 500万硕博科研人员喜爱的学术科研平台
&&查看话题
求助大家！单因素回归分析与多因素回归分析结果不一致，怎么处理呢？谢谢！
有一个课题，用一个量表评定800多名人员的性格特征及是否患某病。每个受试者的性格特征用该量表中五类性格因子的得分表示（用ABCDE表示），我想看看这五类因子是否是受试者患该病的风险因素。
我用SPSS二元回归分析，先进行单因素Logistic回归分析，将是否患病作为因变量，分别将每个受试者A,B,C,D,E 因子的得分作为协变量单独进行统计，发现只有A因子的P值&0.05,&&我再将ABCDE五个因子同时作为协变量用SPSS进行多因素回归分析，结果发现，AB因子与Logistic回归关系都是P&0.05.
请问大家，是不是我在哪个环节出错了？如果出错了，请大家指出我的错误，
如果没出错，这种情况应该怎么处理呢？A B 都是患该病的风险因素吗？
附件是多因素回归结果。
谢谢大家！
多因素回归分析.jpg
首先，非常谢谢你的解答。我先做的单因素回归分析的结果请见附件。（原帖子中是5个因子一起做的多因素回归）。是不是先把单因素回归中，B值最接近0的，即责任意识那一项剔除了，再做多因素回归分析呢？
单因素回归分析.jpg
你这个思路首先是认为个因素之间不存在交互作用。如果假设正确，一般是看显著性水平剔除不重要的项吧。
研究生必备与500万研究生在线互动！
扫描下载送金币
浏览器进程
登录小木虫
打开微信扫一扫
随时随地聊科研科学研究中要控制混杂因素
混杂在科学研究中无处不在。最浅显而著名的例子如“苗长楼高”，实际上苗长与楼高并无关联，时间因素在其中起了作用。在科学研究中，如果不注意调整混杂因素，会导致错误的结论。
&&&&在医学中，混杂偏倚常常是由于一种或多种混杂因素的影响，夸大或掩盖了暴露与疾病之间的联系，从而使真正的关联被错误的估计。混杂因素，又称混杂因子，是指既与疾病有关，又与暴露有关，在比较组之间分布不均匀，导致歪曲（夸大或缩小）暴露与疾病之间的关系的因素。混杂偏倚在观察性研究和实验性研究中均会出现，而前者更多见一些。正确应用流行病学原理和方法，是有效控制混杂的根本前提。
&&&&（一）混杂的定义可以通过可压缩准则、可比较准则、虚拟事实模型、图模型来阐述。
&&&&1.可压缩准则（collapsibility-based）：如果控制某一因素后得到的各水平上的关联度量与不控制该因素的边缘关联度量相等，则该因素不是混杂因素，并且称该因素是可压缩的。如果各层的相对危险度都相等，且与边缘相对危险度也相等，称相对危险度是可压缩的；如果各层的危险差都相等，且与边缘危险差也相等，称危险差是可压缩的；如果各层的优势比都相等，且与优势比也相等，称优势比是可压缩的。此时，可得到公共相对危险度、公共危险差、公共优势比。可能会出现某种关联度量可压缩，而其他关联度量不可压缩的情况，例如相对危险度可压缩，但危险差、优势比可能不可压缩。因此，可压缩准则依赖于用什么关联测度和背景因素的水平尺度。
&&&&2.可比较准则（comparability-based）：Miettinen与Cook基于可比较准则，认为混杂因素Z必须满足以下条件：
&&&1）Z必须是疾病的危险因素；
&&&2）Z在暴露总体和非暴露总体的分布不同。
&&&&另外，Z不能是暴露与疾病正在研究的这条因果链上的中间变量。判断是否是暴露与疾病因果链上的中间变量，这取决于待研究的病因通路。如研究趋化因子受体（CCR5）缺陷是否减缓进展为HIV的病程时，不能按照HIV病毒载量分层，因为它处于CCR5缺陷和HIV病程缩短的中间环节，不是混杂因素；而评价锻炼和冠心病之间的关系时，HDL水平能否作为混杂因素取决于研究的通路，如HDL处在待研究的通路上，则不是；否则是混杂变量。
&&&&可压缩准则与可比较准则是互补的，但是它们的结合也并非是判断混杂的充分条件。不过两者的结合可以尽可能地排除非混杂因素。实际工作中，流行病学家常常在考虑问题时，接受“可比较准则”，而在分析问题时，接受“可压缩准则”。两者结合构成判断混杂因素的三个必要条件：
&&&&1）对照总体中，Z是危险因素，且Z在暴露总体和非暴露总体的分布不同；
&&&&2）相对危险度关于Z是不可压缩的
&&&&3）危险差关于Z是不可压缩的
&&&&3.虚拟事实模型：用虚拟事实模型来定义混杂。该模型最基本的概念是引入潜在的虚拟结果。如果能观测到同一个个体接受干预处理和未接受干预处理的两个响应结果的话，那么，可以用这两个响应结果的差来评价该干预处理对这个个体的因果作用。但是在流行病学和医学研究中，每一个个体仅处在一个处理状态下，要么接受干预，要么未接受干预。因此，我们只能观察到一个结果，另一个响应观察不到，这个观察不到的结果是虚拟结果。虚拟事实模型开始被应用于进行因果推断，应用该模型可以给出关于因果作用最精确的定义和描述，同时给混杂完整的形式化定义。虚拟事实模型对于个体因果作用是这样定义的：它是对个体进行处理和不进行处理的结果之差，由于一个个体只能有一种处理状态，因此ICE是一种虚拟量；平均因果作用是总体中的所有个体都进行处理后的结果的平均值与所有个体都不处理的结果的平均值之差，由于任何个体只能有一种处理状态，因此ICE也是一种虚拟量。
&&&&（二）混杂的控制，阻止暴露-混杂和疾病-混杂之间至少一条关联，即可控制混杂。选择需要控制的混杂因子，通常是结合专业知识进行选择，如年龄和性别。常用的策略有：前向选择策略（从最简单的可接受的分层开始进行暴露效应估计，然后根据混杂因子作用的大小，将作用较大的混杂因子一个个增加到分层变量中）；后退选择策略（对所有能够调整的潜在混杂因子都进行调整，然后将导致变化最小的混杂因子逐一剔除，如果某变量的剔除导致的总效应估计值的变化超过某一邻界点时，删除即可终止）
&&&&1）限制：针对某些可能的混杂因素，对研究对象的入选条件加以限制。限制使混杂因素恒定，没有变异，消除了暴露-混杂，疾病-混杂的联系。优点在于概念易懂，然而缺点是符合条件的研究对象减少；筛检大量个体，只能入选其中一部分，这样效率太低；影响结果外推；限制范围太宽或不当，可能有残余混杂；不能评价交互作用。
&&&&2）随机化：研究对象随机分配于各组，以使比较组之间在混杂因素的分布上达到均衡，常用于实验性研究，以临床实验中多见。可针对已知或未知混杂，但是当样本量较小时，由于机会的原因，可能并不能完全平衡两组之间的混杂因素，样本量越大，这一问题越小。随机化不能消除混杂。
&&&&3）匹配：匹配可以是在研究对象间逐个匹配（个体匹配），或者是组间的匹配（频数匹配）。队列研究中的匹配是指不暴露的个体在混杂因素水平上与暴露个体匹配；病例对照研究中的匹配是不患病的个体在混杂因素水平上与患病个体匹配。队列研究中，如果在研究设计阶段应用匹配，则分析阶段无需再控制配比因素；而病例对照研究中，由于匹配因素与暴露因素之间的联系，因此，匹配造成在暴露组和非暴露组的选择上一种类似混杂的作用，实际上是一种选择偏倚。因此，匹配和匹配后按照匹配因素进行分层分析，是病例对照研究中控制混杂的必要条件。在病例对照研究中，匹配并非直接控制混杂，而是提高了控制混杂的效率。要防止匹配过头，因为它反而降低了研究效率：某些仅与暴露有关，而与疾病无关的因素不得匹配；暴露和疾病因果链上的中间变量也不得匹配。匹配主要用于病例对照研究中，在队列研究及实验流行病学研究中也有应用。队列研究中的匹配是暴露者与非暴露者在某因素上的匹配，因此，这种匹配阻止了暴露因素与匹配因素之间的可能关联，一旦匹配，原则上即可完全控制混杂，不必在资料分析阶段进一步控制。匹配在随访之初，匹配改变了病例来源的源人群中匹配因素的分布；而病例对照研究中的匹配是病例与对照在某因素上的匹配，由于暴露因素与匹配因素之间的关联，导致在匹配中引入选择偏倚，或者说是一种类似混杂的作用。但是这种“混杂”的方向和大小与非匹配的病例对照研究中分层分析后评估的混杂的方向和大小都可能不同。在病例对照研究中，需要在分析阶段进一步控制混杂。
&&&&匹配的优点：对于其他方法难以控制的混杂很有用，如复杂的名义变量；对于混杂变量的不同水平在病例和对照之间（或暴露和非暴露之间）达到平衡，可以提高统计学精度。
&&&&缺点：有时很难匹配，有的病例不得不舍弃，限制了样本量；一旦匹配，该因素与疾病的关系不能分析；一旦匹配，后果无法挽回，如该因素恰好是暴露与疾病的中间变量，则这条链将无法分析；如果被匹配的因素事实上并非混杂因素，则统计学精度比不匹配时还要低。匹配过头的危害包括损害统计效率、损害真实性、损害费用效益。
&&&&4）分层分析：将研究资料按照混杂因素来进行分层。若各层之间的暴露与疾病的效应值一致，可以用M-H法计算调整混杂因素后的效应估计值；若各层之间的暴露与疾病的效应值不一致，可用标准化法的方式来调整。存在混杂时，需要计算经过调整的总的关联效应估计值（加权平均，如Woolf法，M-H法），此时一定要结合临床/生物学意义进行综合分析，而不应该仅仅根据统计学结果来判断。调整后的关联效应值与粗的关联效应值的变化在10%以上时，可以认为混杂作用的存在，否则此时可以认为第三个变量没有作用，可以忽略。
&&&&目的：估计和控制混杂因子，评估和描述效应修正因子，描述随访研究中的失访问题和竞争风险，用于生存分析和诱导期分析。
分层分析缺点：一次只能分析一种暴露-疾病关联；连续性变量转变为离散性变量，丢失信息，可能造成残余混杂；需要控制的混杂较多时，分层很烦琐。
&&&&汇总分析是一种跨越各层数据，排除混杂影响，对效应进行估计的方法。汇总分析有一个重要的假设，即所要估计的效应在各层间是一样的，不变的。对每一层分别进行层特异估计(stratum-specific
estimate)后，将各层的结果予以相应权重取平均值来取得最终的总效应。权重赋予的方法是层所包含的数据越多，权重则越大。当数据不符合做汇总分析的前提假设时，应该改用标准化法(standardization)来估计因素的效应。直接合并（direct
pooling）：利用从各层资料中计算的效应估计值方差的倒数直接作为对各层效应估计值进行加权的权重。要求各层内有足够的样本，以获得比较满意的方差估计。如果样本太少，方差将较大，估计的结果将不可靠。用汇总分析法计算汇总后的估计值，前提是假定所研究的因素在各层的作用是一致的。这个假设并不就意味着各层估计的数值要完全一致，或者是非常接近，各层的结果还是可以有变化的。现实应用中，如果不是数据非常明显的违背了这个假设，都可以使用汇总分析来估计相应的指标，条件并不是很死板的。如果要严格的考察数据是不是符合前提假设，两层是不是同一个总体，应该进行异质性检验(a
test of heterogeneity)或者叫做同质性检验(a test of
homogeneity)。如果各层间非同质，可能存在效应修饰作用，则不宜进行层别估计值的合并估计和调整合并估计。对其表述可采用：分别列出每一层的估计值或标准化法或效应函数法。分别列出每层估计值的弊端在于：资料的整体性被分割，每一层的效应估计值的精确度被降低，降低资料的说服性，导致希望能够简单明了表明结果的愿望落空。
&&&&标准化是一种通过赋予分层数据一定的权重，然后求平均，从而获得单一总体值的方法。每层数值权重来自于一个标准人口。标准化法能够比较简便地得到一个单一的总体数值。粗率其实也可以看作是对分层数据进行加权后的平均值，只不过在这其中的权重与研究中实际的人口分布有关。将年龄别率假设定义为Ai/PTi(Ai是第i个年龄组中的病例数，i可以从1变化到K，PTi为这个年龄组中所有的人年数),
则可以推导出
,A代表研究中总的病例数，PT是总人年数。粗率即各层数值加权后的平均值，其中的权重是PT1,PT2,…PTk。"式中PTk是研究人群的自然权重(natural
weights)或者是隐含权重(latent
weights)。"如使式中权重值反映一个外部标准人口的年龄结构，那等式的结果就是标准化的率。标准化率是假设同样的年龄别率发生在标准人口年龄结构中所算得的粗率。
&&&&汇总分析与标准化的比较：标准化最主要的目的在于进行比较。"标准化和汇总分析其实本质上是类似的，都是对分层数据经过加权后取平均值，然后再比较。&汇总分析中的权重信息是每层数据所体现的信息量。信息量大的层相应的权重也就越大，所以汇总分析的结果实际上是从统计有效性(statistical
efficiency)出发的结果。&标准化对数据也会给出一定的权重，但是和汇总分析不同的是，权重的大小和每层数据的多少是没有关系的。汇总分析中每层的权重是来源于数据本身的，而标准化过程当中出现的权重来自于外部标准，它体现的是所选用标准的某因素分布情况，取决于具体的人口或者是强行指定。当数据非常明显的抵触于效应不变的假设时，可以用标准化的方法来估计总效应数值。这是因为进行标准化并没有对数据在各层的效应是不是一致有要求。标准化不仅可以用在指标值在各层变异很大时，即使是通常采用汇总分析进行处理的数据，标化也是个可以选用的方法。不同研究的结果，采用相同标准进行标准化后有较好的可比性。汇总分析是由数据本身决定权重的大小，从数学角度出发给出在统计上最佳结果。运用汇总分析可以得到较为精确的结果（如相对窄的可信区间），但是权重作为统计学名词，它应该源于数据外部，而且汇总分析中的权重不可能指定。标准化法的缺点是，如果将大的权重给予很小的数值时，这个方法就会变得没有效率。但是另外一方面，好处就是标准化法中的权重来源于外部。对数据进行标准化处理时，一定要把所采用的标准以及权重附在结果中。同时标准化后的结果可以用于不同研究的比较。
&&&&分层分析对于多变量而言的优势：通过对数据的分层处理，研究者可以清晰地看到暴露因素，疾病，以及潜在混杂因子的分布情况。分布上的差异能够清楚地展示；计算简便：可以从分层数据获得信息，自己进行汇总分析或标准化的计算；分层分析所要满足的前提假设要相对少：减少了得到有偏倚结果的可能性。在分析可能存在混杂的数据时，分层分析应该被视为是常规方法予以应用。在相同的条件下，多变量分析的结果很少有和单变量的分层分析相异的情况。即使是在更倾向使用多变量分析时，分层分析也仍然可以比较好地解释主要混杂因子的作用。
5）&&多因素分析：分层分析方法在控制混杂因素时的局限性，是多因素分析发展的动力。如果要控制的混杂因素很多，受样本量的影响，有时分层分析可能不适用，这时候可以用多因素分析的方法，包括协方差分析、logistic回归分析、线形回归、比例风险回归等。应用多变量分析时，必须考虑其适用条件，如变量的独立性问题、分布问题、共线性问题等，盲目使用多元分析方法极为有害。由于多变量分析可以用于控制多个混杂因素，同时考虑多个混杂因子的相互作用，所以现在很多人倾向于使用多变量分析控制混杂
&&&&前进法VS后退法：单个变量分析不存在混杂时，一起分析可能存在混杂。首选后退法，首先纳入对所有的混杂因素一起评价，以确定是否存在联合的混杂作用，计算将所有的混杂因素调整的效应估计值；然后去掉一个因素，重新计算根据剩余的因素调整的效应估计值，如果变化很小，则该因素可以去掉(相当于可压缩)；继续上述过程，直到没有可以去除的变量为止；缺点：当混杂因素很多时，每个单元格内计数非常小，分层的关联效应估计值会非常不精确。
前进法是首先纳入一个影响最大的混杂因素，然后增加一个影响较大的因素，如果调整的效应估计值发生有意义的变化，则保留此变量，依次类推。该法不存在后退法中可能遇到的开始某单元格太小而遇到的情况。但是缺点在于没有评价许多变量的联合混杂作用。
&&&&着手研究时，考虑哪些因素为混杂因素呢？
&&&&1.对于较成熟的领域，任何已有证据提示为混杂的变量都应该考虑；
&&&&2.对于崭新的领域，考虑那些与疾病有关也可能与暴露有关的因素；
&&&&3.如果难以确定，干脆对所有与疾病有关的因素都进行测量。
&&&&控制混杂可能会导致统计学偏倚，表现为过多的分层因素导致效应估计值远离无效假设，可通过向前选择策略、选择混杂因子的临界点时采用区间估计、精确估计效应值及其可信限。层数越多，也就是层间距越小的时候，控制混杂的能力会优于宽间距少层数的分法。分层分析所能够控制的仅仅是层间混杂(between-stratum
confounding)，而对层内部仍存在的那一部分混杂(within-stratum
confounding)则无能为力。层内的这部分混杂此时也被称为残余混杂(residual
confounding)，残余混杂这个名词有时也在其他情形中使用。如根本没有被控制的混杂，或者是某因素被完全控制但对它的测量从一开始就是不准确的。总之，残余混杂产生的原因：对一系列连续性混杂的分类不合适，选择的调整变量不能很好地代表需要调整的混杂效应，对混杂变量的测量有误，其他：潜伏性残余混杂因子，无法观察或认识到。为了尽量避免层内的残余混杂，应该进行更加细致地分层，增加层的数目，另外最好不要出现开区间的层(比如，大于等于55岁)。但如分层如果过于细致，会带来数据的不合理性，某些格子内的数字过小，使得结果变得不稳定。在实际应用中，应该根据需要在如何更好控制混杂和避免产生随机错误之中找到一个适当的平衡点。
&&&&混杂VS交互：混杂是我们不关心的或者讨厌的因果链，希望避免或排除；交互是对暴露和疾病之间关系的更详尽的描述，是对生物学体系充实的写照，是应该报告的，而不是消除的，是应该探索与发现的。在评价暴露与疾病的关系时，第三个变量可能是：效应修正因子、混杂变量、中间变量或无作用变量。仅仅依靠统计学检验，通过粗效应值与调整效应值之间有无统计学差异来判断有无混杂是不恰当的。有意义的差异应该根据临床/生物学意义共同判定。比如当样本量很小时，即使实际上两者之间应该差很大，也可能检验不出差异，因此，不能把粗估计值和调整估计值之间的差异仅仅看作是由于机会的作用。
&&&&流行病学交互作用&&(McMahon)：When
the incidence rate of disease in the presence of two or more risk
factors differs from the incidence rate expected to the result from
their individual effects。
&&&&生物学交互作用：当2个或2个以上危险因素存在时，个体是否发生某种疾病与根据这些危险因素单独的效应所预期的情况不同。统计学交互作用只是一种由数据反映出的统计现象，并不一定具有生物学意义，只是有助于探讨病因。把统计学交互作用分析结果解释、简单推断为生物学交互作用分析的结果，是不合理的。
&&&&在一个病例对照研究中，由于无法获得率的绝对差异,因此同质性策略只能用于评价乘法交互作用的存在与否,而无法用于评价加法交互作用。然而，通过使用比较观察效应与预期效应的策略可以评价在一个病例对照研究里是否存在加法交互作用。在一个匹配的病例对照研究里研究交互作用时:匹配变量的独立效应不能被测量。病例对照研究里同质性策略不能用于检测加法交互作用。因此在一个匹配病例对照研究里，匹配因素和其他因素之间的加法交互作用是无法被评价的。匹配因素与其他因素之间的乘法交互作用无法通过比较观察效应与预期效应的途径评价,但可以通过同质性策略评价。在匹配病例对照研究中，评价交互作用小结：以吸烟为匹配变量，饮酒为暴露因素。在同质性策略下，评价乘法交互作用，需要知道根据吸烟状态的饮酒的OR；评价加法交互作用，需要知道根据吸烟状态的饮酒的AR，因此前者策略可行，后者不可行。在比较观察效应和预期效应策略下，评价乘法交互作用和加法交互作用，均需要知道表示吸烟和饮酒状态的独立的OR。因此策略均不可行。
&&&&同质性策略便于理解，应用广泛，不能评价病例对照研究中的加法交互作用，可以评价不匹配和匹配病例对照研究中的乘法交互作用；比较观察效应与预期策略来源于生物学交互作用的概念，可以评价病例对照研究中的交互作用，不能评价匹配研究中的交互作用。当两种策略都可行时是完全等价的
已投稿到：
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。

怎么用logistic回归模型排除混杂因素的影响

我要回帖

更多关于单因素logistic回归的文章

随机推荐

怎么用logistic回归模型排除混杂因素的影响

我要回帖

更多关于 单因素logistic回归 的文章

随机推荐

更多关于单因素logistic回归的文章