spss一元回归分析案例中某一个自变量的值几乎都相同会影响实验结果吗

spss变量值标签批量赋值方法_百度文库
您的浏览器Javascript被禁用,需开启后体验完整功能,
享专业文档下载特权
&赠共享文档下载特权
&10W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
spss变量值标签批量赋值方法
阅读已结束,下载本文需要
定制HR最喜欢的简历
下载文档到电脑,同时保存到云知识,更方便管理
加入VIP
还剩1页未读,
定制HR最喜欢的简历
你可能喜欢当前位置: >>
中南财大-SPSS-实验报告-5
《统计分析软件》实验报告实验序号:B 学 号 文波机房 姓 名 杨超 实验项目名称:相关与回归分析 专业、班 时间实验地点指导教师一、实验目的及要求实验目的: (1)掌握相关分析的主要内容和方法; (2)掌握回归分析的主要方法和步骤。 实验要求: (1)了解双变量的相关分析过程、偏相关分析过程; (2)掌握线性回归过程、曲线配合过程、二项逻辑回归分析过程、概率回 归过程以及非线性回归分析过程等。 (3)对各种回归输出结果作出正确的解释说明,进一步了解回归分析的基 本步骤,明确各项检验的目的。二、实验设备(环境)及要求微型计算机,SPSS、EViews 等统计分析软件三、实验内容与数据来源1. 现有某省年全社会固定资产投资总额INV和GDP两个指标的年 度数据,见下表。试分析全社会固定资产投资总额和GDP的相互关系,并建立全 社会固定资产投资总额和GDP之间的线性回归方程。 某省全社会固定资产投资和GDP年度数据 年份 98
GDP(亿元) 509.44 614.07 682.8 744.44 833.3 INV(亿元) 120.38 144.71 114.51 121.24 156.39 年份 06
GDP(亿元) 7.16
3326.8 INV(亿元) 523 684.14 667.39 796.9 883.9 03997.7 4.42234.4 324.58 422.18113 4140.944.3 13482.收集某地区城镇居民家庭人均收入(X)和城镇储蓄(Y)两个变量(2000 年至 2011 年)数据如下表: 某地区 2000 年至 2011 年城镇居民家庭人均收入和城镇储蓄 城镇人均收 年份 入 X(元) 02 05 685.30 827.90 916.00 0.70 1387.30 城镇储蓄 Y(亿元) 1.50 9.20 2.60 年份 城镇人均收 入 X(元) 08 11 6.10 9.20 7.20 城镇储蓄 Y(亿元) 8.10 02.80 50.20试对城镇居民家庭人均生活费收入与城镇储蓄两变量配合恰当的曲线方程。 3. 一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因, 抽取了该银行所属的 25 家分行 2002 年的有关业务数据,如下表: (1)试建立不良贷款 y 与贷款余额 x1、累计应收贷款 x2、贷款项目个数 x3 和固定资产投资额 x4 的线性回归方程, 说明回归方程式和各回归系数在 0.05 水平上是否显著,并解释各回归系数的含义; (2)检验模型中的多重共性线,并用逐步筛选变量的方法改进上述方程。 分行 不良贷款 各项贷款余 本年累计应收 贷款项目个 本年固定资产投 编号 1 2 3 4 (亿元) 额(亿元) 贷款(亿元) 0.9 1.1 4.8 3.2 67.3 111.3 173.0 80.8 6.8 19.8 7.7 7.2 数(个) 5 16 17 10 资额(亿元) 51.9 90.9 73.7 14.5 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 257.8 2.7 1.6 12.5 1.0 2.6 0.3 4.0 0.8 3.5 10.2 3.0 0.2 0.4 1.0 6.8 11.6 1.6 1.2 7.2 3.2199.7 16.2 107.4 185.4 96.1 72.8 64.2 132.2 58.6 174.6 263.5 79.3 14.8 73.5 24.7 139.4 368.2 95.7 109.6 196.2 102.216.5 2.2 10.7 27.1 1.7 9.1 2.1 11.2 6.0 12.7 15.6 8.9 0.6 5.9 5.0 7.2 16.8 3.8 10.3 15.8 12.019 1 17 18 10 14 11 23 14 26 34 15 2 11 4 28 32 10 14 16 1063.2 2.2 20.2 43.8 55.9 64.3 42.7 76.7 22.8 117.1 146.7 29.9 42.1 25.3 13.4 64.3 163.9 44.5 67.9 39.7 97.1四、实验步骤与结果 问题一:【操作步骤】 1.录入数据。将文件数据复制到 excel 文件,调整为三纵列后,复制粘贴到 SPSS 软件中的数据视图中。切换到变量视图,对变量名称、数据类型设置后, 如图 1 所示: 图 1 数据视图 2.选择“分析”→“相关”→“双变量”命令,在“双变量相关”对话框的 左侧列表框中, 同时选中 “GDP”和“INV”并单击中间的向右箭头,使之进入“变 量”列表框。图2双变量相关对话框 3.选择相关系数。在“双变量相关”对话框内“相关系数”选项组中选择 Pearson,此处为系统默认值。 4.设定显著性检验的类型。在“显著性检验”选项组中,我们选择“双侧检 验”单选按钮,此处亦为系统默认值。 5.选择是否标记显著性相关。此处选择默认值,即“标记显著性相关”复选 框。 6.选择相关性统计量输出和缺失值的处理方法。单击“双变量相关”对话框 中的“选项”按钮,在“统计量”选项组中首先选中“均值和标准差”,然后选 中“叉积偏差和标准差”,输出各对变量的交叉积以及协方差阵。在“缺失值” 选项组中选中“按对排除个案”。如图 3 所示:图3双变量相关性7.设置完毕,单击确定完成相关性分析的操作步骤。 8.选择“分析”→“回归”→“线性”命令,在“线性回归”对话框的左侧 列表中,选中“GDP”并单击使之进入“因变量”列表框,选中“INV”使之进入 “自变量”列表框。如图 4 所示: 图4线性回归其他设置采用系统默认值。单击“确定”完成所有设置,等待输出结果。 【结果分析】 1.描述性统计量表 从表 1 中可以看出参与相关分析的两个变量的样本数据都是 16, 的均值 GDP 是 2090.69,标准差是 ;INV 的均值是 545.51,标准差是 407.334. 表1 描述性统计量表2.相关分析结果表 如表 2 所示,GDP 和 INV 的相关系数是 0.985,显著性水平小于 0.001,因 此小于 0.01.所以 GDP 和 INV 的相关关系为正向,且相关性极强。 表2相关分析结果表3.模型拟合情况 如表 3 所示,模型的调整 R 方为 0.968,说明模型的解释能力非常强。 表3 模型汇总表4.回归方程的系数以及系数的检验结果 如表 4 所示,回归方程的系数是各个变量的回归方程中的系数值,sig 值表 示回归系数的显著性,越小越显著。一般将其与 0.05 作比较,如果小于 0.05, 即为显著。从表中可以看出,GDP 和 INV 的相关系数为 3.192,p 值小于 0.05, 说明系数显著。 表4 系数表综上,模型为 GDP=349.594+3.192*INV。 问题二:【操作步骤】 1.录入数据。将 word 中的数据复制到 excel,并将数据调整为三纵列,再 复制粘贴到 SPSS 的数据视图中。如图 5 所示:图5数据视图2.选择“分析”→“回归”→“曲线估计”命令,在“曲线估计”对话框的 左侧列表框中,选中收入并单击右箭头使之进入“因变量”列表框,然后在“自 变量”选项组中选中“变量” ,并选中储蓄,单击使之进入该列表框。 3.选择所要使用的曲线类型。在“曲线估计”对话框中的“模型”选项组中, 选中“线性”“对数”“立方”复选框。 、 、 4.选中“在等式中包含常量”和“根据模型绘图”复选框。其他设置采取系 统默认值,如图 6 所示: 图6曲线估计图其他设置保持默认值,单击“确定”按钮完成设置,等待结果输出。 【结果分析】 1.模型情况 表 5 是对模型情况的概述。可以看出三次曲线模型的 R 方最高,为 0.997. 表5 模型汇总和参数估计值2.拟合曲线图形 表 6 是三条曲线的拟合情况,图中的圆圈表示实际值,可以发现三次曲线的 拟合效果是最好的。 表6阴性率3.根据拟合效果,我们选用了三次曲线模型。由表可以得出,模型的表达式 为:GDP=648.995+0.127*NVA+2.855E-006*NVA^2-9.921E-011*NVA^3.问题三:【操作步骤】 1.录入数据。打开 SPSS 软件,将数据复制粘贴到 SPSS 数据视图窗格中, 并到变量视图中完成相关设置。如图 7: 图7数据视图2.选择进行多元线性回归分析的因变量给以及自变量。在“线性回归”对话 框的左侧列表框中,选中 y 并单击第一个向右箭头使之进入“因变量”列表框, 然后同时选中 x1,x2,x3,x4,并单击第二个向右箭头使之进入“自变量”列表框。 如图 8:图8线性回归3.其他设置采用系统默认值。单击“确定”按钮完成设置,等待结果输出。 再进行多重共线性回归分析。 4.选择进行多重线性回归分析的因变量给以及自变量。在“线性回归”对话 框的左侧列表框中,选中 y 并单击第一个向右箭头使之进入“因变量”列表框, 然后同时选中 x1,x2,x3,x4,并单击第二个向右箭头使之进入“自变量”列表框, 最后在“自变量”下方的“方法”下拉列表框中选择“逐步”法进行回归。如图:图9线性回归 25.其他设置采用系统默认值。单击“确定”按钮完成设置,等待结果输出。 【结果分析】 1.模型拟合情况表 表 7 给出了模型的拟合情况。从表中可以看出,R 方为 0.798,模型的拟合 效果较好。 表7 模型汇总2.方差分析表 表 8 给出了模型的方差分析结果。可以发现 P 值为 0.000,模型非常显著。 表8 方差分析表 3. 回归方程的系数以及系数的检验结果 表 9 给出了模型的自变量系数,根据 p 值,变量 x2、x3、x4 不显著,线性 回归模型表达式为: Y=-1.022+0.040x1+0.148x2+0.015x3-0.029x4 表9 系数及系数检验结果4.多重共线性模型拟合情况表 表 10 给出了随着变量的进入依次形成的 2 个模型的拟合情况。可以发现 2 个模型的调整 R 方在递增,模型拟合效果较好。 表 10 模型汇总5.方差分析表 表 11 给出了随着变量的进入依次形成的 2 个模型的方差分析结果。可以发 现 P 值都为 0.000,模型非常显著。 表 11方差分析表6.回归方程的系数以及系数的检验结果 表 12 给出了随着变量的进入依次形成的 2 个模型的自变量系数。可以发现 第二个模型的各个变量都是非常显著的。 表 12 系数及系数的检验结果根据结果分析,最终模型的表达式为: Y=-0.443+0.050x1-0.032x4.五、分析与讨论本次实验主要为相关与回归分析问题研究。 相关分析和回归分析是研究多个 变量之间关系的常用方法。 相关分析是不考虑变量之间的因果关系而只研究分析 变量之间的相关关系的一种统计分析方法,包括简单相关分析、偏相关分析等; 回归分析则是研究分析某一变量受其他变量影响的分析方法, 它以被影响变量为 因变量,以影响变量为自变量,研究因变量与自变量之间的因果关系,包括简单 线性回归、多重线性回归等。 本实验主要探讨了相关分析、简单线性回归、多重线性回归以及曲线回归分 析的内容。 简单相关分析是最简单最常用的一种呢相关分析方法,可以研究变量 间的线性相关程度并用适当的统计指标表示出来。 简单线性回归只涉及一个自变 量, 主要用来处理一个因变量与一个自变量之间的线性关系,建立变量之间的线 性模型并根据模型做评价和预测。 多重线性回归分析是最常用的一种回归分析方 法,分析设计多个变量,用来处理一个因变量与多个自变量之间的线性关系,建 立变量之间的线性模型并根据模型作评价和预测。 曲线回归分析则用于解决一般 先行回归分析无法刻画的变量之间的因果关系。 曲线回归分析适用于模型只有一 个自变量且可以简化为线性形式的情形。 其基本过程是将因变量或者自变量进行 变量转换,然后对新变量进行直线回归分析,最后将新变量还原为原变量,得出 变量之间的关系。 这部分内容还涉及到系数检验的判断分析, 也是最具有实际应用价值的内容 之一。 学生当深入学习, 并拓展到飞线性回归分析、 logit 模型部分内容的学习, 加强自己对不同案例不同数据类型的分析能力。六、教师评语成绩签名:杨超
All rights reserved Powered by
www.tceic.com
copyright &copyright 。文档资料库内容来自网络,如有侵犯请联系客服。温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!&&|&&
一个对生活充满激情的工作者
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
2.spss17中数据的筛选在数据分析中我们常常需要对数据的一个子集进行分析。这时需要首先从数据集中筛选出符合条件的数据。打开数据文件,选中“数据”菜单下的“选择个案”,在左侧选择需要筛选的变量,在右侧的选择里选中需要筛选的方法,在输出中选择新数据集的输出方式,然后按确定即可。
以“如果条件”满足为例
结果如下所示:
这时增加了一个新变量,变量名为filter_$,变量的值分为了 selected和not selected.并且个案标识前分成有删除线和无删除线两种类型的数据。3.spss17中数据的转置打开数据文件,选中“数据”菜单下的“转置”,在变量选择需要转置的数据,在名称变量里选择需要定义为变量的数据,然后按确定即可。
这里需要说一下,我理解的变量和名称变量都是什么意思?变量:转置后新数据的个案。名称变量:转置后新数据的变量名称。
阅读(25133)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
loftPermalink:'',
id:'fks_',
blogTitle:'spss中数据的排序、筛选和转置',
blogAbstract:'
在学习今天的知识之前,首先先说个spss中插入个案、插入变量、转至个案、转向变量的概念。插入个案:等同于excel中插入一行。插入变量:等同于excel中插入一列。转至个案:等同于excel中选中一行。转向变量:等同于excel中选中一列。下边开始今天的正题,spss17中数据的排序、筛选和转置。1.spss17中数据的排序打开数据文件,选中“数据”菜单下的“排序个案”,在“排序依据”里输入需要排序的变量,在“排列顺序”里选中升序or降序,然后按确定即可。
blogTag:'spss数据的常用操作',
blogUrl:'blog/static/',
isPublished:1,
istop:false,
modifyTime:0,
publishTime:0,
permalink:'blog/static/',
commentCount:1,
mainCommentCount:1,
recommendCount:2,
bsrk:-100,
publisherId:0,
recomBlogHome:false,
currentRecomBlog:false,
attachmentsFileIds:[],
groupInfo:{},
friendstatus:'none',
followstatus:'unFollow',
pubSucc:'',
visitorProvince:'',
visitorCity:'',
visitorNewUser:false,
postAddInfo:{},
mset:'000',
remindgoodnightblog:false,
isBlackVisitor:false,
isShowYodaoAd:false,
hostIntro:'一个对生活充满激情的工作者',
hmcon:'1',
selfRecomBlogCount:'0',
lofter_single:''
{list a as x}
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人:
{list a as x}
{if !!b&&b.length>0}
他们还推荐了:
{list b as y}
转载记录:
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}SPSS超详细操作:两因素多元方差分析(Two-way Manova)
用微信扫描二维码分享至好友和朋友圈
用微信扫描二维码分享至好友和朋友圈
  ~今天,我们来介绍一种统计方法:两因素多元方差分析(Two-way Manova)。  一、问题与数据  某研究者想研究三种干预方式(regular—常规干预;rote—死记硬背式干预;reasoning—推理式干预)对学生学习成绩的影响。  研究者记录了学生两门考试的成绩:文科成绩(humanities_score)和理科成绩(science_score)。另外,基于之前的知识,研究者假设干预方式对男女两种性别学生的效果可能不同。换言之,研究者想知道不同干预方式对学习成绩的影响在男女学生中是否不同。也就是说,干预方式和性别两个自变量之间是否存在交互作用(interaction effect)。  注:交互作用是指某一自变量对因变量的效应在另一个自变量的不同水平会不同。在本例中,就是要比较①男性中干预方式对学习成绩的影响和②女性中干预方式对学习成绩的影响。这两个效应就成为单独效应(simple main effects),也就是说,单独效应是指在一个自变量的某一水平,另一个自变量对因变量的影响。因此,交互作用也可以看做是对单独效应间是否存在差异的检验。  在本研究中,共有三个效应:性别的主效应;干预方式的主效应;性别和干预方式的交互作用。  研究者选取30名男学生和30名女学生,并将其随机分配到三个干预组中,每个干预组中共有10名男学生和10名女学生。部分数据如下:    二、对问题的分析  使用两因素多元方差分析法进行分析时,需要考虑10个假设。  对研究设计的假设:  1. 因变量有2个或以上,为连续变量;  2. 有两个自变量,为二分类或多分类变量;  3. 各观察对象之间相互独立;  对数据的假设:  4. 自变量的各个组内,各因变量间存在线性关系;  5. 自变量的各个组内,各因变量间没有多重共线性;  6. ①没有单因素离群值(univariate outliers)与②多因素离群值(multivariate outliers):单因素离群值是指自变量的各个组中因变量是否是离群值;多因素离群值是指每个研究对象(case)的各因变量组合是否是一个离群值;  7. 各因变量服从多元正态分布;  8. 样本量足够;  9. 自变量的各组观察对象之间因变量的方差协方差矩阵相等;  10. 每个因变量在自变量的各个组中方差相等。  三、流程图    四、对假设的判断  那么,进行两因素多元方差分析时,如何考虑和处理这10个假设呢?  由于假设1-3都是对研究设计的假设,需要研究者根据研究设计进行判断,所以我们主要对数据的假设4-10进行检验。  (一) 检验假设6:①是否存在单因素离群值;假设7:各因变量是否服从多元正态分布  检验单因素离群值时需要检验每一种自变量的排列组合中是否存在离群值,共有如下6种情况:    1. 首先要对数据进行拆分  (1) 在主菜单点击Data & Split File... ,如下图:    (2) 出现Split File对话框,选择Organize output by groups,会激活下方Groups Based on: 框;    (3) 将gender和intervention选入Groups Based on: 框中,点击OK;    2. 运行Explore程序,检验离群值并评估正态性;  (1) 在主菜单点击 Analyze & Descriptive Statistics & Explore... ,如下图:    (2) 出现Explore对话框;    (3) 将humanities_score和science_score选入Dependent List中,将id选入Label Cases by:框中;    (4) 点击Plots,出现下图Plots对话框;    (5) 在Boxplots下选择Dependents together,去掉Descriptive下Stem-和-leaf,选择Normality plots with tests,点击Continue,点击OK。    3. 检验假设6:①是否存在单因素离群值  (1) 下图为输出的箱式图结果。  在SPSS中,将距离箱子边缘超过1.5倍箱身长度的数据点定义为离群值,用“圆圈”表示,右上标为离群值在数据表中所对应的行数,以圆点表示;将距离箱子边缘超过3倍箱身长度的数据点定义为极端值(极端离群值),用“*”表示,右上标代表离群值在数据表中所对应的行数。  在下图中,可以看到两个单因素离群值:a)26号学生,在推理干预组的一位女学生文科分数高于同组内的;b)57号学生,在推理干预组中的一个男学生文科分数也是高于同组内的。    (2) 本例中没有出现极端值,为了方便理解,下图是出现极端值的一个举例的情况。    一般来说,极端值比离群值更难处理。但是出现离群值时就应该检查离群值,并决定选择处理方法。本例中虽然存在离群值,但是为了进行下一步,我们暂且认为不存在离群值。  (3) 离群值的处理  首先需要确定离群值出现的原因,数据中存在离群值的原因有3种:  1) 数据录入错误:首先应该考虑离群值是否由于数据录入错误所致。如果是,用正确值进行替换并重新进行检验;  2) 测量误差:如果不是由于数据录入错误,接下来考虑是否因为测量误差导致(如仪器故障或超过量程),测量误差往往不能修正,需要把测量错误的数据删除;  3) 真实存在的离群值:如果以上两种原因都不是,那最有可能是一种真实的极端数据。这种离群值不好处理,但也没有理由将其当作无效值看待。目前它的处理方法比较有争议,尚没有一种特别推荐的方法。  需要注意的是,如果存在多个离群值,应先把最极端的离群值去掉后,重新检查离群值情况。这是因为有时最极端离群值去掉后,其他离群值可能会回归正常。  离群值的处理方法分为2种:  1) 保留离群值:  对因变量进行数据转换;  将离群值纳入分析,并坚信其对结果不会产生实质影响。  2) 剔除离群值:  直接删除离群值很简单,但却是没有办法的办法。当我们需要删掉离群值时,应报告离群值大小及其对结果的影响,最好分别报告删除离群值前后的结果。而且,应该考虑有离群值的个体是否符合研究的纳入标准。如果其不属于合格的研究对象,应将其剔除,否则会影响结果的推论。另外,需要在结果部分报告对离群值处理的方式。  4. 检验假设7:各因变量是否服从多元正态分布  (1) 对于样本量较小(&50例)的研究,推荐使用Shapiro-Wilk方法检验正态性。当P&0.05(显著性水平为0.05时)时,认为不是正态分布。  本例中,共有六种自变量的分类组合和两个因变量,所以会出现12行结果。由于对各因变量进行了6次检验,所以新的显著性水平 = 0.05 & 6 = 0.0083。本例中,由于所有的P值都大于0.0083,所以两个因变量文科成绩和理科成绩服从正态分布。    (2) 不服从正态分布的处理  如果数据不服从正态分布,可以有如下3种方法进行处理:  1) 数据转换:对转换后呈正态分布的数据进行方差分析。当各组因变量的分布相同时,正态转换才有可能成功。对于一些常见的分布,有特定的转换形式,但是转换后的数据结果可能较难解释。  2) 直接进行分析:由于多元方差分析对于偏离正态分布有一定的抗性,尤其是在各组样本量相等或近似相等的情况下,而且非正态分布实质上并不影响犯I型错误的概率。因此可以直接进行检验,但是结果中需要报告对正态分布的偏离。  3) 如果想知道不服从正态分布是否会影响方差分析的结果,可以比较转换后数据的分析结果和直接进行分析的结果,如果两个结果是同样的结论,则不需要对因变量进行转换。  (二) 检验假设4:自变量的各个组内,各因变量之间存在线性关系  1. 在上述数据拆分的基础上,在主菜单下点击Graphs & Legacy Dialogs & Scatter/Dot....,如下图所示:    2. 出现Scatter/Dot对话框,如下图所示;    3. 点击Matrix Scatter,点击Define,出现 Scatterplot Matrix对话框;    4. 将humanities_score和science_score选入Matrix Variables:框中,将intervention选入Rows:框中,将gender选入Columans:框中,点击OK;    5. 在如下结果中可以看到每一种自变量组合里humanities_score和science_score的散点图,除了两因变量在推理干预的女学生中的线性关系不是很理想,其他组的线性关系明显,我们这里接受假设4。    如果不存在线性关系,可以通过3种方式进行处理:(1) 对1个或多个因变量进行转换;(2) 去除掉不存在线性关系的因变量;(3) 直接进行分析,尽管统计效能会降低。  (三) 检验假设5:各因变量之间是否存在多重共线性  1. 在上述数据拆分的基础上,在主菜单下点击 Correlate & Bivariate...,如下图所示:    2. 出现Bivariate Correlations对话框,如下图;    3. 将humanities_score和science_score选入Variables,点击OK。    4. 结果如下图所示,可以看到自变量的各个组合中humanities_score和science_score的Pearson相关系数。  理想状态下,在做多元方差分析时,各个因变量之间应该存在一定程度的相关关系,但相关性不能太强,如果相关性太强(高于0.9),则存在多重共线性,多元方差分析的假设则不再满足。  在下表中突出显示的相关系数在-0.851~0.721之间,因变量间不存在多重共线性(|r| & 0.9)。    5. 存在多重共线性的处理方法  如果数据具有多重共线性,可以有如下2种方法进行处理:  (1)删除具有多重共线性的一个因变量,也是最常用的方法;  (2)可以通过主成分分析将具有多重共线性的多个因变量汇总成一个新的因变量,这样做往往是理论上必须保留所有因变量。  (四) 检验假设6:②是否存在多因素离群值  多因素离群值是指因变量的组合是异常值。可以通过计算马氏距离(Mahalanobis distance)来判断某个研究对象是否为多因素离群值。  1. 在主菜单下点击 Analyze &Regression &Linear...,如下图所示:    2. 出现Linear Regression对话框,将id选入Dependent框中,将humanities_score和science_score选入Independent(s)中,如下图所示;    3. 点击Save,出现Linear Regression:Save对话框,点击Distances下的Mahalanobis,即马氏距离,点击Continue,点击OK。    4. 在主界面下,可以看到出现新变量MAH_1;    5. 选中MAH_1变量,右键,选择Sort Descending,对新变量进行降序排列;    6. 如下图所示,是对马氏距离降序排列后的数据界面;    7. 马氏距离需要根据下表中Critical Value进行对比,下表中Critical Value是在α=0.001时不同变量数对应的卡方分布的卡方值,由于本例中因变量有2个,对应的Critical Value为13.82,而本例中马氏距离最大值为5.,所以不存在多因素离群值。    8. 如果存在多因素离群值,首先要确定多因素离群值存在的原因,原因主要有三种:数据录入错误;测量错误;真实存在的异常值。  处理方法分为2种:  (1) 保留离群值:  1) 将因变量转换成其他形式,然而转换后的结果比较难解释,如果选择变换,需要对所有的假设进行重新检验;  2) 将离群值纳入分析,理想情况下,需要找到一个方法能够评估离群值对分析结果的影响。可以分别纳入多因素离群值和剔除多因素离群值进行分析,并对两个分析结果进行比较。如果两者结论一致,则可以保留多因素离群值。  (2) 剔除离群值:  直接删除离群值很简单,是常用的办法。当我们需要删掉离群值时,应该注意一个离群值可能会掩盖另一个离群值的存在。所以在删除离群值后,应重新进行对假设的检验。最后需要在结果中报告删除的离群值和原因。  9. 需要去除之前对数据的拆分。在主菜单下点击Data & Split File...,如下图所示:    10. 出现Split File对话框,点击Analyze all cases,do not create groups,点击OK。    五、多元方差的SPSS操作  (一) SPSS操作  1. 在主菜单下点击Analyze &General Linear Model &Multivariate...,如下图所示:    2. 出现Multivariate对话框,将humanities_score和science_score选入Dependent Variables,将gender和intervention选入Fixed Factor(s),点击Post Hoc;    3. 出现Multivariate: Post Hoc Multiple Comparisons for Observed Means对话框,将gender和intervention选入Post Hoc Tests for,在Equal Variances Assumed下方选择Tukey,点击Continue;    4. 点击Options,出现Multivariate: Options对话框,如下图所示;    5. 将gender和intervention选入Display Means for:下方,并同时选中gender和intervention,将交互项gender*intervention选入Display Means for:下方,勾选Display下方的Descriptive statistics、Estimates of effect size和Homogeneity tests,点击Continue,点击Paste。    6. 出现如下图所示的语法编辑器页面;    7. 找到第8行语法:/EMMEANS=TABLES(gender*intervention),并在其后加上空格,加上语法:COMPARE(gender) ADJ(BONFERRONI),如下图所示;    注释:COMPARE()表示主效应的执行命令,COMPARE(gender)表示会输出gender对因变量的主效应,ADJ(BONFERRONI)是进行主效应间两两比较的命令,并对显著性水平进行Bonferroni校正。  8. 复制/EMMEANS=TABLES(gender*intervention) COMPARE(gender) ADJ(BONFERRONI),并将其黏贴至下一行,将gender改成intervention,如下图所示;    9. 在主菜单下点击RUN& All,如下图所示。    (二) 检验假设8:样本量足够  多元方差分析中的样本量足够是指自变量的每组中的例数要不少于因变量个数,本例中因变量有2个,所以自变量每组中至少有2例才能满足样本量足够的假设。在输出的结果的Descriptive Statistics表中可以看到每组10例,满足条件。    (三) 检验假设9:自变量的各组观察对象之间因变量的方差协方差矩阵相等  在输出的结果的Box's Test of Equality of Covariance Matrices表中,如果P&0.001,则违反了协方差矩阵相等的假设;如果P&0.001,则协方差矩阵相等的假设成立。    本例中,P=0.009&0.001, 所以各组观察对象因变量的方差协方差矩阵相等的假设成立。大家可能注意到此时的显著性水平是0.001而非0.05,这是由于该检验的敏感性所以下调了显著性水平。  如果检验发现方差协方差矩阵不相等,可以不进行处理,但是需要用Pillai&s criterion统计量而非Wilks' Lambda,因为Pillai's criterion对于不相等的协方差矩阵更稳健。  (四) 检验假设10:每个因变量在自变量的各个组中是否方差相等。  在输出的结果的Levene's Test of Equality of Error Variances表中,该检验中如果P&0.05,则方差不相等;如果P&0.05,则方程相等。本例中,P值均大于0.05(分别为P=0.750和P=0.964),所以方差相等的假设成立。    如果检验发现方差不等,有2种方法进行处理:(1)对因变量进行转换,并重新进行所有的检验;(2)不进行处理,并接受较高的α水平,即犯I类错误的概率可能增大。  六、结果解释  在结果解释之前,我们需要先明确几个概念:单独效应、主效应和交互作用。  单独效应(simple effect):指其他因素的水平固定时,同一因素不同水平间的差别。例如,当A因素固定在第1个水平时,B因素的单独效应为20;当A因素固定在第2个水平时,B因素的单独效应为24。  主效应(main effect):指某一因素的各水平间的平均差别。例如,当A因素固定在第1个水平时,B因素的单独效应为20;当A因素固定在第2个水平时,B因素的单独效应为24。平均后得到B因素的主效应(20+24)/2=22。  交互作用(interaction):当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存在交互作用。  当存在交互作用时,单独分析主效应的意义不大,需要逐一分析各因素的单独效应;当不存在交互作用时,说明两因素的作用效果相互独立,逐一分析各因素的主效应即可。  1. 多元方差分析的交互作用的结果  (1) 在Multivariate Tests表中,Pillai's Trace、Wilks' Lambda、 Hotelling's Trace和Roy's Largest Root为四个多元统计量,用于检验组间差异。首先要判断两个自变量之间是否存在交互作用,最常用的统计量为Wilks' Lambda,该检验P&0.05时,自变量之间存在交互作用。  本例中,交互项的F=4.046,P=0.004,Wilks' Λ=0.753; partial η2=0.132,所以gender和intervention之间存在交互作用,即干预对学生成绩的影响在男女之间存在差异。    (2) 发现交互项对因变量有影响后,我们还需要判断交互项对哪个因变量有作用。Tests of Between-Subjects Effects表实际上是对因变量单独进行一元方差分析的结果。P&0.05时,自变量对因变量的影响存在统计学意义;P&0.05时,自变量对因变量的影响不存在统计学意义。  本例中,我们看交互项对两个因变量的影响,发现交互项对文科成绩的影响有统计学意义(P=0.003),而对理科成绩的影响不存在统计学意义(P=0.056)。    2. 单独效应(simple main effect)的结果  (1) gender的单独效应(simple main effect)  在Univariate Tests中输出了在干预的不同组中,学习成绩在男女中是否存在差异。  我们以文科成绩为例,如下表所示,可见Regular(P=0.664)和Rote(P=0.086)干预组中男女生文科成绩的差异不存在统计学意义,在Reasoning干预组中男女成绩的差异具有统计学意义(P=0.002)。    (2) intervention的单独效应(simple main effect)  相似的,以文科成绩为例,未发现在女学生中不同干预方式对文科成绩的影响,但在男学生中不同干预方式对文科成绩的影响具有统计学意义(P&0.001)。    然而,由于intervention是三分类变量,我们如果想知道到底是那两个组之间存在差异,就需要进行两两比较。下表是两两比较的结果。对于每科成绩和每种性别,都进行了三种干预方式的两两比较:regular与rote,regular与reasoning,reasoning与rote。    下面我们看一下因变量为文科成绩时,在男性中,在Mean Difference(I-J)列可以看到regular组与rote组文科成绩平均值差值为1.600,但是regular与rote两种干预方式的比较P=1.000,说明两者之间的差异不具有统计学意义。    相似的,在男性中,reasoning组与regular组的文科成绩平均值差值为9.600,差异具有统计学意义(P&0.001)。    3. 多元方差分析的主效应  (1) Gender的主效应  如下图突出显示中,gender对因变量的主效应不具有统计学意义,F=0.900,P=0.413,Wilks' Λ=0.967; partial η2=0.033。    (2) Intervention的主效应  如下图突出显示中,intervention对因变量的主效应具有统计学意义,F=6.220,P&0.001,Wilks' Λ=0.656; partial η2=0.190。    当多元方差分析的主效应对因变量有意义时,需要解读单因素分析的主效应结果(univariate main effects),这部分结果在Tests of Between-Subjects Effects表中。  如下图所示,干预方式对文科成绩的影响具有统计学意义(P&0.001),而对理科成绩的影响不存在统计学意义(P=0.153)。    由于干预方式是三分类变量,我们下面需要看两两比较的结果。如下图所示,可以看到三种干预方式对文科成绩影响两两比较的结果。  Regular组和rote组的文科成绩差异不具有统计学意义(P=0.896),regular组和reasoning组文科成绩的差异具有统计学意义(P&0.001),rote组和reasoning组文科成绩的差异具有统计学意义(P&0.001)。    七、撰写结论  1. 当自变量之间存在交互作用时  运用两因素多元方差分析方法对性别和干预方式对学生学习成绩(包括文科成绩和理科成绩)的影响进行分析。  分析前对方法的假设进行检验:散点图发现自变量的各个组内,因变量间存在线性关系;Pearson相关发现两因变量之间不存在多重共线性(|r|&0.9);通过箱式图未发现单因素离群值,通过马氏距离未发现多元离群值(P&0.001);  Shapiro-Wilk检验显示两因变量(文科成绩和理科成绩)服从正态分布(P&0.05); Box's M检验显示自变量的各个组内两个因变量的方差协方差矩阵相等(P=0.009);Levene's检验显示自变量各个组内因变量方差相等(P&0.05)。  性别和干预方式的交互作用对因变量的影响存在统计学意义, F=4.046,P=0.004,Wilks' Λ=0.753; partial η2=0.132,即干预对学生成绩的影响在男女之间存在差异。  多元方差分析显示性别和干预方式的交互作用对文科成绩的影响有统计学意义(F=6.406, P=0.003;partial η2=0.192),但对理科成绩的影响不具有统计学意义(F=3.034, P=0.056;partial η2=0.101)。  单因素主效应分析显示在男学生中不同干预方式对文科成绩的影响具有统计学意义(F=17.283, P&0.001;partial η2=0.390),但在女学生中不同干预方式对文科成绩的影响无统计学意义(F=1.785, P=0.178;partial η2=0.062)。  因此,在男学生中对不同干预组的文科成绩进行了两两比较。成绩用均值&标准差表示。男生文科平均成绩在常规干预组为61.40&5.23,在死记硬背式干预组中为59.80&5.22,在推理干预组中为71.00&3.33。  常规干预组与推理干预组的文科成绩差值为9.60(95%CI:4.51-14.69,P&0.001),具有统计学意义;死记硬背干预组与推理干预组的文科成绩差值为11.20(95%CI:6.11-16.29,P&0.001),具有统计学意义;常规干预组与死记硬背干预组的文科成绩差值为1.60(95%CI:-3.49-6.69,P=1.000),不具有统计学意义。  2. 当自变量之间不存在交互作用时  性别和干预方式的交互作用对因变量的影响不存在统计学意义, F=1.026,P=0.264,Wilks' Λ=0.953; partial η2=0.022。  多元方差分析显示干预方式对文科成绩的影响具有统计学意义(F=12.661, P&0.001;partial η2=0.319),但对理科成绩的影响不具有统计学意义(F=1.944, P=0.153;partial η2=0.067)。  因此,对不同干预组的文科成绩进行了两两比较。成绩用均值&标准差表示。常规干预组的文科平均成绩为60.95&1.03,死记硬背式干预组的文科平均成绩为61.60&1.03,推理干预组的文科平均成绩为67.60&1.03。  常规干预组与推理干预组的文科成绩差值为6.65(95%CI:3.14-10.16,P&0.001),具有统计学意义;死记硬背干预组与推理干预组的文科成绩差值为6.00(95%CI:2.49-9.51,P&0.001),具有统计学意义;常规干预组与死记硬背干预组的文科成绩差值为0.65(95%CI:-2.82-4.16,P=0.896),不具有统计学意义。
特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
阅读下一篇
网易通行证/邮箱用户可以直接登录:

我要回帖

更多关于 spss线性回归分析步骤 的文章

 

随机推荐