正态 检验 w d性检验结果w检验和标准q-q图矛盾怎么办

spss 数据正态分布检验 Q_文档库
文档库最新最全的文档下载
当前位置: & spss 数据正态分布检验 Q
spss 数据正态分布检验 Q
spss 数据正态分布检验 Q-Q图
把自己学习spss 的一点理解拿出来晒一晒,要是不对大家可以留言啊,一定要讨论啊。
要观察某一属性的一组数据是否符合正态分布,可以有两种方法(目前我知道这两种,并且这两种方法只是直观观察,不是定量的正态分布检验): 1:在spss 里的基本统计分析功能里的频数统计功能里有对某个变量各个观测值的频数直方图中可以选择绘制正态曲线。具体如下:Analyze-----Descriptive S tatistics-----Frequencies ,打开频数统计对话框,在Statistics 里可以选择获得各种描述性的统计量,如:均值、方差、分位数、峰度、标准差等各种描述性统计量。在Charts 里可以选择显示的图形类型,其中Histograms 选项为柱状图也就是我们说的直方图,同时可以选择是否绘制该组数据的正态曲线(With nor
ma curve ),这样我们可以直观观察该组数据是否大致符合正态分布。如下图:
从上图中可以看出,该组数据基本符合正态分布。
2:正态分布的Q-Q 图:在spss 里的基本统计分析功能里的探索性分析里面可以通过观察数据的q-q 图来判断数据是否服从正态分布。
具体步骤如下:Analyze-----Descriptive Statistics-----Explore 打开对话框,选择Plots 选项,选择Normality plots with tests 选项,可以绘制该组数据的q-q
图。图的横坐标为改变量的观测值,纵坐标为分位数。若该组数据服从正态分布,则图中的点应该靠近图中直线。
纵坐标为分位数,是根据分布函数公式F(x)=i/n+1得出的.i 为把一组数从小到大排序后第i 个数据的位置,n 为样本容量。若该数组服从正态分布则其q-q 图应该与理论的q-q 图(也就是图中的直线)基本符合。对于理论的标准正态分布,其q-q 图为y=x直线。非标准正态分布的斜率为样本标准差,截距为样本均值。
Word文档免费下载:
(共32页)
spss 数据正态分布检验 Q-Q 图 学习交流
14:40 阅读 1378 评论 9 字号: 大中小 把自己学习 spss 的一点理解拿出来晒一晒,要是不对大家可以...检验结果为: 从结果可以看出,K-S 检验中,Z 值为 0.493,P 值 (sig 2-tailed)=0.968&0.05,因此数据呈近似正态分布 检验方法三:Q-Q 图检验 在 SPSS 里...检验结果为: 从结果可以看出,K-S 检验中,Z 值为 0.493,P 值 (sig 2-tailed)=0.968&0.05,因 此数据呈近似正态分布 检验方法三:Q-Q 图检验 在 SPSS ...因此数据呈近似正态分布 检验方法三: Q-Q 图检验 在 SPSS 里执行 “ 图表 — &Q-Q 图” ,弹出对话框,见下图: 变量选择 “ 期初平均分 ” ,检验分布...2、Q-Q 图 以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为...利用SPSS检验数据是否符... 5页 免费
如何使用spss 进行 卡方... 8页 1...spss 数据正态分布检验_数学_自然科学_专业资料 暂无评价|0人阅读|0次下载|举报文档 spss 数据正态分布检验_数学_自然科学_专业资料。是否是正态分布决定了我们...SPSS统计分析 例3-2 某地40名30-49岁健康成年男子血清胆固 醇(mmol/l)的测定结果见数据文件data3-3,试 对该资料进行正态性检验 。 1、运用Q-Q图法操作...统计学spss正态性检验教程正态分布的检验 数据的正...正态分布一般无异常值和极值。 正态 Q-Q 图,...spss 数据正态分布检验_数学_自然科学_专业资料。spssspss 数据正态分布检验一、Z 检验 二、相关系数检验 三、独立样本 T 检验 四、相依样本 T 检验 五、χ?...同类荐读:& &
本文来自:
本文地址:
版权说明:如非注明,本站文章均为
原创,转载请注明出处和附带本文链接。
1#&& 16:42:07&
&img src=&http://img./t35/style/images/common/face/ext/normal/54/cat_wocuole_org.gif& alt=&[我错了]& title=&[我错了]& class=&ds-smiley& /&
2#&& 20:02:36&导读:单击图可以选择箱形图、茎叶图、直方图与正态检验的Q-Q图等检测有无极端值和奇异值,对数据进行核对、检验和筛选,3、统计分析前的假设检验,许多统计检验都需要样本数据服从正态分布,而不用去进行正态性检验,“frequencies”和“explore”可以完成这些工作,(1)方差齐性检验(spreadvs.levelwithlevenetest)“,都可进行正态性检验和方差齐性检验,(2)正态检验(1、缺失值处理
缺失值是数据分析中一个非常常见的现象,出现的主要原因有:设备故障、拒绝回答、测验时走神等,对此应对缺失值的进行检测,SPSS默认缺失值以黑点表示,可以通过快速浏览数据列表发现,记录下缺失值所在的变量即数据的列。
缺失值的处理方式有以下三种:
(1)剔除有缺失值的观测单位,即删除SPSS数据列表中缺失值所在的数据行。
在SPSS的统计分析程序中,打开options按钮,便会出现缺失值的处理栏,可分别选择下列选项:“剔除正在分析的变量中带缺失值的观察单位”、“剔除所有分析变量中带缺失值的观察单位”。虽然这种做法可以为执行许多统计分析命令扫清障碍,但要求每一步统计分析都联系于特定的有效样本容量,而样本容量不能稳定会给整个分析带来不便。
(2)对缺失值进行估计后补上。
主要有两种方法:一是根据文献报道等知识经验进行估计;二是用SPSS提供的工具进行估计。在“transform”菜单下的“replacemissingvalues”列出了5种替代的方法:
1)seriesmean:以列的算术平均值进行替代;
2)meanofnearlypoint:以缺失值邻近点的算术平均值进行替代;
3)Medianofnearlypoint:以缺失值临近点的中位数替代;
4)linearinterpolation:根据缺失值前后的2个观察值进行线性内查法估计和替代;
5)lineartrendatpoint:用线形回归法进行估计和替代。
(3)将缺失值作为常数值,如:作为“0”。
2、奇异值和极端值的处理
奇异值和极端值是指各变量中与整体数据相距太远的极值,由于它的夸大作用,常常会歪曲统计结果,导致犯一类和二类错误。
导致奇异值和极端值的原因:(1)数据输入时出错;(2)在不同数据格式之间进行转换时,缺失值处的数码代号被当成了实际观测值;(3)出现奇异值的样本并非属于所要考察的总体;(4)考察的样本相对于正态分布有比较多的极值。
奇异值和极端值的检测:
在描述统计分析菜单下,点击Explore(探索性分析)对话框后把变量选入Variables框中,单击统计量选择描述统计量,单击图可以选择箱形图、茎叶图、直方图与正态检验的Q-Q图等检测有无极端值和奇异值。通过箱形图可以发现数据中的异常点,对数据进行核对、检验和筛选。以箱形图为例,箱形图中都标有奇异值的行号。箱形图图形的含义是:中间的粗线为中位数,灰色的箱体为四分位,两头伸出的线条表现极端值(下线为最小值、上线为最大值)。箱形图用离群值和极端值表示那些在绳索外侧的值。离群值,是指值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案,在图种用“o”号表示。极端值是指值距离框的上下边界超过3倍框长的个案,用“*”号表示。框的长度是四分位数之间的全距。
如图1所示,对某问卷中家庭收入进行分析的箱形图中既有离群值也有极端值。图中3个极端值分别位于:81号家庭、93号家庭、62号;此外2个离群值为:67号家庭、76号家庭。有时,鉴于81号家庭远远游离于箱体、绳索及邻近的极端值所组成的群体之外,可以把它视作飞点。
减少奇异值和极端值影响的方法:
(1)将奇异值和极端值作为缺失值处理:在“variableview”视图中点击“missing”栏下含有奇异值和极端值的变量,弹出“missingvalues”对话框,有3个选项可以使用:1)“discretemissingvalues”最多可以指定3个数值为缺失值;2)“rangeofmissingvalues”指定某一取值范围内的数值为缺失值;3)“rangeplus oneoptionaldiscretemissing”指定某一取值范围和某一特定数值为缺失值;
(2)根据检测的奇异值和极端值,用“dataselectcases”工具中的“if…”对数据的取值范围进行限定,然后再进行统计分析;
(3)对奇异值进行估计,方法同缺失值的估计;
(4)将原始数据转换成标准Z分数(statis-tics/summarize/descriptives/save/standardizedvalueas)或进行其他的转换后再进行统计分析;
(5)删除奇异值所在的观察单位。
3、统计分析前的假设检验
许多统计检验都需要样本数据服从正态分布,并且相关联的变量之间应方差齐同。若不符合上述条件便应进行数据转换,否则便会导致错误。但大样本数据可以近似地认为其为正态分布,而不用去进行正态性检验。“analyze”下的“descriptives”,“frequencies”和“explore”可以完成这些工作。
(1)方差齐性检验(spreadvs.levelwithlevenetest)
“descriptives”和“frequencies”的功能基本相同,都可进行正态性检验和方差齐性检验。若满足方差齐性,则可进行下一步工作;若不满足,选“powerest-imetion”进行数据变换来满足。方差齐性,有6种方法可供选择:(1)naturallog:取自然对数;(2)1/squareroot:取平方根的倒数;(3)reciprocal:取倒数;(4)squareroot:取平方根;(5)square:取平方;(6)cube:取立方。若SPSS提供的6种变换均不能满足要求,应考虑采用非参数统计的方法。
(2)正态检验(normalityplotswithtests)
在“analyzedescriptivesstatisticsexplore”中可进行正态检验,及做出Q-Q图。若不支持正态分布,则应进行数据变换,方法同方差齐性检验,或选用非参数统计的方法。
4、相关分析前的数据检查
相关分析之前应用“descriptivesstatistics”对数据进行观察。当一个变量取值范围很窄时,应做数据变换后再进行相关分析,否则会使相关的资料得出不相关的结论;在做连续变量和等级资料的相关或两个等级
资料的相关时,若90%的被试都选择等级资料中的一种情况(如:90%的被试都选择“严重”),则相关性通常会很低,对这类数据应用其他方法进行分析;当均值是一个很大的数,而同时标准差很小时,相关系数值通常也会很小,对这样的资料不宜做相关分析。
摘自刘莹《SPSS在问卷数据校验中的应用研究》,《科技资讯》2008(8)。
多项选择题数据的输入
方法1:多重二分法。有多少选项就设多少个变量,某个个案选择了某项则在该变量名下录入“1”,未选择某项则录入“0”,即将每个变量变成类似于“是”、“否”的选择题。
方法2:多重分类法。有多少选项就设多少个变量,某个个案选择了某项则在该变量名下录入“1”,未选择某项则录入“0”。例如,某个个案选择了第“1”、“3”、“4”项, 则依次录入“1、 0、 1、 1、 0、 0”。
方法3:多重分类法。选了多少项就设置多少个变量,如命名为 seq1、seq2 和 seq3 ,如果某个个案选择了第“1”、“3”、“2”项时,则依次输入“1”、“3”、“2”。
方法4:多重分类法,利用Excle的分列功能。
第一步,设置一个变量,命名为 var1。
第二步,录入数据。例如 ,某个个案选择了第“1、 3、 2”项,则输入“1 3 2”。
第三步 ,将该多选题及其数据另存为 Excle文件。
第四步 ,在excle 中将 var1 这一个变量分列 ,步骤是“选定该变量 →数据 →分列 →固定宽度 →下一步→使用鼠标分列 →下一步 →完成。这样 ,原来的一个变量组成的数据库转化为由几个变量组成的新的数据库 ,如下。
第五步 ,将新的变量 Seq1 ,Seq2 ,Seq3 保存。
最后 ,使用 SPSS软件读取该数据文件。
多项选择题的数据集合的定义
可从两种方式进入:
(1)从菜单Analyze(分析)→Multiple Response(定义多重响应集) 进入。
(2) 从菜单Analyze(分析)→Tables(表)→Multiple Response Tables(多响应集) 进入。
◆项目1、您的性别:1-男 2-女
◆项目2、您购车时,哪些因素会影响你的购车决策。(允许选择 3 个答案,而且要求被调查者按主
次顺序选出答案,如521,即价格最重要,其次是款式,再次是性能。)
1-性能 2-款式 3-油耗 4-品牌 5-价格 6-颜色 7-其他
从菜单Analyze(分析)→Tables(表)→Multiple Response Tables(多响应集)进入:
第一步:在 Variables in Set(设置定义)框是选入需要加入同一个多项选择题变量集的变量系列,这些变量必须进行分类, 并按照相同的方式来编码。
若项目是按多重二分法编码,将Set Definition(设置定义)框中的 a1、a2、 a3……a7 放入 Variables in Set(集合中的变量)框,在VariablesAre Coded As(将变量编码为)单选框中的选择 dichotomies (二分法),在 Counted value(计数值) 右侧框中输入1。
若项目是按多重分类法编码,将 Set Definition (设置定义)框中的b1、b2、b3 放入Variables in Set(集合中的变量)框,在VariablesAre Coded As(将变量编码为)单选框中的选择categories(多重分类法编码方式),则需要设定取值范围,在该范围内的记录值纳入分析。一般的取值范围是该多项选择题选项的最大和最小代码,因此,在range右侧框中输入1,through后输入7。
第二步: 定义多重反应分析的变量集的名称并附上名称标签。在 Name(名称)框是输入多项选择题变量集的名称,项目2命名为“ GCJCYXYS”。在Lable(标签)框是多项选择题变量集定以一个名称标签,项目2用的是“购车决策影响因素”。
第三步:单击Add钮,将定义完成的“变量集”填加到“多选集”( Multiple Response sets)中,此时
变量集名前自动添加了集符号“$“(如:$GCJ-CYXYS)。Mult Response Sets框是存放已定义好的多项选择题变量集的列表,在此框中可定义多个,它左侧的三个按钮Add、Change和Remove,分别用于添加、修改和移出变量集的定义。
第四步:最后单击Close按钮,相应的多项选择题变量集就定义完成了。
在SPSS统计软件中的多重反应分析过程(Multiple Response),最多可以定义20个多项选择题变量集,对于一次问卷调查一般不会有超过20个的多项选择题,所以完全够用了。
多项选择题的分析
多项选择题的数据集合定义完成之后,就可以对数据进行分析。分析包括两种:频数分析和列联表分析。
1、频数分析过程
多项选择题的频数分析过程(Freqencies),只能通过 Multiple Response菜单里的Freqencies 过程实现,生成多项选择题的频数分析表比较简单。从菜单Analyze -Multiple Response -Freqencies进入。然后从Mult Response Sets框中将分析对象(本例如购车决策影响因素$GCJCYXYS)选入右边的 Table(s)for框,其他默认,单击OK钮,多项选择题的频数表就生成了。 如表3所示。在本次调查中,对170名受访者的调查结果为:在决策影响因素中,居于前三位的分别为:价格被选率最高29.4%,其次是油耗为20.2%,再次是品牌为18.0%。
2、列联表分析过程
多项选择题的列联表分析过程(Crosstabs),可以产生多重交叉列联表,而且可以对单元格进行很细致的分析。 包含总结汇报、文档下载、IT计算机、计划方案、外语学习、行业论文、专业文献、办公文档、教学研究以及Excel中自动完成方差齐性与非齐性t检验等内容。本文共2页
相关内容搜索出自 MBA智库百科()
正态分布(Normal distribution),也称高斯分布(Gaussian distribution)
  正态分布是一种。正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是遵从正态分布的的均值,第二个参数σ2是此随机变量的,所以正态分布记作N(μ,σ2 )。遵从正态分布的随机变量的概率规律为取
μ邻近的值的概率大
,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。它的形状是中间高两边低
,图像是一条位于x 轴上方的。当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
  正态分布是最重要的一种。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家Gauss率先将其应用于天文学家研究,故正态分布又叫高斯分布。高斯这项工作对后世的影响极大,他使正态分布同时有了“高斯分布”的名称,后世之所以多将的归之于他,也是出于这一工作。高斯是一个伟大的数学家,重要的贡献不胜枚举。但现今德国10的印有高斯头像的钞票,其上还印有正态分布的密度曲线。这传达了一种想法:在高斯的一切科学贡献中,其对人类文明影响最大者,就是这一项。在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。这要到20世纪正态小理论充分发展起来以后。很快得知高斯的工作,并马上将其与他发现的联系起来,为此,他在即将发表的一篇文章(发表于1810年)上加上了一点补充,指出如若误差可看成许多量的叠加,根据他的中心极限定理,误差理应有高斯分布。这是历史上第一次提到所谓“元误差学说”——误差是由大量的、由种种原因产生的元误差叠加而成。后来到1837年,海根(G.Hagen)在一篇论文中正式提出了这个学说。
  其实,他提出的形式有相当大的局限性:海根把误差设想成个数很多的、独立同分布的“元误差” 之和,每只取两值,其概率都是1/2,由此出发,按狄莫佛的中心极限定理,立即就得出误差(近似地)服从正态分布。皮埃尔-西蒙·拉普拉斯所指出的这一点有重大的意义,在于他给误差的正态理论一个更自然合理、更令人信服的解释。因为,高斯的说法有一点循环论证的气味:由于算术平均是优良的,推出误差必须服从正态分布;反过来,由后一结论又推出算术平均及的优良性,故必须认定这二者之一(算术平均的优良性,误差的正态性) 为出发点。但算术平均到底并没有自行成立的理由,以它作为理论中一个预设的出发点,终觉有其不足之处。拉普拉斯的理把这断裂的一环连接起来,使之成为一个和谐的整体,实有着极重大的意义。
  1、集中性:正态曲线的高峰位于正中央,即均数所在的位置。
  2、对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
  3、均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
  4、正态分布有两个参数,即均数μ和σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。σ越小,曲线越陡峭;σ越大,曲线越扁平。
  5、u变换:为了便于描述和应用,常将正态变量作数据转换。
  1.估计正态分布资料的
  例1.某地1993年了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,
  ①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;
  ②分别求、、范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。
  本例,μ、σ未知但样本含量n较大,按式解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): u=\frac{X-\mu}{\sigma}
用样本均数和标准差S分别代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。其它计算结果见表-1。
  表-1:1100名18岁男大学生身高的实际分布与理论分布
  2.制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的。制定正常值范围时,首先要确定一批样本含量足够大的 “正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:
  (1)正态分布法:适用于正态或近似正态分布的资料。
  双侧界值:解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): \bar{X}\pm u_aS
单侧上界:,或单侧下界:解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): \bar{X}-u_aS
  (2)对数正态分布法:适用于对数正态分布资料。
  双侧界值:;单侧上界:解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): lg^{-1}(\bar{X}_{lgx}+u_{a}S_{lgx})
,或单侧下界:。
  常用u值可根据要求由表-2查出。
  (3)百分位数法:常用于资料以及资料中一端或两端无确切数值的资料。
  双侧界值:P2.5和P97.5;单侧上界:P95,或单侧下界:P5。
  表-2:常用u值表
参考值范围(%)单侧双侧
800.8421.282
901.2821.645
951.6451.960
992.3262.576
  3.正态分布是许多的理论基础:如t分布、F分布、解析失败 (PNG 转换失败; 请检查是否正确安装了 latex, dvips, gs 和 convert): x^2
分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、、的极限为正态分布,在一定条件下,可以按正态分布原理来处理。
  要观察某一属性的一组数据是否符合正态分布,可以有两种方法(目前我知道这两种,并且这两种方法只是直观观察,不是定量的):
  1:在spss(Statistical Package for the Social Sciences,即“”)里的基本功能里的统计功能里有对某个变量各个观测值的频数中可以选择绘制正态曲线。具体如下:Analyze-----Descriptive Statistics-----Frequencies,打开频数统计对话框,在里可以选择获得各种描述性的,如:均值、方差、分位数、、标准差等各种描述性统计量。在Charts里可以选择显示的图形类型,其中Histograms选项为柱状图也就是我们说的直方图,同时可以选择是否绘制该组数据的正态曲线(With norma curve),这样我们可以直观观察该组数据是否大致符合正态分布。如下图:
  从上图中可以看出,该组数据基本符合正态分布。
  2:正态分布的Q-Q图:在spss里的基本统计分析功能里的探索性分析里面可以通过观察数据的q-q图来判断数据是否服从正态分布。
  具体步骤如下:Analyze-----Descriptive Statistics-----Explore打开对话框,选择Plots选项,选择Normality plots with tests选项,可以绘制该组数据的q-q图。图的横坐标为改变量的观测值,纵坐标为分位数。若该组数据服从正态分布,则图中的点应该靠近图中直线。
  纵坐标为分位数,是根据分布函数公式F(x)=i/n+1得出的.i为把一组数从小到大排序后第i个数据的位置,n为。若该数组服从正态分布则其q-q图应该与理论的q-q图(也就是图中的直线)基本符合。对于理论的标准正态分布,其q-q图为y=x直线。非标准正态分布的斜率为样本标准差,截距为样本均值。
  如下图:
本条目对我有帮助146
&&如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请。
本条目相关文档
& 4页& 59页& 16页& 17页& 9页& 4页& 11页& 22页& 14页& 35页
本条目相关资讯
本条目由以下用户参与贡献
,,,,,,,,,,,.
(window.slotbydup=window.slotbydup || []).push({
id: '224685',
container: s,
size: '728,90',
display: 'inlay-fix'
评论(共3条)提示:评论内容为网友针对条目"正态分布"展开的讨论,与本站观点立场无关。
发表评论请文明上网,理性发言并遵守有关规定。
以上内容根据网友推荐自动排序生成

我要回帖

更多关于 正态性检验结果怎么看 的文章

 

随机推荐