spss中日期spss如何定义缺失值值

SPSS作业关于时间序列分析_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
SPSS作业关于时间序列分析
&&关于GDP和三个产业的时间序列分析
阅读已结束,下载文档到电脑
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩15页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢医学统计学——基于SPSS的缺失值分析之简单缺失值处理方法及缺陷
医学统计学——基于SPSS的缺失值分析之简单缺失值处理方法及缺陷
图文无关(配图,此文章图文无关,请谅解)前言相对于复杂的缺失值处理方法,此处的简单方法目的在于获得一个完整的数据集,然后对该数据进行预定的分析处理,如同缺失值根本不会发生一样。然而这种处理方式所得的结果往往存在不同程度的缺陷,除非该类处理方式建立在极具有说服力的特定假设(强假设)的基础上。简单缺失值处理方法有:完整数据集分析法,简单均数填补法,回归均数填补法,新类别法完整数据集分析法此方法直接剔除包含缺失值得观测,将剩余完整数据作为待分析的数据集进行统计分析。在实际的操作中,此方法仅对要纳入分析的变量缺失值所在的行或者观测个体进行剔除,分析的变量确实值所在的行则不受影响。我们以回归分析为例,说明该方法的缺陷。对于多元回归分析,往往需要进行不同模型之间的比较,如果解释变量中包含缺失值,且用完整数据及分析法处理,则回归分析结果会存在很大的问题。用该方法处理缺失值,要么采用不同的数据集拟合不同模型,要么采用相同的数据集(将全部缺失值所在的行同时删除,此时数据即将可能变得很小而失去其代表性)拟合不同模型。很明显,无论采取哪种处理方式,这样拟合的模型结果均不可靠。另外如果缺失值产生不是一个完全随机的方式,那么完整数据集分析法将会得出有偏差的参数估计值,导致无效的统计变量。简单均数填补法此方法是用变量的未缺失测量值的算术平均数直接代替改变了的全部缺失值,从而将数据集转化为完整数据集。此方法的缺陷显而易见。首先,如果缺失值所对应的变量为分类变量,该方法将无能为力。使用此方法处理后的数据集,将导致各类关联程度的指标(如回归系数)的估计值产生偏差,并且会在一定的程度上削弱存在于相应变量间的关联趋势,此外,应用此方法处理的数据集将导致得出错误的样本方差估计值(低估了方差的大小),从而得出错误的统计推断。回归均数填补法此方法的具体操作为:首先应用完整的数据集(剔除相关变量缺失值所在的那个观测个体)拟合某一包含缺失值变量的完整变量的回归方程,然后以此回归方程为基础,应用完整的处理的测量值计算缺失值所在位置的回归预测值(回归均数),并以该回归均数替换掉相应的缺失值,显而易见,此处的缺失值填补过程利用了多个变量间联合分布的有关信息。与简单均数填补法相比,在大多数情况下,回归均数填补法所得的填补值间的变异度往往过小,因此会对回归系数估计的精确度产生影响,从而导致统计推断结果的偏倚或错误。新类别法该方法是专门针对于存在分类变量下缺失值的一种简单处理方法。当某个分类变量中存在缺失值时,就将缺失值本身当做该变量的一个新的水平,即增加一个代表缺失值的新的类别。这样的额缺失值处理方式虽然简单,但它具有诸多不容忽视的缺陷。该方法所创建的新类别,会对数据分析结果产生一定的影响,而这种影响的大小取决于缺失值在各类别间的关系,重建新的类别的方法,会将本属于差别较大的类别的观测个体纳入到同一类别中,因此所得的数据分析结果将会存在极大的偏倚。此方法处理的分类变量,如果被用作分层变量对分析结果进行校正,那么作为解释因素的分类变量的效应将很难被正确估计。
本文仅代表作者观点,不代表百度立场。系作者授权百家号发表,未经许可不得转载。
百家号 最近更新:
简介: 最新和最有趣的科技信息
作者最新文章

我要回帖

更多关于 spss缺失值 的文章

 

随机推荐