1.1统计及其应用领域随堂测验
1、数据分析所用的方法可分为理论统计和应用统计。
2、推断统计是研究如何利用样本数据来推断总是那个题特征的统计方法。
1.2统计数据的类型随堂测验
1.3统计中的几个基本概念随堂测验
3、一项调查表明,在所抽取的1000个消费者中,他们每月在网上购物的平均消费是200元,他们选择在网上购物的主要原因是“价格便宜”。这里的参数是( )用来描述总体特征的概括性数字度量。
14、一家具制造商购买大批木材,木材不干会影响家具的尺寸和形状。家具制造商从每批货中随机抽取5块木材检验湿度,如果其中任何一块木材的湿度超过标准,就把整批货退回。这个问题中( )
16、2010年昆明市五华区城镇居民的人均可支配收入是截面数据。
17、1990年-2010年,昆明市五华区城镇居民的人均可支配收入是时间序列数据。
18、考试成绩可以分为不及格、及格、中、良、优,那么考试成绩是分类数据。
19、商品销售额为20万元、21万元、30万元等,这些数字是变量。
20、数据分析所用的方法可分为理论统计和应用统计。
21、推断统计是研究如何利用样本数据来推断总是那个题特征的统计方法。
22、统计运用大量观察法必须对所有的总体单位进行观察
1、一家大型油漆零售商收到了许多客户关于油漆罐分量不足的抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536kg。要求: 1、描述总体; 2、描述研究变量; 3、描述样本 4、描述推断
2、指出下面变量的类型: 1、年龄; 2、性别; 3、汽车产量; 4、员工对企业某项改革措施的态度(赞成、中立、反对); 5、购买商品时的支付方式(现金、信用卡、支票)
3、判断题(正确的打√,错误的打×) (1)2010年昆明市五华区城镇居民的人均可支配收入是截面数据。 (2)1990年-2010年,昆明市五华区城镇居民的人均可支配收入是时间序列数据。 (3)考试成绩可以分为不及格、及格、中、良、优,那么考试成绩是分类数据。 (4)商品销售额为20万元、21万元、30万元等,这些数字是变量。
4、填空题(每空5分) (1)总体是包含所研究的 的集合,它通常由所研究的 组成。 (2)样本是从 中抽取的一部分元素的集合,构成样本的元素的数目称为 。 (3) 是用来描述总体特征的概括性数字度量。 (4)统计量是 的函数。 (5)抽样的目的是根据 去估计 。 ( 40分 )
第2章 数据的图表展示
(1)对这50名学生的经济学考试成绩进行分组并将其整理成频数分布表。 (2)用茎叶图将原始数据表现出来。
第3章 数据的概括性度量
数据的概括性度量-单元测试
15、如果一组数据不是对称分布的,根据切比雪夫不等式,对于k=2,其意义是( )
16、如果一组数据不是对称分布的,根据切比雪夫不等式,对于k=3,其意义是( )
17、如果一组数据不是对称分布的,根据切比雪夫不等式,对于k=4,其意义是( )
数据的概括性度量-作业
1、1 简答题 1、某公司下属两个企业生产同一种产品,其产量和成本资料如下: 基期 报告期 单位成本(元) 产量(吨) 单位成本(元) 产量(吨) 甲企业 乙企业 600 700 0 700 合计 660 0 试问:报告期与基期相比,该公司下属各企业单位成本都没有变化,但该公司总平均成本却下降了20元,这是为什么?
3、下面是甲地区空气质量指数(0~50表示良好,50~100表示适中)的一组数据:28,42,58,48,45,55,60,49,50。 (1)计算全距(R=最大标志值-最小标志值)、方差和标准差; (2)已知同期观察到的乙地区空气质量指数的平均数为48.5,标准差为11.66,试对两地区的空气质量作出比较。
4、某一牧场主每年饲养600头牛。现在有人向他推荐一种个头较小的改良品种牛,每头牛吃草量较少,这样在原来同样面积的牧场上可以多养150头牛。饲养原品种牛和改良品种牛的利润如下: 净利润(元/头) 原品种牛 改良品种牛 频数 频率(%) 频率(%) –200 36 6 1 0 12 2 2 200 185 31 57 400 367 61 40 合计 600 100 100 (1)牧场主应该选择哪一种品种?为什么? (2)改良品种牛的利润和频率可能与上表的计算值有差异。当饲养改良品种牛的利润有什么变化时,牧场主会改变他在(1)中所做的选择?
第4章 概率与概率分布
6、掷一枚硬币,观察其出现的是正面还是反面,并将事件A定义为:事件A=出现正面,这一事件的概率记作P(A)。则概率P(A)=1/2的含义是( )。
1、1、写出下列随机事件的基本空间: (1)抛三枚硬币; (2)把两个不同颜色的球分别放入两个格子; (3)灯泡的寿命(单位:小时); (4)某产品的不合格率(%); (5)记录某班一次统计学测验的平均分数。
3、离散型随机变量和连续型随机变量的概率分布的描述有哪些不同?连续型随机变量的概率密度与分布函数之间是什么关系?
(1)有2个到5个(包括2个与5个在内)空调器出现重要缺陷的可能性; (2)只有不到2个空调器出现重要缺陷的可能性; (3)有超过5个空调器出现重要缺陷的可能性。
第5章 统计量及其抽样分布
统计量及其抽样分布-单元测试
8、某大学的一家快餐店记录了过去5年每天的营业额,每天营业额的均值为2 500元,标准差为400元。由于在某些节日的营业额偏高,所以每日营业额的分布是右偏的,假设从这5年中随机抽取100天,并计算这100天的平均营业额,则样本均值的抽样分布是( )。
10、在一个饭店门口等待出租车的时间是左偏的,均值为12分钟,标准差为3分钟。如果从饭店门口随机抽取100名顾客并记录他们等待出租车的时间,则该样本均值的分布服从( )。
1、调节一个装瓶机,使其对每个瓶子的罐装量均值为盎司,通过观察发现这台装瓶机对每个瓶子的罐装量服从标准差、盎司的正态分布。随机抽取由这台机器罐装的9个瓶子组成一个样本,并测定每个瓶子的罐装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。
2、95%的置信水平是指( )。
B、在用同样方法构造的总体参数的多个区间中,包含总体参数的区间比例为95%
D、在用同样方法构造的总体参数的多个区间中,包总体参数的区间比例为5%
11、估计量是用来估计总体参数的估计量的名称。
12、估计量是用来估计总体参数的统计量的具体数值。
13、在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量的标准之一是使它与总体参数的离差越小越好。这种评价标准称为无偏性。
14、在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量的标准之一是使它与总体参数的离差越小越好。这种评价标准称为有效性。
15、在参数估计中,要求通过样本的统计量来估计总体参数,评价统计量的标准之一是使它与总体参数的离差越小越好。这种评价标准称为一致性。
16、无偏估计是指所有可能样本估计值的数学期望等于待估总体参数
17、无偏估计是指样本估计值围绕待估总体参数使其误差最小
18、当样本量一定时,置信区间的宽度随着置信系数的增大而增大
19、当样本量一定时,置信区间的宽度与置信系数的大小无关
1、什么是置信区间?说明置信区间对应的置信度的含义。
2、假设0.5、1.25、0.8、2.00是来自总体X的一组观测值,已知服从正态分布。(每小题10分) (1)求X的数学期望(记为b); (2)求的置信度为0.95的置信区间; (3)利用上述结果求b的置信度为0.95的置信区间。
10、设为检验统计量的计算值,总体方差已知,检验的假设为,当时,计算出的P值为(
13、拒绝原假设说明原假设是错误的。( )
14、犯第I类错误的概率大小就等于显著性水平的大小,即等于α;犯第II类错误大小的概率为β=1-α。( )
15、假设检验的基本思想可以利用小概率事件原理来解释。( )
16、在总体方差未知情况下进行均值检验,一定要用t统计量。( )
17、所谓小概率原理是指发生概率很小的事件,在试验中不可能发生。( )
18、在进行假设检验时,只要总体服从正态分布,则应该使用z检验统计量。( )
19、为了解学生参加英语培训是否能提高考试成绩,对某高校学生培训前后的英语成绩进行检验,这属于配对样本的检验。( )
1、简述假设检验的一般步骤及主要特点。
2、根据去年的调查,某城市一个家庭每月平均耗电32度,全部家庭月耗电度数服从正态分布。为了确定今年家庭平均每月耗电量有否提高,随机抽查100个家庭,统计结果为今年耗电量平均为34.25度,标准差为10度。当α=0.05时,你能得出什么结论?(理论值)
1、“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、体育明星的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。则说法正确的是( )
2、对由实验或调查而得到的数据进行登记、审核、整理、归类,计算出各种反映总体数量特征的综合指标,并加以分析,从中抽出有用的信息,用表格或图形表示出来。这种方法属于( )
4、一家公司在招收职员时,首先要通过两项能力测试。在S项测试中,其平均分数是125分,标准差是50分;在M项测试中,其平均分数是400分,标准差是25分。一位应试者在S项测试中得了150分,在M项测试中得了425分。与平均分数相比,这位应试者的哪一项测试更为理想( )?
12、参数和统计量是没有区别的。( )
13、对连续大量生产的某种小件产品进行质量检验,最恰当的调查方法是全面调查。( )
14、概率密度曲线位于X轴的上方并且与X轴之间的面积为1。( )
15、设事件A发生的概率为1/10,则试验10次,该事件必然发生1次。( )
16、泊松分布的数学期望与方差相等。( )
17、概率的基本法则是,如果一个给定事件的所有可能性都相同,那么某个特定结果出现的概率等于1除以所有可能性的个数。
18、如果一个样本因人故意操纵而出现偏差,这种误差属于抽样误差。
19、对某家公司进行审计,该公司年度内的所有发票是55400张,审计人员从中随机抽查了100张发票进行审查,发现有2张发票有差错。则总体是100张发票,样本是2张发票。( )
21、算术平均数易受极大值影响,而调和平均数易受极小值影响。
22、环形图适合比较研究两个或多个总体或结构性问题。
23、研究人员根据对研究对象的了解有目的的选择一些单位作为样本,这种调查方式是自愿抽样。
24、某居民小区准备采取一项新的物业管理措施,为此,随机抽取了100户居民进行调查,其中表示赞成的有69户,表示中立的有22户,表示反对的有9户。描述该组数据的集中趋势宜采用四分位数.
25、系统抽样不属于概率抽样。
26、两组数据的平均数不等,但标准差相等,则平均数大的,离散程度大。
27、在比较两组数据的离散程度时,不能直接比较它们的标准差,因为两组数据的计量单位不同。
28、如果计算每个数据与平均数的离差,则这些离差的和总是等于零。
29、对某个高速路段驶过的120辆汽车的车速进行测量后发现,平均车速是85千米/小时,标准差是4千米/小时,98千米/小时可以看作异常值。
30、在某公司进行的计算机水平测试中,新员工的平均得分是80分,标准差是5分,中位数是86分,则新员工得分的分布形状是右偏的。
1、某一牧场主每年饲养600头牛。现在有人向他推荐一种个头较小的改良品种牛,每头牛吃草量较少,这样在原来同样面积的牧场上可以多养150头牛。饲养原品种牛和改良品种牛的利润如下: 净利润(元/头) 原品种牛 改良品种牛 频数 频率(%) 频率(%) –200 36 6 1 0 12 2 2 200 185 31 57 400 367 61 40 合计 600 100 100 (1)牧场主应该选择哪一种品种?为什么? (2)改良品种牛的利润和频率可能与上表的计算值有差异。当饲养改良品种牛的利润有什么变化时,牧场主会改变他在(1)中所做的选择?
2、设随机变量X,其中,n>1,令,请给出Y服从什么分布。
3、指出下列分布中参数所表示的意义,并指出参数的取值范围。 (1)二点分布 (2)泊松分布 (3)正态分布
4、随机抽取25个网络用户,得到他们的年龄数据如表所示。 要求: (1)计算众数、中位数。 (2)计算平均数和标准差。 (3)计算偏态系数和峰态系数。 (4)对网民年龄的分布特征进行综合分析。
3、一位教授计算了全班20个同学考试成绩的均值、中数和众数,发现大部分同学的考试成绩集中于高分段,下面哪句话不可能是正确的?( )
9、掷一枚硬币,观察其出现的是正面还是反面,并将事件A定义为:事件A=出现正面,这一事件的概率记作P(A)。则概率P(A)=1/2的含义是( )。
10、一家公司在招收职员时,首先要通过两项能力测试。在S项测试中,其平均分数是125分,标准差是25分;在M项测试中,其平均分数是400分,标准差是50分。一位应试者在S项测试中得了150分,在M项测试中得了425分。与平均分数相比,这位应试者的哪一项测试更为理想( )?
31、第二手数据可以通过抽样调查获得。( )
32、对某家公司进行审计,该公司年度内的所有发票是55400张,审计人员从中随机抽查了100张发票进行审查,发现有2张发票有差错。则总体是100张发票,样本是2张发票。( )
33、众数是总体中出现最多的次数。( )
34、当数据呈高度偏态时,中位数比算术平均数更具有代表性。
35、甲地职工工资的标准差为20元,乙地职工工资的标准差为18元,所以甲地职工工资的差异程度一定大于乙地。( )
36、茎叶图类似于横置的直方图,两者既能给出数据的分布状况,又能给出每一个原始数值。( )
37、概率的基本法则是,如果一个给定事件的所有可能性都相同,那么某个特定结果出现的概率等于1除以所有可能性的个数。( )
38、在一定的抽样平均误差条件下,扩大极限误差范围,可以提高推断的可靠程度。( )
39、在其他条件不变的情况下,提高抽样估计的可靠程度,其精确程度将随之扩大。( )
40、估计量是指用来估计总体参数计算出来的统计量的具体数值。( )
41、参数和统计量是没有区别的。( )
42、当正态总体方差已知时,在小样本情况下可以用正态分布对总体均值进行估计。( )
43、一个无偏估计量意味着它非常接近总体的参数。( )
44、所谓小概率原理是指发生概率很小的事件,在试验中不可能发生。( )
45、在总体方差未知情况下进行均值检验,一定要用t统计量。( )
46、拒绝原假设说明原假设是错误的。( )
47、在进行假设检验时,只要总体服从正态分布,则应该使用z检验统计量。( )
1、1997年我国几个大城市各月份的平均相对湿度箱线图,如下图所示: 试分析各城市平均相对湿度的分布特征。
2、一项关于大学生体重状况的研究发现,男生的平均体重为60kg,标准差为5kg;女生的平均体重为50kg,标准差为5kg。请回答下面的问题: (1)是男生的体重差异大还是女生的体重差异大?为什么? (2)以磅为单位(1kg=2.2磅),求体重的平均数和标准差。 (3)粗略地估计一下,男生中有百分之几的人体重在55kg~65kg之间? (4)粗略地估计一下,女生中有百分之几的人体重在40kg~60kg之间?
3、请说明什么是泊松分布,给出泊松分布的公式及期望、方差;举两个生活中泊松分布的例子,并说明泊松分布与二项分布的关系。
4、酒店房价收到很多因素的影响,为了分析影响酒店房价的因素有哪些,以北京高端酒店的数据为例,进行影响因素分析。现用年北京高端酒店的数据,共566条数据进行分析。现为了考察综合评分与房价之间的关系,先绘制二者散点图(图1),然后将综合评分分为低分和高分两大类别,其中低分为评分低于4.5分,4.5及以上为高档,绘制的箱线图如图2所示。 图1 图2 请回答,你会选择图1还是图2来表现综合评分和房价之间的关系,并说明理由。
2015年统计学基本概念
1.概念:聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上
的亲疏程度进行分类。或者说,聚类分析就是要出具有相近程度的点或类聚为一类;
距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:
2.步骤:应用系统聚类法进行聚类分析的步骤如下:
①确定待分类的样品的指标;
③对数据进行变换处理(如标准化或规格化);
④使各个样品自成一类,即n个样品一共有n类;
⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类;
⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品
⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。
(一)ARMA模型三种基本形式:自回归模型(AR:Auto-regressive),移动平均模型(MA:
由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一著名时间序列预测方法,所以又称为
box-jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)称为差分自回归移动平均模型,
AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所
ARIMA模型的基本思想
ARIMA模型的基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,
用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值
及现在值来预测未来值。现代统计方法、计量经济模型在某种程度上已经能够帮助企业对未
ARIMA模型预测的基本程序
(1)根据时间序列的散点图、自相关函数和偏自相关函数图以ADF单位根检验其方差、趋
势及其季节性变化规律,对序列的平稳性进行识别。一般来讲,经济运行的时间序列都不是
(2)对非平稳序列进行平稳化处理。如果数据序列是非平稳的,并存在一定的增长或下降
趋势,则需要对数据进行差分处理,如果数据存在异方差,则需对数据进行技术处理,直到
处理后的数据的自相关函数值和偏相关函数值无显著地异于零。
(3)根据时间序列模型的识别规则,建立相应的模型。若平稳序列的偏相关函数是截尾的,
而自相关函数是拖尾的,可断定序列适合AR模型;若平稳序列的偏相关函数是拖尾的,而
自相关函数是截尾的,则可断定序列适合MA模型;若平稳序列的偏相关函数和自相关函数
均是拖尾的,则序列适合ARMA模型。
(4)进行参数估计,检验是否具有统计意义。
(5)进行假设检验,诊断残差序列是否为白噪声。
(6)利用已通过检验的模型进行预测分析。
白噪声(Whitenoise):白噪声一个平稳的随机过程满足下列条件的随机过程称为白噪声,
注:所谓时间序列的平稳性,是指时间序列的统计规律不会随着时间的推移而发生变化。直
观上,一个平稳的时间序列可以看作一条围绕其均值上下波动的曲线。根据平稳时间序列分
析的理论可知,当时,该序列{Yt}是平稳的,此模型是经典的Box-Jenkins时间序列AR(1)
因此,检验序列的非平稳性就变为检验特征方程是否有单位根,这就是单位根检验方法的由
时间序列的非平稳性:是指时间序列的统计规律随着时间的位移而发生变化,即生成变量时
间序列数据的随机过程的特征随时间而变化。
DF检验:统计学家Dickey、Fuller得到DF检验的临界值,并编制了DF检验临界值表供查。
在进行DF检验时,比较t统计量值与DF检验临界值,就可在某个显著性水平上拒绝或接受
的模型时,假设随机扰动项不存在自相关。但大多数的经济数据序列是不能满足此项假设的,
当随机扰动项存在自相关时,直接使用DF检验法会出现偏误,为了保证单位根检验的有效
DF和ADF检验的步聚:
计算在原假设成立的条件下t统计量值,查DF检验临界值表得临界值,然后将t统计量值
与DF检验临界值比较:
若t统计量值小于DF检验临界值,则拒绝原假设,说明序列不存在单位根;说明是平稳序
若t统计量值大于或等于DF检验临界值,则接受原假设,说明序列存在单位根;有单位根
4.如果该特征方程的所有根在单位圆外(根的模大于1),则AR(p)模型是平稳的。特征根z=1/j,
四、描述性统计与推断统计学
1.描述性统计学是指研究如何取得反映客观规律的数据,并通过图表形式对所收集的数据进
行加工处理和显示,进而通过综合、概括与分析得出反映客观现象的规律性数量特征。其内
容包括数据收集方法,数据的加工处理方法、数据显示方法,数据分布特征的概括与分析、
2.推断统计学。是指研究如何根据样本数据去推断总体数量的特征的方法,它是在对样本数
据进行描述的基础上,对统计总体的未知数量做出以概率的形式表述的推断(既利用样本信
息和概率论对总体的数量特征进行估计和检验)。
统计数据它是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类
型的统计数据。可以将统计数据分为以下四种类型:
定类数据——表现为类别,但不区分顺序,是由定类尺度计量形成的。例如将国民经济按其
经济类型,可以分为国有经济、集体经济、私营经济、个体经济等类,并用(01)代码表示
国有经济,(02)表示集体经济,(03)表示私营经济,(04)表示个体经济。
定序数据——表现为类别,但有顺序,是由定序尺度计量形成的。定序尺度不但可以用数表
示量的不同类(组)别,而且也反映量的大小顺序关系,从而可以列出各单位、各类(组)
的次序。这种尺度的主要数学特征是“>”或“
优等品、一等品、合格品等等。
定距数据——表现为数值,可进行加、减运算,是由定距尺度计量形成的。它不仅能将事物
区分为不同类型并进行排序,而且可以准确地指出类别之间的差距是多少。例如,学生某门
课程的考分,可以从高到低分类排序,形成90分、80分、70分,直到零分的序列。它们不
仅有明确的高低之分,而且可以计算差距,90分比80分高10分,比70分高20分等等。
定距尺度的计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算,
定比数据——表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形成的。
前两类数据说明的是事物的品质特征,不能用数据表示,其结果均表现为类别,也称为定性
数据或品质数据(Oualitativedata);后两类数据说明的是现象的数量特征,能够用数值来表
现,因此也称为定量数据或数量数据(Quantitativedata)。由于定距尺度和定比尺度属于同
一测度层次,所以可以把后两种数据看作是同一类数据,统称为定量数据或数值型数据。
区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用不同的统计方法
来处理和分析。比如,对定类数据,通常计算出各组的频数或频率,计算其众数和异众比率,
进行列联表分析和x2检验等;对定序数据,可以计算其中位数和四分位差,计算等级相关
系数等非参数分析;对定距或定比数据还可以用更多的统计方法进行处理,如计算各种统计
量、进行参数估计和检验等。我们所处理的大多为数量数据。
这里需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次的测量数据,
因为后者具有前者的数学特性。比如:在描述数据的集中趋势时,对定类数据通常是计算众
数,对定序数据通常是计算中位数,但对定距和定比数据同样也可以计算众数和中位数。反
之,适用于高层次测量数据的统计方法,则不能用于较低层次的测量数据,因为低层次数据
不具有高层次测量数据的数学特性。比如,对于定距和定比数据可以计算平均数,但对于定
类数据和定序数据则不能计算平均数。理解这一点,对于选择统计分析方法是十分有用的。
六、数据的分布特征与测度
(一)集中度测度:是指一组数据向某一中心值靠拢的倾向。
1.定类数据的测度指标:众数(mode):是指一组数据中出现次数最多的变量值。用MO表
2.定序数据的测度指标:中位数(median):处于中间位置上的变量值,用ME表示。
3.定距数据和定比数据的测度指标:均值(mean):它在统计学具有重要地位,是集中度测
(1)当三者相等时,表示数据分布是对称分布的;
(3)当均值>ME>MO表示左偏或正偏分布。
在实际利用统计软件中,常常看偏态值(Skewness)来判断数据的偏态方向。
当偏态值=0时,表示对称分布;
当偏态值>0表示正偏;
同时为了得到数据分布集中趋势的高峰的形状,还需要另一个指标:峰度(Kurtosis),若分
布形状比正态分布还要高则称为尖峰分布,若比正态分布更矮则表示平峰分布。
判断准则:由于正态分布的峰度系数等于3,所以当峰度(Kurtosis)>3,表示尖峰分布,当
在E-VIEWS软件中,JB统计量值用来检验观测值是否服从正态分布,统计量的公式,它服
从,其中n为样本容量,S为偏态值,K为峰度值,在此假设检验中,原假设H0:变量服从
H1:变量不服从正态分布,
当P值大于0.05时,则接受原假设,否则拒绝原假设。
(二)离散程度的测度:它反映的是各变量运离中心值的程度。
1.定类数据的离散程度的测度指标:异众比率(Variationration),是指非众数组的频数占总
2.定序数据的离散程度的测度指标:四分位差。
3.定距和定比数据的测度指标:方差和标准差,还有极差
离散系数(Coefficientofvatiation):对于平均水平不同或计量单位不同的不同组别的变量值,
是不能用方差和标准差、极差等测度值进行比较的,为削除变量值水平高低和计量单位的不
同对离散程度的影响,引入了离散系数
,它标准差与均值的之比。离散系数
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。由于信用指标体系的各个
指标度量单位是不同的,为了能够将指标参与评价计算,需要对指标进行规范化处理,通过
函数变换将其数值映射到某个数值区间。一般常用的有以下几种方法。
1.统计标准化:z-score规范化也称零-均值规范化:它是最广泛的使用方法,计算公式为:
其中Xi是原值,是均值,是标准差。
2.极值标准化(rang):=
3.定基与环比转换:此种方法主要用于构造时间序列指数的指标转换。
权重的构造方法一般有两种,一是主观构权法:它是指根据研究者的主观判断来指定指标权
另一种方法是客观构权法,它是指根据原始信息通过数学或统计方法处理后获得的权数的一
种方法,具体有:主成成分分析法、因子分析法、相关法、回归法。
九、特征值(eigen)
应用:1.在多个变量之间计算其协整关系,其检验就要用到特征值。
2.时间序列平稳性的理论识别条件。
统计学中,假设检验是对我们所关心的却又是未知的总体参数先作出假设,然后抽取样本,
利用样本所提供的信息对假设的正确性进行判断的过程。
1.提出假设(原假设和备择假设)。假设检验实践中,大家都在执行这样一个原则:把最关
心的问题作为原假设提出,从而将后果较严重的错误放在α上,事先加以控制。
2.确定检验统计量一般来说,检验统计量的计算公式是=
4.计算统计量:其基本计算公式是
式中,为样本均值,为被假设的参数值,为总体标准差,n为样本容量。
根据显著性水平和统计量的分布查出临界值,用计算出来的检验统计量与临界值进行比较。
决策规则:当计算出来的统计量>大于临界值,则拒绝原假设,接受备择假设。
(二)假设检验的基本思想
就是利用了小概率原理,它是指发生概率的很小的随机事件在一次实验中是几乎不可能发生
(三)双侧检验和单侧检验
1.双侧检验:一般形式H0:=某一数值表示没有显著差异
H1:某一数值表示有显著差异
决策规划就是:若统计量,则接受H0,拒绝H1
,则拒绝H0,接受H1
2.左则检验。如果希望考察的值越大越好,其一般形式是
决策规划就是:则接受H0,拒绝H1
,则拒绝H0,接受H1
3.右则检验:如果希望考察的值越小越好,则用右则检验。一般形式是:
决策规划与左则检验的决策规划是一样的。
(四)一个正态总体的参数检验
1.总体方差已知的均值检验。因为知道了总体方差,此时就用Z检验统计量
2.总体方差未知的均值检验,因为不知道总体方差。此时,不能用Z检验统计量,此时需要
用样本方差替代,用服从自由度n-1的T分布,其计算公式是
(在计量经济学,系数显著性与此不一样)
(五)两个正态总体的参数检验。也称为两个均值差异的显著性检验——T检验。
T检验通常用于比较两个均值是否相同,或者说两个均值之差是否等于0以此推断两个样本
是否来自同一个样本,或者两个样本是否存在显著差异。
5.1.独立样本的T检验
目的思想:按随机原则确定的两个相互独立的样本,然后检验两个样本的平均值是否存在显
著差异,并借此推断两个样本是否所属的总体。
(1)样本是正态性的。
(2)方差齐性。方差齐性检验用“Levene~stestfor”.其原假设是:方差非齐性;
5.2配对样本的T检验
目的思路:适用于只有两个处理水平的单因素随机区设计,然后判断他们是否存显著差异。
(六)假设检验中的P值
当原假设为真时,样本可能结果不低于实际观测值(右侧检验),或不高于实际观测结果(左
侧检验)的概率。或简单地概括为:当原假设为真时,却拒绝的概率;或者说是犯第一类错
当P>显著性水平时,则接受原假设,拒绝备择假设
概括地说,当P值非常小时,则拒绝原假设,接受备择假设,当P值较大时,则接受原假设,
拒绝备择假设。所以,在假设检验时,要注意原假设和备择假设。
事实上,P值可以提供更多的信息,不仅可以用P值与规定的显著性水平比较进行检验决策,
而且P值显示了样本值在一定范围内出现的概率。在统计软件SPSS中,sig就是P值。
检验数据的分布是否正态性一般有三种方法,一是残差直方图(HistogramofResiduals),它
是一种粗略但灵活方便的方法。
二是正态概率图(ormalprobabilityplot)是专门研究随机变量的概率密度的函数的形状。
三是雅克—贝拉检验(Jarque-beratest):其计算公式是:
其中,S代表偏态,K代表峰度,代表样本容量。对于正态分布来说是偏态等于0,且峰
判断方法,如果一项应用中算出来的统计量的P值很小,说明数据非正态分布,如果P较大,
就可以认为是正态分布。
(八)原假设和备择假设设置原则与各类设置集
在各类假设检验中,弄清楚原假设和备择假设是至关重要的,如果弄反了往往会得出相反的
结论。在假设检验中,把需要通过样本去推断其正确与否的命题称为原假设,一般的原则是::
H0:两者之间没有显著差异
H1:两者之间有显著差异。
H0:两个样本同属于一个总体,即没有显著差异
H1:两个本不属于同一个总体,即存在显著差异。
值与偏相关系数值的一个指标,其值愈逼近1,表明对这些变量进行因子分析的效果愈好。
一般认为KMO检验值大于0.5就可以进行因子分析。kmo值越大,因子的贡献率也就越高。
其与KMO检验是一样的,都是用来判断是否可以做因子分析
H0:相关矩阵是单位阵(说明不可做因子分析)
H1:相关矩阵是非单位阵(说明可以做因子分析)
在SPSS中,关于相关分析在三个选项:n积差相关系数;l`stau-b;an
H0:相关系数为0(即不相关)
H1:相关系数不为0(即存在相关)
6.单位根方法(ADF检验)
在此检验中,H0:=1,即时间序列是非平衡的。
其原假设是不存在自关,即H0:=0
H0:数据分布是正态的
H1:数据分布是非正态的
基本功能:检验样本所在总体的均值是否与已知的总体相同,用以判断样本与总体是否存在
显著差异,或者样本是否来自总体。
H0:样本与总体没有显著差异
H2:样本与总体有显著差异
(一)概念与基本原理:
在实际问题中,经常对两个以上的正态总体进行均值比较,即检验两个样本是否取自同一总
体。方差分析是对多个总体均值是否相等这一假设进行检验。这一检验要思想就是对TSS进
行分解分析。可以说,T检验是方差分析的一个特例。
方差分析所使用的检验统计量是F统计量,它是方差估计值之比。这里不是根据用途而是根
2.在方分析中,常用F统计量=组间方差/组内方差。一般来说F越大越好,越大说明拒绝原
其中,K代表自变量(独立变量)个数(independent),代表样本个数。因变量也称被解
1.基本思想:就是研究单个因素(Factor)是否对被解释变量(dependen)产生影响。
2.前提假设:数据的正态性、方差齐性和数据独立性。
第三步:计算总样本均值
第五步:计算总体方差的组间估计
第六步:计算总体方差的组内估计
第八步:编制方差分析表
[One-WayAOVA]主对话框,然后设置因变量和因素。
(三)单因素分析中的多重分析
若想进一步了解哪些两个总体均数不等,需进行多个样本均数间的两两比较或称多重比较
基本思想:例子:如果分析颜对饮料销售量有无影响,则属于单因素分析。如果进一步分
析颜中哪一个颜(黄、红、粉等)对销售量的影响最大,则需要进行多重比较分
析。最常用的方法就是最显著性差异法(LSD)。假设检验也常用T检验。
基本思想:对两个因素对因变量的影响程度进行分析,称为双因素分析。
实际上这些计算用SPSS是十分容易解决的。因此读者完全没有必要去记表中繁琐的公式,
只需掌握其主要思想并学会应用SPSS就可以了。
第二步:计算样本均值和总样本值
第三步:计算离差平方和
第六步:编制双因素方差分析表
在SPSS中的实现方法
左侧的变量列表中设定因变量,单击按钮使之进入[DependentList]框,再选定变量自因变量,
可以做多应变量方差分析,RepeatedMeasure...可以做重复测量方差分析,等等
十二、统计学中的常用概念
1.均值(算术平均数Arithmeticmean),在计算公式中一般用表示。均值在统计学中具有重
要的地位,它是进行统计分析和统计推断的基础,首先从统计思想上看,它是一组数据的重
心所在,其次均值具有一些重要数学性质。
(1)各变量值与其均值的离差这和等于0
(2)各变量值与其均值的离差平方和(即方差)最小,即
3.方差和标准差:方差就是各变量值与其均值的离差平方和,它是测度离散程度的主要方法,
方差越大说明数据波动程度越大或离散程度越高,方差越小说明数据集中度越高。方差分为
总体方差和样本方差,标准差也分为总体标准差和样本标准差。
总体方差(在方差分析中称为TSS)和标准差
令X和Y为两个随机变量,其均值是和,于是协方差的定义为
可见,协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的
两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。所以又引入的相关系数
的概念。其计算公式是:
4.数学期望:又称期望或均值,是平均数的一种推广。是随机变量按概率的加权平均,表征
其概率分布的中心位置,即用以测量数据的平均水平或集中程度。
(1)离散随机变量X的期望值E(X)
(2)连续随机变量X的期望值E(X)
5.残差:表示实际观察值与估计值之差。
6.总离差平方和(TSS):
7.残差平方和(RSS):ESS反映样本观测值与估计值偏离的大小,
8.解释平方和(ESS)(ExplainedSumofSquares),反映由模型中解释变量所解释的那部分离
9.众数(MODE):众数是一组数据中出现次数最多的变量值。主要用于分类数据,也可用于
顺序数据和数值型数据。
10.中位数(Median):中位数是一组数据按一定顺序排列后,处于中间位置上的变量值。
11.平均差(Md):是各单位实际值对其算术平均数的离差绝对值的算术平均数,反映的是各
标志值与其平均数的平均差异程度。
12.均方(meansquare):(与标准差是同一个概念)平方和除以对应的自由度。这个量用
于F比以判断均值之间是否有显著差异。
一种均值相等性的检验方法。
十三、计量经济学中常用统计量
许多统计分析方法的应用对总体有特殊的要求,如t检验要求总体符合正态分布,F检验要
求误差呈正态分布且各组方差整齐,等等。这些方法常用来估计或检验总体参数,统称为参
但许多调查或实验所得的科研数据,其总体分布未知或无法确定,这时做统计分析常常不是
针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数统计
(一)单样本配合度检验Chi-Square
基本功能:调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于配合度检验,主
要用于分析实际频数与某理论频数是否相符。(SPSS中自带了一个例子:),
H0:实际频数与理论频数没有显著差异
H1:实际频数与理论频数有显著差异
(二)二项分布(Binomal)
基本功能:适用于二分变量时的情况,常需要检验一个事件在特定的条件下发生的概率是否
与已知结论相同,如某地区出生的婴儿的性别比例与通常男女各半的结论是否相符,在这个
H0:特定事件与特定结论没有显著差异
H1:特定事件与特定结论有显著差异
例如:某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。
问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同?
(三)RU检验(游程检验)
基本功能:用于一个变量的两个值的出现顺序是否随机。
依时间或其他顺序排列的有序数列中,具有相同的事件或符号的连续部分称为一个游程。调
用Runs过程可进行游程检验,即用于检验序列中事件发生过程的随机性分析。
H0:数据是随机出现的
称为:单样本柯尔莫哥诺夫—斯米尔诺夫检验柯尔莫哥诺夫—斯米尔诺夫检验。
基本功能:调用此过程可对单样本进行Kolmogorov-SmirnovZ检验,它将一个变量的实际频
数分布与正态分布(ormal)、均匀分布(Uniform)、泊松分布(Poisson)进行比较。
零假设H0:经验分布与理论分布没有显著差别。
H1:经验分布与理论分布有显著差别
基本功能:当总体分布不清楚时,可检验两个随机样本是事来自同一总体。
H0:两个独立样本来自相同的总体(两个样本没有显著差异)
H1:两个独立样本来自不同的总体(两个样本没有显著差异)
H0:多个独立样本来自相同的总体(两个样本没有显著差异)
H1:多个独立样本来自不同的总体(两个样本没有显著差异)
基本功能是:当总体分布不清楚时,检验两个相关样本是否来自同一总体。与参数检验中的
H0:两个相关样本来自相同的总体(两个样本没有显著差异)
H1:两个相关样本来自不同的总体(两个样本没有显著差异)
基本功能是:当总体分布不清楚时,检验多个相关样本是否来自同一总体。
H0:多个相关样本来自相同的总体(两个样本没有显著差异)
H1:多个相关样本来自不同的总体(两个样本没有显著差异)
十五、几种重要检验统计量
于回归平方和ESS是解释变量X联合体对被解释变量Y的线性作用的结果,所以,如果ESS/RSS
的比值较大,则X的联合体对Y的解释程度高,可认为总体存在线性关系,反之总体上可能
其中K代表变量个数,代表样本容量,记为则该统计量服从自由度为(k,n-k-1)的F分
因此F值有时也叫均方差比,即F=不能解释的均方差/可以解释的均方差
在统计学上,这个假设检验的假设原理是:
H0:μ1=μ2=μ3,即它们不存在显著差别。
H1:μ1≠μ2≠μ3它们不完全相等,即总体均值之间存在差异。
在统计学中,统计量常用于列联表中变量之间是否相关的检验,特别适用于两个定类变量之
间是否相关的检验。卡方检验是对样本的频数分布所来自的总体分布是否服从某种理论分布
或某种假设分布所作的假设检验。即根据样本的频数分布来推断总体的分布。它属于自由分
布的非参数检验。它可以处理一个因素分为多种类别,或多种因素各有多种类别的资料。所
以,凡是可以应用比率进行检验的资料,都可以用卡方检验。其计算公式是
其中,表示观察值的频数(observedfrequency);表示给定单元中的频数理论值,其计算公
式是:;表示给定单元所在行的总和(行:Rank),CT表示给定所在列的总和.(列:Contingency)。
X2的自由度的确定:=(行数-1)*(列数-1).记为X2a(n),n为自由度,a为显著性水平。
如同T分布一样,在不同自由度条件下,卡方分布也不相同,但随着自由度的增加(即样本
容量的支扩大)卡方分布趋于对称性的正态分布。检验程序与假设检验理论是一样的。
对变量之间的相关程度的测度主要用相关系数来表示,但对于定类数据之间的相关程度的测
定,要借助于,对于定类数据之间的相关程度的测度常用到以下几种:
(1)ψ相关系数,它是描述2*2列联表数据中相关程度最常用的一种相关系数,计算公式
是ψ=,取值在0到1之间。
式是C=,取值在0到1之间。
如何描述两个分类变量间的关系
(2)在计量经济学中,T检验常称参数显著性检验
检验(d统计量):D-W检验是杜宾()和瓦森()于1951年提出的一
种检验序列自相关的方法,这种检验方法是基于残差et和et-1之间的一阶自相关系数提出
来的,所以它只适用于检验残差序列的是否存在一阶自相关性的统计量。这从公式中可以看
出来。注:残差:模型计算值与资料实测值之差为残差。
当=0时,d=2,表明不存在自相关;
当=1时,d=0,表示存在完全正相关;
当=-1时,d=4,表示存在完全负自相关。
经验表明当,表明不存在自相关。
5.Q-statistic。在文献上的Q统计量有二种版本,Box-PierceQ统计量,另一种是适用于样本
较小的修正版本Ljung-BoxQ统计量。这两种版本的Q统计量有些微的不同。LB的Q统计量
其中,代表从一阶差分中回归中所得到的OLS残差(注意:没有包含截距项的一阶差分形式),
而则是水平值形式得到的残差(含有截距项的回归形式)。
定义:定义(协整):设Yt∽I(1),xt∽I(1)。如果存在常数b,使得Yt-bXt为I(0)(平稳时
间序列)时,称Yt和Xt之间存在协整关系。
基本思想:Johansen检验的思想就是检验ut和nt是否存在相关的典型变量和有几对相关性
协整的检验方法一般有两种,Engle-Granger方法检验方法。E-views提供一个叫约翰森
(Johansen)检验提供了确定协整变量个数的方法,其方法的理论基础是典型相关分析。
步聚:第一步,拟合模型
第三步:Johansen检验::这不是单独的一个检验,而是一系列的检验,检验从g=0开始。
十六、问卷的信度与效度检验
社会测量中,作为测量工具的问卷,如果设计不周密、题意不确切、含混或具某种倾向性,
其信度必定不高。信度是指可靠性、可信性,指统计结果的稳定性或一致性,可表示在
次调查或度量中有多少次是正确的,或每次调查属于正确的概率是多少。
信度的度量通常是以相关系数表示的,又称信度系数。信度可以分为重(再)测信度
同质信度(Homogeneityreliability)代表所有测验题目的一致性,当各个测验题目得分是正
相关时是同质的,当相关性很低时为异质。最常用克朗巴哈(Cronbach)α系数法和
α系数法其计算公式是:
式中,为题总数,Si2为第I题内方差,为总分方差,r题间的相关系数的总和一般要求问
卷的α系数大于0.70。
信度分析在SPSS中的操作步骤:
step2:于变量清单中点选题目的变量置入左项目中àModel模式选择Alpha
(split-halfcoefficient)信度,也称折半信度s法,常用于态度、意见式问卷的信度分析,它
系指采用分半会计所测得的信度系数,通过在调查问卷分为等值的两半、或将项目的单又序
号分两半,求这两个各半测验总分之相关系数。斯皮尔曼-布朗(Spearman-Brown)
(二)问卷调查的效度检验(Validity)
效度指测量结果与试图达到的目标之间的接近程度,评价的是偏倚和系统误差问题。分为内
容效度、结构效度和表面效度。效度值越高越能反映所要测量值的对象的真正特征。效度应
结构效度(ctructvalidity)是指测量结果体现出来的某种结构与测值之间的对应程度,它
是最重要的评价指标。结构效度分析所采用的方法是因子分析。
内容效度(contentvalidity):问卷内容能在多大程度上覆盖研究目的要求达到的各个方面和
领域。与表面效度一样,同属主观指标。
资料:除此之外,你可以用因子分析里面Descriotives里面KMO和巴特利检验(battele,不
知道是不是这样写的),KMO的值如果>0.5,则说明因子分析的效度还行,可以进行因子分
析;另外,如果巴特利检验的P
少的因子同时又能解释大部分的方差,即效度可以。
用各变量间的相关检验量表的内容效度,根据各变量与总分的相关是否超过各变量间的相关
标准:各项变量之间的相关大于.40;各因子分与总分的相关也大于.40,且均大于各项因子
之间的相关。表明问卷在本次调查中具有较好的内容效度和结构效度。具体操作是
事物或现象之间存相互联系、相互制约关系,而且所有各种现象之间的相互关系可以通过数
量关系反映出来。现象之间的有关系可以通过两种不同类型表示出来,一是函数关系,这种
关系是通过严格的数学方程表达出来。二是相关关系,这种关系的具体关系值是不确定的。
(二)相关系数的计算与应用
相关图表对发了解现象之间的相互关系是有用的,但只是初步判断,为了说明现象之间的关
系密切程度必须计算相关系数,相关系数的计算方法有很多,最常见的公式是。
其实,相关系数可由拟合度R2得到,即
(三)相关系数的密切程度
当相关系数处于0.3到0.5之间表示是低度相关;
处于0.5到0.8之间是显著相关;
处于0.8以上是高度相关。
相关关系仅能说明变量之间相关关系的方向和紧密程度,而不能说明变量之间的数量关系,
即当给出某一自变量的数值时不能根据相关系数确定或估计因变量发生的值。回归分析就是
对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以
便于进行估计或预测的统计方法。
(五)回归分析与相关分析的区别
回归分析和相关分析都是研究变量之间的关系,在实际应用中,两种分析方法经常相互结合
渗透和结合,但在研究重点方面却有所不同:(1)在回归分析中,变量Y称为因变量,处在
被解释的特殊地位,而在相关分析中,变量X和Y处于相同的地位;(2)相关分析的重点是
研究变量之间的关系及关系密切程度,而回归分析中,不仅可以揭示变量x对变量Y的影响
大小,还可以由回归方程进行预测和控制。
(六)简单相关系数和偏相关系数(PAC)
只计算两个变量之间的线性关联程度的相关系数可以称为简单相关,对于三个或三个以上变
偏相关系数可以这样定义:
表示在X3不变的条件下,X1,X2的偏相关系数。
表示在X2不变的条件下,X1,X3的偏相关系数。
同理,表示在X3,X4不变的条件下,X1,X2的偏相关系数。
(七)自相关或序列相关
表达的意思是:按时间(在时间序列数据中)或空间(在横截面数据中)的排序的观测值序
列的误差项之间的存在相关。
在经典的线性模型中,假设在误差项Ui之间不存在自相关,用符号表示就是
E(Ui,Uy)=0或者是COV(Ui,Uy)=0,当E(Ui,Uy)≠0,则表示存在自关。
自相关检验,用以检测是否存在自相关用d统计量,DW统计量。
它不外是相继残差的差异平方和与RSS之比,它有一个缺陷就是只能检验一阶相关自相关,
经验表明当,表明不存在自相关。
发现存在自相关采用广义最小二乘法(GLS)。
基本功能:调用此过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间
的接近程度;也可对变量间进行距离相关分析,常用于考察预测值对实际值的拟合优度。
在SPSS中,有两个选项:Betweencases表示作变量内部观察值之间的距离相关分析,
用户可根据数据特征选用测距方法。
复相关系数是度量复相关程度的指标,它旨在研究一个随机变量与多个随机变量之间的线形
相关关系。它可利用单相关系数和偏相关系数求得。复相关系数越大,表明要素或变量之间
的线性相关程度越密切。做多元回归,即可求出复相关系数。在SPSS中,
结果中的MultipleR的值就是复相关系数。
是指第一个序列与另一个序列移动形式的综合点积。当两序列彼此反向移动而不具备相关性
时,可认为该序列具有较好的互相关属性。
(十一)斯皮尔曼等级相关系数rs(次重点)
1.识记:(1)斯皮尔曼等级相关系数rs计算公式:
(2)rs检验的原假设:H0:总体中变量x与变量y等级相关:ρs=0
(3)rs检验的统计量及其分布:t=~t(n-2)
(4)rs双边检验拒绝域:t>tα/2或t<-tα/2
2.理解:(1)rs的取值范围讨论:在完全相关情况下,rs=±1;一般情况下,rs取值在[-1,
+1]之间;(2)rs仅适用于变量没有相同等级或只有少量的相同等级。
3.应用:(1)rs计算;(2)rs统计检验。
(三)其他等级相关系数(一般)
1.识记:(1)肯氏τ系数系列系数计算公式;(2)d系数计算公式
2.理解:(1)肯氏τ系数系列系数的适用性;(2)Gamma系数与d系数的比较
3.应用:(1)肯氏τ系数系列系数的计算;(2)d系数的计算
十八、回归分析、方差分析与相关分析的关系
方差分析也可以用于回归当中,其最重要的用途就是通过逐步引入法选择重要的解释变量,
综合运用回归法,相关分析法和方差分析法,有利于构造更好的多元线性回模型。
在回归方程中,回归系数的大小依赖于自变量与因变量的变化尺度(如标准差)的大小,如
果自变量的标准差与自变量的标准相差太大,则会导致回归系数低估,一个解决的办法就是
自变量和因变量先进行标准化,即转化成z分数后再进行回归。所以就有了“非标准化系数”
和“标准化系数”之分。
在SPSS中,关于相关分析在三个选项
n积差相关系数:功能是计算相关系数并作显著性检验,适用于两列变量均为正态
l`stau-b::对数据没有严格要求,适用于检验等级变量之间的关联程度。
an等级相关检验:对数据分布没有严格要求,适用于等级变量,或者等距离不满
-sampleTtest:单样本T检验.调用此过程可完成样本均值与总体均值之间的比较。
ndent-sampleTtest:两独立样本T检验.调用此过程可完成两个两个独立样本数据的
-sampleTtest:两配对样本T检验.调用此过程可完成两个配对样本数据的均值比较,
与独立样本不同,配对样本之间具有相关性。