聚类结果的回归分析显著性检验验结果怎么分析

苹果/安卓/wp
积分 150, 距离下一级还需 110 积分
权限: 自定义头衔
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡下一级可获得
权限: 签名中使用图片
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
本帖最后由 wanghaidong918 于
00:21 编辑
论文中用Average Linkage(within group)聚类分析方法,经过反复尝试得出三分类的聚类最优结果,审稿人要求补充三类之间的显著性检验,这个该怎么操作,以前没有听说过对聚类结果还能进行检验的。
载入中......
从来没听过,不知道是不是我孤陋寡闻了
博学修身,福泽四海
聚类分析还是属于模糊概念,并未听说使用哪种方法可以对分类结果进行检验,通常都带有很强的主观因素来决定如何进行分类
可以参考一下有关这方面的书,应该是可以对分类结果的适当性进行检验的。具体记不太清楚了。
如果你的数据符合正态分布,则直接对结果作方差分析,不符合则做非参数检验
楼主解决了么?我现在也遇到相同问题,请楼主不吝赐教,拜托了
初级热心勋章
初级热心勋章
无限扩大经管职场人脉圈!每天抽选10位免费名额,现在就扫& 论坛VIP& 贵宾会员& 可免费加入
加入我们,立即就学扫码下载「就学」app& Join us!& JoinLearn&
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
京ICP证090565号
京公网安备号
论坛法律顾问:王进律师 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
SPSS聚类分析实验报告
下载积分:1000
内容提示:SPSS聚类分析实验报告
文档格式:DOC|
浏览次数:106|
上传日期: 01:03:04|
文档星级:
该用户还上传了这些文档
SPSS聚类分析实验报告
官方公共微信三种聚类分析方法在中国温度区划分中的应用研究
&&&&2015, Vol. 20 Issue (1): 111-118
韩微, 翟盘茂.2015.三种聚类分析方法在中国温度区划分中的应用研究[J].气候与环境研究,20(1):111-118,doi:10.3878/j.issn.14.13210.&&
HAN Wei, ZHAI Panmao. 2015. Three Cluster Methods in Regionalization of Temperature Zones in China[J].Climatic and Environmental Research(in Chinese),20(1): 111-118,doi:10.3878/j.issn.14.13210.&&
三种聚类分析方法在中国温度区划分中的应用研究
韩微1,2, 翟盘茂2 &&&&
1 南京信息工程大学, 南京210044;2 中国气象科学研究院灾害天气国家重点实验室, 北京100081
资助项目:公益性行业(气象)科研专项GYHY,国家自然科学基金项目
作者简介:韩微,女,1990年出生,硕士研究生,主要从事气候变化的研究.E-mail: weiwei.
通讯作者:翟盘茂,E-mail: pmzhai@
摘要:根据全国512个气象站年的逐日气温观测资料,采用日平均气温稳定通过10 ℃的日数(≥10 ℃日数)作为划分我国温度分布的指标,经过旋转经验正交函数分析(REOF)方法处理,找出时间演变过程中变化相似的区域归为一类.在此基础上,采用快速样本聚类法(K-means法)、分层聚类法(Ward法)、聚类统计检验法(CAST法)3种聚类分析方法对全国范围的温度变化区域差异进行客观分区,结果分别将全国温度变化区划分为10个地区、9个地区、13个地区,且不同区域分界线与中国地形分布有很好的一致性.研究表明:K-means法运算简单快捷,结果会不断修正到最佳为止;Ward法聚类过程清晰明了,可以选取需要划分的类别数;CAST法使样本通过显著性检验,不但有助于气候变化的客观分区,而且在划分温度区时客观考虑气候变化对分区结果的影响也有很重要意义.
聚类分析&&&&
日平均气温稳定通过10 ℃日数&&&&
Three Cluster Methods in Regionalization of Temperature Zones in China
HAN Wei1,2, ZHAI Panmao2 &&&&
1 Nanjing University of Information Science and Technology, Nanjing 210044;2 State Key Laboratory of Severe Weather, Chinese Academy of Meteorological Sciences, Beijing 100081
Abstract: A scheme for regionalization of temperature zones was established on the basis of daily surface air temperature observations from 512 stations in China during . Days with daily surface air temperature ≥10 ℃ were used as indicators for zoning the temperature distribution. After REOF (Rotated Empirical Orthogonal Function) analysis, areas with similar temperature changes in the time evolution were classified as one zone. The temperature zones were classified by three types of clustering analysis methods. The national area was divided into ten temperature zones by using the K-means method, nine temperature zones by using the Ward method, and 13 temperature zones by using the CAST (Cluster Analysis with Statistical Test) method. The boundaries of the various regions show a good consistency with the Chinese topography. Calculation by using the K-means method is considered to be simple and quick because, the results are revised until the best results are achieved. Moreover, the clustering process of the W any number of categories may be selected. Finally, the results of the CAST method pass t therefore, this method is meaningful for zoning.
Key words:
Cluster analysis&&&&
Days with daily surface air temperature ≥10 ℃&&&&
Change&&&&
Zoning&&&&
中国幅员辽阔,地形复杂多样,山地面积广大,气候类型极为丰富,温度分布不均匀。地面气温10 °C是一般喜温作物生长的起始温度,也是喜凉作物迅速生长,多年生作物开始以较快速度积累干物质的温度。我国大多采用多年5 d滑动平均气温稳定通过10 °C日数作为指标进行温度区的划分(;;;),该指标可以更有针对性地为各地工农业生产提供参考依据,对社会经济建设及人类应对未来的气候变化也具有重要的意义。现有的划分方法主要是使用固定的临界值,但是在具体的温度区划分过程中,没有客观考虑温度变化的一致性。近50年全球气候发生了变化,气温的响应更为显著(),因此对我国温度区重新进行划分时,考虑温度变化特征十分必要。
我国近些年应用统计方法进行分区的研究也有很多。采用分层聚类和相似分析方法,对中国月、季、半年、年平均气温进行了区划,通过动态分析分层聚类过程中组内和组间平均相关系数的差异指标,为不同季节气温分析、预测研究找到适宜的分区方案。该研究虽然采用了客观的聚类统计方法进行分区,但也没有考虑温度变化的一致性。通过正交旋转因子分析对4个时间段的年、冬、夏半年气温变化特征进行分区。依据年、夏半年气温变化特征,将全国划分成8个不同的区域;依据冬半年气温变化特征,将全国划分为7个变化区。该研究虽然考虑了温度变化特征,但是分区并不是很客观。
综合以往的研究,本文使用更加丰富、完善的资料,采用旋转经验正交函数分析(REOF)和聚类统计相结合的方法对近50年全国温度变化进行分区。利用REOF提取出各个站点时间演变过程中的温度变化特征,再用聚类的方法进行分区,这对划分温度区时客观考虑气候变化对分区结果的影响有很重要意义。且本文采用了3种聚类统计方法,对比3种聚类方法的优劣,为人们根据自己的需求选择适合的聚类分析方法提供依据。
2 资料与方法
本文采用中国气象局国家气象信息中心提供的年全国512个逐日气温台站资料(本文剔除了海拔在3000 m以上的站点)计算多年5 d滑动平均气温(T)稳定通过10 °C的日数。采用REOF方法提取T≥10 °C日数的空间场,该空间场代表的是不受时间的限制的每个区域温度变化最典型的特征,进而采用3种聚类分析方法进行分区。3种聚类方法的步骤如下。
2.1 快速聚类法步骤
(1)选取K个样本为初始的类中心;
(2)计算每个样本与各中心的欧几里得距离,将每个样本赋给最近的类;
(3)计算每一类的平均值,以其为中心,计算每个样本与中心的距离,将每个样本重新赋给距离最小的类;
(4)重复步骤(3),直到方差不再发生变化。
2.2 分层聚类法步骤
(1)各样本序列先各自为一类;
(2)计算各样本两两间的离差平方和,将合并后离差平方和最小的两类归并为一个新类;
(3)计算新类的平均序列,计算各类之间的离差平方和,再将合并后增加的离差平方和最小的类进行合并;
(4)重复步骤(3),直到达到希望的类别数。
2.3 统计检验聚类分析法步骤
(1)选取中心,计算各样本与中心之间的相关系数;
(2)从相关系数最大的样本开始,按照构造出的服从χ2分布的公式计算,检验其能否通过显著性检验;
(3)通过检验,则该样本能与中心合并为一类;
(4)逐渐扩大合并的范围,直到检验不显著为止。
3 温度区划分
近些年,REOF在分析区域气候变化分型中应用较多。虽然EOF能够将气象变量场的时间与空间变化分离,用尽可能少的模态表达出其时间变化的空间一致性,但是它过分强调变量的整体相关结构,使重要的局部相关结构被掩盖()。而 REOF则克服了这个缺点,在EOF的基础上经过极大方差旋转,使高荷载集中在少数变量上,其余接近于零,从而使空间结构更加清晰,突出气候变化的区域一致性特征。本文对T≥10 °C的日数资料进行REOF,前10个主分量的累计贡献率达到60%以上。表 1列举了EOF与REOF前10个模态的方差贡献率和累计方差贡献率,可以看出REOF对场的总方差贡献量不变,而单个空间型尽量反映场的局部相关结构。
表 1(Table 1)
中国512个站年T≥10°C日数标准化距平场前10个模态EOF和REOF的方差贡献率
Table 1 Variances accounted for by each of the first ten EOF modes and REOF(Rotated EOF)modes from normalized anomaly fields of days with 5-d running mean daily surface air temperature(T)≥10 °C for 512 stations of China during ;2010
方差贡献率
累计方差贡献率
方差贡献率
累计方差贡献率
表 1 中国512个站年T≥10°C日数标准化距平场前10个模态EOF和REOF的方差贡献率
Table 1 Variances accounted for by each of the first ten EOF modes and REOF(Rotated EOF)modes from normalized anomaly fields of days with 5-d running mean daily surface air temperature(T)≥10 °C for 512 stations of China during ;2010
由前十个模态的空间分布(图 1)可以看出,前十个空间模态几乎涵盖了全国。根据REOF展开第一模态(图 1a)可以看出,第一模态的空间型在长江中下游地区很显著,其中心值为0.89,代表该地区79.21%的方差贡献,因此可以把长江中下游地区气候划分一类。由REOF展开第二模态(图 1b)可以看出,第二模态的空间型在东北地区很显著,其中心值为0.85,代表该地区72.25%的方差贡献,因此可以把东北地区划分为一类。第三模态的空间型(图 1c)在西北中东部地区显著,其中心值为0.86,代表该地区73.96%的方差贡献。第四模态的空间型(图 1d)在华南沿海地区显著,其中心绝对值为0.82,代表该地区67.24%的方差贡献。第五模态的空间型(图 1e)在北回归线一带显著,其中心绝对值为0.80,代表该地区64%的方差贡献。第六模态的空间型(图 1f)在新疆准格尔盆地地区显著,其中心绝对值为0.69,代表该地区47.61%的方差贡献。第七模态的空间型(图 1g)在新疆塔里木盆地地区,其中心绝对值为0.79,代表该地区62.41%的方差贡献。第八模态的空间型(图 1h)在华北平原及辽东半岛地区显著,其中心值为0.80,代表该地区64%的方差贡献。第九模态的空间型(图 1i)在黄淮地区显著,其中心绝对值为0.72,代表该地区51.84%的方差贡献。第十模态的空间型(图 1j)在内蒙古中东部地区显著,其中心值为0.73,代表该地53.29%的方差贡献。
图 1Fig. 1
图 1 中国512站年T≥10 °C日数标准距平场REOF展开前十个模态空间型(图中数值为绝对值),(a−j)依次为第一模态到第十模态
Fig. 1 (a−j)The first ten REOF modes of normalized anomaly fields of days with T≥10 °C for 512 stations of China during ;2010
对原始数据REOF后,前10个模态可以反映原始场的空间和时间变化。现提取出前10个模态的空间场进行统计聚类,分别采用3种不同的聚类分析方法进行分区。
3.1 快速聚类法(K-means法)
快速聚类,以迭代思想为理论基础,先任意按照给出的聚类数目K作为初始类中心,根据与每个中心的欧几里得距离,将每个对象赋予最近的 类别,计算每类的平均值为中心,将每个对象重新赋予最类似的类别,重复这个过程,逐步修改分 类至方差不再变化为止。该算法原理简单并便于处理大量数据,因此得到广泛应用(,)。在K-means算法运行前必须 先指定聚类数目K。本文剔除了高原的资料,取 K值为7时,得到的结果更为合理,聚类结果如 图 2。
图 2Fig. 2
图 2 K-means法对中国温度区划分(年)
Fig. 2 Regionalization for temperature zones in China by K-means method(;2010)
图中不同颜色的点表示不同的类别,红色的线为各类的分界线。从图中可以看出,分区的大小具有明显的地域性特点。全国温度区被划分为10个地区:即青藏高原地区、华南沿海地区、云贵高原地区、长江中下游地区、黄淮地区、内蒙古中东部和东北地区、西北中东部地区、新疆塔里木盆地地区、新疆准格尔盆地地区、大兴安岭北部地区。
分界线是沿着中国的地形划分的,一些小的区域没有划分出来。青藏高原周围地形复杂,因此把青藏高原地区单独划分出来。海南岛由于五指山和海洋的影响,使得海南岛的气候变化类型与华南沿海地区不同。云贵高原地区由于西侧青藏高原和复杂地形的影响,南北两侧为不同类型。划分的区域里有个别站点的气候变化类型不同,这是由于山脉、河流等地形的影响,如西北地区沿着青藏高原的地区的类型就不统一。新疆地区由于准格尔盆地、塔里木盆地的存在,站点分布不均匀,但沿着塔里木盆地的站点气候变化一致,准格尔盆地地区也是这样。大兴安岭背部北侧有一特别的博克图站点,其气候变化类型不同,比周围地区暖,可能是站点处于大兴安岭内部的原因。
K-means法是较经典的一种聚类方法。由于该算法的效率高,所以在对大规模数据进行聚类时被广泛应用。本文取K值等于7,将全国除青藏高原外的地区划分为7类。可以看出,用K-means法划分出的区域与传统方法划分出的区域有相似性。该方法的缺点是:可以选择的内容较少,最重要的K值需要提前给出,人为经验和判断无形中会起很大作用。
3.2 分层聚类法
分层聚类的方法(Hierarchical Clustering Methods),是目前在实际中使用最多的一类方法。这类方法的基本思想是:首先定义样品之间的距离(或相似系数)和类与类之间的距离。一开始将n个样品各自成一类,这时类与类之间的距离与样品之间的距离是等价的,然后将距离最近的两类合并,重新计算新类与其它类的距离,再按最小距离归类。这样每次缩小一类,直至所有的样品都成一类为止()。本文组间距离测度标准采用皮尔逊相关系数,归并方法采用离差平方和法(Ward法)。这个方法基于方差分析的思想,同类样品之间的离差平方和较小,类与类之间的离差平方和较大()。为了与K-means方法相比较,选取聚为7类时的结果,如图 3。
图 3Fig. 3
图 3 Ward法对中国温度区划分(年)
Fig. 3 Regionalization for temperature zones in China by Ward method(;2010)
分层聚类法顺序是自底向上的,本文采用离差平方和法(Ward法)一步步聚类,把我国温度区划分为9个地区:即青藏高原地区、华南沿海与云南南部地区、长江中下游地区、云贵高原北部地区、黄淮地区、东北地区、西北中东部地区、新疆地区、内蒙古中东部地区。
不同类型的分界线与中国地形分布也有很好的一致性。青藏高原地区单独划分为一类。海南岛南部由于五指山和海洋的影响,气候变化类型与华南沿海地区不同。云贵高原北部地区由于受青藏高原、四川盆地的影响与云贵高原南部地区为不同类别。西北中东部地区与新疆地区、内蒙古中东部地区的分界线沿着祁连山脉、黄土高原、太行山脉、阴山山脉划分。划分的区域里有个别站点的气候变化类型不同,这是受当地地形或者站点迁站的影响。如黄淮地区,黄河沿岸有两个红色与该地区不同类别的站点,分别为泰山、华山站。
用Ward法划分出的区域与前人划分的结果有很好的一致性。Ward聚类有很好的统计特点,应用广泛。虽然不需要确定分类数,但是一旦一个合并被执行,就不能修正,聚类质量受限制()。
3.3 统计检验聚类分析法(CAST法)
传统的聚类分析是常用的重要数值分类方法,但是这个方法缺乏显著性检验。根据气候统计理论提出了一种新的具有统计检验的聚类分析(Cluster Analysis of Statistic Test,CAST)用于气候分型区划。这种方法改进了传统的聚类分析方法。采用距离系数表示两个变量的相关系数,该方法使得距离和相关系数在代表样本间相似程度时,是彼此一致的。所谓聚类统计检验分析是从统计学理论推导出具有显著性检验的聚类方法。Cij环绕其平均数是正态分布的,构造遵守χ2分布的函数。CAST一般可有两种计算方案:均匀聚类和中心聚类。对于地理空间上的气候区划来说,用中心聚类方案可大大节省计算量,并能区划出更为适用的气候区()。选好中心站后,计算χ2值,当其小于其在0.05显著性水平下的值时,通过检验。
CAST存在着一个不确定性的问题:即如何选取聚类中心站点并无客观标准。因此本文将CAST和REOF相结合的办法来确定中心站(),选择载荷向量的高值区为中心,在此基础上对中国的温度带进行划分,划分结果如图 4。
图 4Fig. 4
图 4 CAST法对中国温度区划分(年)
Fig. 4 Regionalization for temperature zones in China by CAST(Cluster Analysis of Statistic Test)method(;2010)
因为选取了前十个模态,即选择了10个中心站,因此可以将中国温度区划分为10类。分界 线沿着中国的地形分布,将中国划分为13个地 区:即青藏高原地区、华南沿海地区、华南丘陵地区、云贵高原地区、四川盆地地区、江南地区、黄淮地区、华北北部与辽东半岛地区、东北地区、内蒙古中东部地区、西北中东部地区、新疆塔里木盆地地区、新疆准格尔盆地地区。
图中黑色站点为不显著站点,没有被归为任何一类。云贵高原地区虽然没有通过显著检验,但是根据地形和前人的划分结果,单独划分出来,还是合理的。CAST方法将中国温度变化区划分的非常细致、合理,且通过了显著性检验。聚类统计检验虽然有很好的统计学意义,但是在大范围地区聚类检验之后会有如图的结果,边界过渡区或交叉混合区仍需人为的区分。
4 结论与讨论
采用REOF方法提取出时间演变过程中的温度变化特征,再利用3种聚类统计方法对年我国温度变化进行客观的分区,得到如下结论:
(1)K-means法将全国温度区划分为10个地区,划分的结果较为合理,这些区域可以表示中国温度变化情况。该算法的效率高,运行起来简单快捷,所以在对大规模数据进行聚类时被广泛应用。该方法在运算过程中不断的修正,直到方差稳定为止,因此可以得到很好的结果。但是最重要的类别数K值需要提前给出,人为经验和判断无形中会起很大作用。本文K值也是在几次尝试后,选取了较为合理的7。
(2)Ward法将我国温度区划分为9个地区,该方法划分的结果不是很细致,但是总体上的划分结果还是合理的。Ward聚类有很好的统计特点,同类样品之间的离差平方和较小,类与类之间的离差平方和较大。聚类的每一步用树状图都能清楚的看到,在国际上应用广泛。所有样本最终被归为一类,所以可以选取聚类过程中适合的类别数。虽然不需要确定分类数,但是一旦一个样本被合并到一类,就不能修正,聚类质量受限制。
(3)CAST法将我国温度区划分为13个地区,该方法划分的最为细致合理,一些特殊地形都能表示出来。CAST聚类统计检验有很好的统计学意义,划分为一类的站点通过显著性检验,使得结果更为可信。在对数据REOF后,高载荷区为该模态最有代表性的站点,选取为中心站很合理。用中心聚类作气候分区,不但大大节省计算量,还可以区划出更合适的气候区。但是该方法在处理面积较大的地区时,会出现一些不显著的站点,还有一些对两类都通过检验的站点。检验之后也并不能把所有站点很客观的分类,边界过渡区或交叉混合区仍需人为的区分。此方法更适合应用于对一个省或面积较小的地区划分。
综合3种方法,我国的温度区可划分为:青藏高原地区、西南地区、华南地区、长江中下游地区、黄淮地区、华北地区、东北地区、西北中东部地区、新疆地区。该划分结果考虑了温度的变化情况,且用了客观的分类方法,结果更为合理。3种聚类方法在气候分区中都很有意义,各有优缺点,因此在应用中要根据自己的需求选取。
陈咸吉. 1982. 中国气候区划新探 [J]. 气象学报, 40 (1): 35-48. Chen Xianji. 1982. A new approach to the climate division of China [J].
陈志鹏, 朱瑞兆, 尹晓荣. 1991. 中国气候数值区划的研究 [J]. 应用气象学报, 2 (3): 271-279. Chen Zhipeng, Zhu Ruizhao, Yin Xiaorong. 1991. A study of the numerical classification of the climates in China [J].
丁裕国, 张耀存, 刘吉峰. 2007. 一种新的气候分型区划方法 [J]. 大气科学, 31 (1): 129-136. Ding Yuguo, Zhang Yaocun, Liu Jifeng. 2007. A new cluster method for climatic classification and compartment using the conjunction between CAST and REOF [J].
方开泰. 1978. 聚类分析(Ⅰ) [J]. 数学的实践与认识, (1): 66-80. Fang Kaitai. 1978. Cluster analysis (I) [J]. Mathematics in Practice and Theory (in Chinese), (1): 66-80.
韩翠华, 郝志新, 郑景云. ~2010年中国温度变化分区及其区域特征 [J]. 地理科学进展, 32 (6): 887-896. Han Cuihua, Hao Zhixin, Zheng Jingyun. 2013. Regionalization of temperature changes in China and characteristics of temperature in different regions during
黄嘉佑. 2000. 气象统计分析与预报方法 [M]. 北京: 气象出版社, 181-191. Huang Jiayou. 2000. Meteorological Statistics Analysis and Predictive Method (in Chinese) [M]. Beijing: China Meteorological Press, 181-191.
刘伟东, 杨萍, 尤焕苓, 等. 2013. 北京地区热岛效应及日较差特征[J]. 气候与环境研究, 18 (2): 171-177. Liu Weidong, Yang Ping, You Huanling, et al. 2013. Heat island effect and diurnal temperature range in Beijing area [J].
Michelangeli P A, Vautard R, Legras B. 1995. Weather regimes: Recurrence and quasi stationarity [J].
秦爱民, 钱维宏, 蔡亲波. ~2000年中国不同季节的气温分区及趋势 [J]. 气象科学, 25 (4): . Qin Aimin, Qian Weihong, Cai Qinbo. 2005. Seasonal division and trend characteristic of air temperature in China in the last 41 years [J].
任国玉, 初子莹, 周雅清, 等. 2005. 中国气温变化研究最新进展 [J]. 气候与环境研究, 10 (4): 701-716. Ren Guoyu, Chu Ziying, Zhou Yaqing, et al. 2005. Recent progresses in studies of regional temperature changes in China [J].
吴洪宝, 吴蕾. 2005. 气候变率诊断和预测方法 [M]. 北京: 气象出版社, 37-48. Wu Hongbao, Wu Lei. 2005. Methods for Diagnosing and Forecasting Climate Variability (in Chinese) [M]. Beijing: China Meteorological Press, 37-48.
么枕生. 1994. 用于数值分类的聚类分析 [J]. 海洋湖沼通报, (2): 1-12. Yao Zhensheng. 1994. Cluster analysis used in numerical classification [J].
章基嘉, 孙照渤, 陈松军. 1984. 应用K均值聚类法对东亚各自然天气季节500毫巴候平均环流的分型试验 [J]. 气象学报, 42 (3): 311-319. Zhang Jijia, Sun Zhaobo, Chen Songjun. 1984. A pattern classification of the mean pentad circulations at 500mb level over East Asia for each NSS by the method of K-means cluster analysis [J].
赵春雨, 王冀, 严晓瑜, 等. 2009. 东北地区冬季降雪的气候特征及其区划 [J]. 自然灾害学报, 18 (5): 29-35. Zhao Chunyu, Wang Ji, Yan Xiaoyu, et al. 2009. Climatic characteristics and regionalization of winter snowfall in Northeast China [J].
郑景云, 尹云鹤, 李炳元. 2010. 中国气候区划新方案 [J]. 地理学报, 65 (1): 3-12. Zheng Jingyun, Yin Yunhe, Li Bingyuan. 2010. A new scheme for climate regionalization in China [J].
中央气象局. 1979. 中华人民共和国气候图集 [Z]. 北京: 地图出版社, 222-223. China Meteorological Administration. 1979. Climatological Atlas of the People's Republic of China (in Chinese) [Z]. Beijing: China Atlas Press, 222-223.3740人阅读
Geoprocessing(22)
为了理解、解释、预测某个问题,我们会进行回归分析。上一篇中提到了回归模型中的因变量和解释变量的概念,用一组解释变量来建模解释因变量,但事实上,选择一组优质的解释变量并不是那么容易。通常我们会根据一些常识、理论基础、某些研究、专家的意见、参考文献等等选择一组解释变量,来进行解释变量的筛选。在ArcGIS Desktop中,当我们使用 普通最小二乘法(OLS)执行回归分析的时候,工具会进行诊断测试,提供一个汇总报告,帮助我们诊断回归分析的质量。这篇文章咱们就围绕这个话题展开——回归分析的结果诊断。
中也有相关的内容,但是觉得相对还是比较晦涩,我就结合Esri Global UC的视频介绍一下。内容不尽相同,但是对学习回归分析是有帮助的。
解释变量与因变量具有预期的关系否?
每个解释变量都会有一个系数,系数具有+/-号,来表示解释变量与因变量的关系。从工具的得到的报告中,我们看到的系数的正负,每个解释变量应该是我们期望的关系。如果有非常不符合逻辑的系数,我们就应该考虑剔除它了。
当然,有时也可能得到与常识不同的结论。举个例子,假如我们在研究森林火灾,我们通常认为降雨充沛的区域火灾的发生率会相对较低,也就是所谓的负相关,但是,这片森林火灾频发的原因可能是闪电雷击,这样降雨量这个解释变量可能就不是常识中的负相关的关系了。
因此,我们除了验证解释变量的系数与先验知识是否相符外,还有继续结合其他项检查继续诊断,从而得出更可靠的结论。
解释变量对模型有帮助否?
解释变量对模型有无帮助说的就是解释变量是否有显著性,同样我们可以从 OLS 工具的汇总报表中得出些结论。
那如何了解这些解释变量是否有显著性呢?
OLS 工具除了对模型中的每个解释变量计算一个系数外,还执行统计检验以确定这些解释变量是否对模型有所帮助。
如果解释变量的系数为零(或非常接近零),我们认为这个解释变量对模型没有帮助,统计检验就用来计算系数为零的概率。如果统计检验返回一个小概率值(p 值),则表示系数为零的概率很小。如果概率小于 0.05,OLS 汇总报告上 概率(Probability) 旁边的一个 星号(*) 表示相关解释变量对模型非常重要。换句话说,其系数在 95% 置信度上具有统计显著性。
利用空间数据在研究区域内建模的关系存在差异是非常常见的,这些关系的特征就是不稳定。我们就需要通过 稳健概率(robust probability) 了解一个解释变量是否具有统计显著性。 OLS 汇总报告中所包括的另一项统计检验是用于不稳定性的 Koenker(Koenker 的标准化 Breusch-Pagan)统计量。
你也可以忽略上面说的,傻瓜方法就是:确保解释变量的概率、稳健概率列中带星号。
残差是否有空间聚类?
残差在空间上应该是随机分布的,而不应该出现聚类。这项检查我们可以使用 空间自相关工具(Spatial Autocorrelation Tool)工具进行检查。
模型是否出现了倾向性?
我们以前听过政治老师说过,不要戴着“有色眼镜”看人!也可能是历史老师?这不重要。。同样,回归分析模型中,也不要带有“成见”,不能具有倾向性,否则,这不是个客观合理的模型。
我们都知道正态分布是个极好的分布模式,如果我们正确的构建了回归分析模型,那么模型的残差会符合完美的正态分布,其图形为钟形曲线。
当模型出现偏差时,可能我们看到的图形也是诡异的,这样我们就无法完全信任所预测的结果。
如何检验呢?
在 OLS 汇总报告中,有一个具有统计显著性的 Jarque-Bera 诊断表示模型是否出现偏差。如下图中是没有偏差的模型,如果有偏差,在篮框中会出现星号。
因此,判断自己的模型没有偏差的最直观的方法就是:Jarque-Bera 诊断中没有星号。
解决偏差!
为了解决模型偏差,最好为所有模型变量创建一个散点图矩阵。因变量和一个解释变量之间存在非线性关系,这是出现模型偏差的常见原因。这些在散点图矩阵中看起来像一条曲线。
OLS 是一种线性回归方法,假设您正在建模的关系是线性关系。如果不是,可尝试变换您的变量,以查看这样做是否可创建出线性更明显的关系。常见变换包括对数变换和指数变换。
另外,散点矩阵图还可以显示出数据异常值。要了解一个异常值是否正在影响您的模型,请尝试在含有和不含有异常值的情况下分别运行 OLS,从而了解异常值对模型性能的更改程度,以及移除异常值是否会校正模型偏差。
解释变量中存在冗余吗?
在我们建模的过程中,应尽量去选择表示各个不同方面的解释变量,也就是尽量避免传达相同或相似信息的解释变量。要清楚,引入了冗余变量的模型是不足以信任的。
那么问题来了,如何判断是否存在冗余解释变量?
OLS工具会为每个变量计算膨胀因子(Variance Inflation Factor,VIF),VIF 值是对变量冗余度的一种度量,可辅助决定在不削弱模型解释能力的情况下可从中移除哪些变量。根据经验,VIF 值超过 7.5 就有问题。如果有两个或更多解释变量的 VIF 值超过了 7.5,应该一次移除其中一个变量并重新运行 OLS,直到冗余消失。记住,不要全部移除掉哦!
评估模型的性能
最后需要做的是,评估模型的性能。 矫正R2值 是评估解释变量对因变量建模的重要度量。
这项检查应该放到最后。一旦我们通过了前面的所有检验,接下来就可以进行评估矫正R2值。
R2值的范围介于 0 和 1 之间,以百分比形式表示。假设正在为犯罪率建模,并找到一个通过之前所有五项检查的模型,其校正 R2 值为 0.65。这样就可以了解到模型中的解释变量说明犯罪率是 65%(更技术一些来说就是,模型解释了犯罪率因变量中 65% 的变化量)。在有些科学领域,能够解释复杂现象的 23% 就会让人兴奋不已。在其他领域,一个R2值可能需要更靠近 80% 或 90% 才能引起别人的注意。不管采用哪一种方式,校正 R2 值都会帮我们判断自己模型的性能。
另一项辅助评估模型性能的重要诊断是修正的 Akaike 信息准则 /Akaike’s information criterion (AICc)。AICc 值是用于比较多个模型的一项有用度量。例如,可能希望尝试用几组不同的解释变量为学生的分数建模。在一个模型中仅使用人口统计变量,而在另一个模型选择有关学校和教室的变量,如每位学生的支出和师生比。只要所有进行比较的模型的因变量(在本示例中为学生测试分数)相同,我们就可以使用来自每个模型的 AICc 值确定哪一个的表现更好。模型的 AICc 值越小,越适合观测的数据。
有关回归分析结果诊断就说这么多了,希望看起来不是那么枯燥无味……
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:688030次
积分:7737
积分:7737
排名:第1965名
原创:129篇
评论:297条

我要回帖

更多关于 spss显著性检验 的文章

 

随机推荐