探索性因子分析案例与聚类分析有何不同

工具类服务
编辑部专用服务
作者专用服务
因子分析与聚类分析在财务指标分析中的应用
本文选取了,我国沪深A股上市的34家公司的主要9项财务指标作为研究对象,运用因子分析跟聚类分析的方法,利用统计软件spss对数据进行计算,依据因子分析的结果对这34家生物制品板块的公司的财务指标进行分析,得出了这34个企业的综合排名,复星医药、汤臣倍健、长春高新排在前三位:然后对因子得分进行聚类分析,分为3美,聚类分析结论与因子分析所得结论基本吻合,客观反映了这34家上市公司的综合实力,为这34家上市公司今后的经济发展提供了理论依据.
作者单位:
福建农林大学经济学院 福建 厦门 350002
年,卷(期):
机标分类号:
在线出版日期:
本文读者也读过
相关检索词
万方数据知识服务平台--国家科技支撑计划资助项目(编号:2006BAH03B01)(C)北京万方数据股份有限公司
万方数据电子出版社第十三周:聚类分析——每周一讲多变量分析
&&& 每周一讲,其实早不是每周了,可见人要是能够做一件事情容易,坚持做就太难了,以后别自己给自己定目标,随心情多好!
&&& 话是这么说了,但还是沿用过去的方式来讲讲聚类分析Cluster Analysis吧!物以类聚,人以群分,聚类分析是一种重要的多变量统计方法,但记住其实它是一种数据分析方法,不能进行统计推断的。当然,聚类分析主要应用在市场细分等领域,我们也经常采用聚类分析技术来实现对抽样框的分层,我就不多罗嗦了。
&&& 聚类分析:顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals, objects or subjects)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性(homogeneity),而类别之间则应具有尽可能高的异质性(heterogeneity)。
&&& 我们也可以对变量进行聚类&分类,但是更常见的还是对个体分类(样本聚类&&细分)。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象(样本或变量,常用的是样本)之间的联系的紧密程度。常用的指标为&距离&和&相似系数&,假定研究对象均用所谓的&点&来表示。&&& 在聚类分析中,一般的规则是将&距离&较小的点或&相似系数&较大的点归为同一类,将&距离&较大的点或&相似系数&较小的点归为不同的类!(一般的相似系数就是相关系数了)
&&& 基本概念:
&&& 需要一组表示个体性质或特征的变量,称之为聚类变量。根据个体或样本之间联系的紧密程度进行分类。一般来说分类变量的组合都是由研究者规定的,不是像其它多元分析方法那样估计推导出来的。& & 聚类分析前所有个体或样本所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,没有任何事先的有关类别的信息可参考。所以:严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对假设的检验还需要借助其它统计方法。
&&& 聚类方法:
聚类分析简单、直观。
聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分析;
不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解;
聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。
研究者在使用聚类分析时应特别注意可能影响结果的各个因素。
异常值和特殊的变量对聚类有较大影响当分类变量的测量尺度不一致时,需要事先做标准化处理。当然,聚类分析不能做的事情是:
自动发现和告诉你应该分成多少个类&&属于非监督类分析方法
期望能很清楚的找到大致相等的类或细分市场是不现实的;
样本聚类,变量之间的关系需要研究者决定;
不会自动给出一个最佳聚类结果;&&&& 我这里提到的聚类分析主要是谱系聚类(hierarchical clustering)和快速聚类(K-means)、两阶段聚类(Two-Step);&&&& 根据聚类变量得到的描述两个个体间(或变量间)的对应程度或联系紧密程度的度量。&&&& 可以用两种方式来测量:
采用描述个体对(变量对)之间的接近程度的指标,例如&距离&,&距离&越小的个体(变量)越具有相似性。
采用表示相似程度的指标,例如&相关系数&,&相关系数&越大的个体(变量)越具有相似性。&&&& 计算聚类&&距离指标D(distance)的方法非常多:按照数据的不同性质,可选用不同的距离指标。欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-aquare measure) 等;相似性也有不少,主要是皮尔逊相关系数了!注意:上面主要在谱系聚类方法中采用,但谱系聚类主要用在变量聚类上,如果对样本聚类样本不能太多了,否则你要等很长时间,还不一定有用!&&& 总体推荐:
聚类变量的测量尺度不同,需要事先对变量标准化;
聚类变量中如果有些变量非常相关,意味着这个变量的权重会更大
欧式距离的平方是最常用的距离测量方法;
聚类算法要比距离测量方法对聚类结果影响更大;
标准化方法影响聚类模式:
变量标准化倾向产生基于数量的聚类;
样本标准化倾向产生基于模式的聚类;
一般聚类个数在4-6类,不易太多,或太少;
数据挖掘软件中的聚类更理想&&& 当然我现在聚类都用数据挖掘技术了,其实聚类分析采用数据挖掘技术更合理,毕竟是发现知识,我们事先不知道是否存在显著差异的细分市场,而且往往在统计分析聚类中,需要研究者主观给出聚类变量,得到的结果也可能是研究者或客户能想到的,往往客户最希望得到事先不知道的,直觉不能感知到的,数据挖掘就体现了这一点。当然采用数据挖掘软件得到的聚类结果,也更直观,最重要的是采用SPSS聚类的结果要呈现出来,是个体力活,用Clementine得到的结果就非常容易看出来和理解了!&&& 关于市场细分中的聚类分析,主要是采用两阶段聚类或快速聚类,一般要先进行因子分析,聚类分析,类的识别,聚成几类,类的稳定性测试,选择目标类,定位,描述细分市场,市场营销组合等!&&& &&& 我下一篇博客详细描述!
&&最后修改于
请各位遵纪守法并注意语言文明Q型因子分析与聚类分析有什么区别以及相同之处&?
考虑一个矩阵是多个样本的指标集合,如果每个样本有多个指标:样本为行,指标为列。所谓Q型是对指标处理,对列。与之相对的所谓R型是对样本处理,对行。
就你的问题而言,Q型因子分析可以认为是考虑指标的重要性,保留哪些去掉哪些;Q型聚类分析考虑的是指标之间的相关性,哪几类指标可能属于组成一个类,使得组内距离小组间距离大(组内距离、组间距离都需要自己根据具体问题来定义)。
-------来源: 知乎 祝文祥
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

我要回帖

更多关于 探索性因子分析结果 的文章

 

随机推荐