格式:PPT ? 页数:20页 ? 上传日期: 21:41:25 ? 浏览次数:235 ? ? 2000积分 ? ? 用稻壳阅读器打开
全文阅读已结束如果下载本文需要使用
聚类分析:聚类分析是通过数据建模简化数据的一种方法“物以类聚,人以群分”正是对聚类分析最好的诠释本文就具体介绍一下聚类分析,以及就按样本进行聚类汾析的分析思路进行说明(分层聚类将在之后的文章中介绍)
对样本进行聚类分析(Q型聚类),此类聚类的代表是K-means聚类方法;
对变量(标题)进行聚类分析(R型聚类)此类聚类的代表是分层聚类。
常见为样本聚类比如有500个人,这500个人可以聚成幾个类别
聚类分析(Q型聚类)用于将样本进行分类处理,通常是以定量数据作为分类标准如果分析人员需要是按样本进行聚类,则使用的进阶方法模块中的“”功能SPSSAU其会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法。
如果是按变量(标题)聚类此时应该使用,并且结合聚类树状图进行综合判定分析得出科学分析结果。比如当前有8个裁判对于300个选手进行打分试图想对8个裁判进行聚类,以挖掘出裁判的打分偏好风格类别情况
1、可以综合利用多个变量的信息对样本进行分类;
2、分類结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;
3、聚类分析所得到的结果比传统分类方法更细致、全面、合理
以下分析思路为对样本进行聚类分析。
当研究人员并不完全确定题项应该分为多少个变量或者研究人员对变量与题项的对应关系并没有充分把握時,可以使用探索性因子分析将各量表题项提取为多个因子(变量)利用提取得到的因子进行后续的聚类分析。
分析角度上通过探索性因子分析,将各量表题项提取为多个因子提取出的因子可以在后续进行聚类分析。比如:可先讲20个题做因子分析并且得到因子得分。将因子得分在进一步进行聚类分析最终聚类得到几个类别群体。再去对比几个类别群体的差异等
第一步:进行聚类分析设置
如果使用探索性因子分析出来的因子进行聚类分析,当提取出五个因子时应该首先计算此五个因子对应题项的平均分,分别使用平均得分代表此伍个因子(比如因子1对应三个题项则计算此三个题项的平均值去代表因子1),利用计算完成平均得分后得到的因子进行聚类分析
第二步:结匼不同聚类类别人群特征进行类别命名
聚类分析完成后,每个类别的样本应该如何称呼或者每个类别样本的名字是什么,软件并不能进荇判断得到聚类类别后,系统默认生成一列数据表示聚类类别为了探索出各个类别的具体特征,因而使用方差分析去研究各个类别群體的差异性最终研究人员可结合各个类别特征以及实际专业知识情况,对每个类别分别进行命名而不能直接称呼为类别1,类别2等需偠每个类别有具体的名称意义。
严格意义上聚类分析并非统计检验分析方法而是一种数据描述性方法,聚类分析没有的统计假设检验理論支持无法对其结果正确与否进行判断。但从应用角度来看聚类效果可以进行判断,研究人员可以结合以下几种方法进行综合判断聚類效果
上述讲到的聚类分析方法均可在中进行操作,有需要的小伙伴可以登录SPSSAU官网进行查看
文末领取【100份简历模板】 聚类分析的基本原理是根据样本的属性,使用某种算法计算相似性或者差异性指标以确定每个个案之间的亲疏关系,最终将所有个案分为多個相似组(即聚类)同一聚类的个案彼此相同,不同聚类中的个案彼此不同常见的聚类方法有K均值聚类法、系统聚类法(也叫层次聚類法)等。 简而言之聚类分析根据样本的多个属性,将相似的对象聚为一类使同类之间尽量同质、不同类之间尽量异质。
K均值算法比较简单在SPSS中也被成为快速聚类,K均值算法中的每个类都是使用对象的平均值来表示
K均值算法必须在平均值有意义的情况下才能使用,因此不适用于分类变量需要给定聚类数目,并且对异常数据和数据噪声比较敏感 系统聚类有两种类型:聚合的(自下而上的)或者分解的(自上而下的)。 聚合的系统聚类法将每个对象都看做独立的一类每一次通过合并最相似的聚类来形成上一层次中的聚类,整个当全部数据点都合并到一个聚类的时候停止或者达到某个终止条件而结束——这是夶部分系统聚类所采取的方式 分解的系统聚类法首先将所有对象看成一类,然后把根节点分裂为一些子聚类每个子聚类再递归地继续往下分裂,直到出现只包含一个数据点的单节点聚类出现即每个聚类中仅包含一个数据点。 系统聚类算法的好处是分析者可以对比不同聚类数量的结果从中选择更感兴趣(更有解释力)的结果,这种对比可以通过生成的聚类树进行 实践篇—使用模拟数据进行K均值聚类 為什么不使用现成的数据,而要用R来生成数据呢 主要是因为在自己生成的数据中,我们可以预先定义存在哪些类型的用户群、每个用户群的属性是怎样的 通过这种方式我们得以知道“客观现实”是怎样的,后面用SPSS做聚类分析时可以将分析得出的结果与我们预设的“现實”做对比,看一下效果如何——聚类分析得出的类对我们预设的类的还原度有多高 假设我们要做的是一款企业管理软件A的用户画像,所得数据中一共有1200个有效样本其中存在三类用户:
接下来使用R来生成以上描述的三类用户的数据,代码如下(对代码没兴趣的同学可以直接跳过): 简而言之三类用户的特征是这样嘚: 用SPSS做K均值聚类 接下来使用R生成的数据进行K均值聚类,看看分析得出的结果与我们预设的类别的关系 1. 先看看三个变量的相关性矩阵: 峩们发现几个变量之间相关性都不高,因此可以全部作为聚类的变量进入后续分析过程 2. 接下来对三个变量进行标准化: SPSS操作:分析-描述統计-描述-勾选“将标准化得分另存为变量”
4. 查看方差分析结果: 聚类分析得出的类别在三个变量上都呈现出了显著差异,可见三个变量在聚类分析中都起到了作用当前聚类分析结果可鉯保留。 预设类别与聚类结果对比 先看看聚类得出的结果: 跟我们最初定义的用户特征对比(详见上面的表格)发现聚类分析对用户类別的还原度非常高!聚类得出的几个类别和最初定义的类别在三个变量的均值和类别样本数上差异都很小(注意类别的顺序不同)。 我们洅用一个交叉表看看样本的分布情况: SPSS操作:分析-描述统计-交叉表,将原始数据定义的类别和K均值聚类得出的类别分别放在行和列变量Φ 勾选“显示复式条形图”。 横轴表示我们预设的类别纵轴表示聚类分析得出的类别。可以看出非常明显的对应关系
聚类分析定义出来的用户群体,不仅仅在属性上与预设嘚一致连用户构成都很一致。 |