系统聚类法的原理

系统聚类

系统聚类按指标进行聚类,适用于小样本数据,其步骤如下:

把每个指标各自归为一类,比如有n个样本,则为n类

寻找最近的两个类,把它们归为一类,此时为n-1类

重新计算距离,进行归类,直到所有样本归为一类,结束

一般查看树状图进行查看数据分为几类更合适

原理应用到pearson相关和欧式距离,其中欧式距离计算如下:

分层聚类有几点需要特别注意:

1:仅针对定量数据进行分层聚类;

2:如果数据的单位有较大差别,可首先对于数据进行标准化处理后,针对标准化数据进行分层聚类;

3:由于均为定量数据,因而从原理角度上,分层聚类时应该使用Pearson相关系数去度量距离,相关系数值越大说明越紧密,则说明距离越近,相关系数值越小说明越疏远,说明距离越远;SPSSAU默认使用Pearson相关系数表示距离大小;

4:SPSSAU进行分层聚类时使用组平均距离法进行聚类;通俗地讲即首先将相关性最强的两项聚成一类(第一个合并簇),接着找出与该“合并簇”相关性最强的第三项,聚类成第二个合并簇,接着为第三个合并簇,依次循环迭代此过程,直至结束。

SPSSAU操作: