系统聚类法的原理
系统聚类
系统聚类按指标进行聚类,适用于小样本数据,其步骤如下:
把每个指标各自归为一类,比如有n个样本,则为n类
寻找最近的两个类,把它们归为一类,此时为n-1类
重新计算距离,进行归类,直到所有样本归为一类,结束
一般查看树状图进行查看数据分为几类更合适
原理应用到pearson相关和欧式距离,其中欧式距离计算如下:
分层聚类有几点需要特别注意:
1:仅针对定量数据进行分层聚类;
2:如果数据的单位有较大差别,可首先对于数据进行标准化处理后,针对标准化数据进行分层聚类;
3:由于均为定量数据,因而从原理角度上,分层聚类时应该使用Pearson相关系数去度量距离,相关系数值越大说明越紧密,则说明距离越近,相关系数值越小说明越疏远,说明距离越远;SPSSAU默认使用Pearson相关系数表示距离大小;
4:SPSSAU进行分层聚类时使用组平均距离法进行聚类;通俗地讲即首先将相关性最强的两项聚成一类(第一个合并簇),接着找出与该“合并簇”相关性最强的第三项,聚类成第二个合并簇,接着为第三个合并簇,依次循环迭代此过程,直至结束。
SPSSAU操作: