第二节 Hierarchical Cluster过程
10.2.1 主要功能
调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式,一是对研究对象本身进行分类,称为Q型举类;另一是对研究对象的观察指标进行分类,称为R型聚类。
10.2.2 实例操作
[例10.2]29名儿童的血红蛋白(g/100ml)与微量元素(μg/100ml)测定结果如下表。由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R型指标聚类)筛选代表性指标,以便更经济快捷地评价儿童的营养状态。
编号 N0. |
钙 X1 |
镁 X2 |
铁 X3 |
锰 X4 |
铜 X5 |
血红蛋白 X6 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
54.89 72.49 53.81 64.74 58.80 43.67 54.89 86.12 60.35 54.04 61.23 60.17 69.69 72.28 55.13 70.08 63.05 48.75 52.28 52.21 49.71 61.02 53.68 50.22 65.34 56.39 66.12 73.89 47.31 |
30.86 42.61 52.86 39.18 37.67 26.18 30.86 43.79 38.20 34.23 37.35 33.67 40.01 40.12 33.02 36.81 35.07 30.53 27.14 36.18 25.43 29.27 28.79 29.17 29.99 29.29 31.93 32.94 28.55 |
448.70 467.30 425.61 469.80 456.55 395.78 448.70 440.13 394.40 405.60 446.00 383.20 416.70 430.80 445.80
409.80 384.10 342.90 326.29 388.54 331.10 258.94 292.80 292.60 312.80 283.00 344.20 312.50 294.70 |
0.012 0.008 0.004 0.005 0.012 0.001 0.012 0.017 0.001 0.008 0.022 0.001 0.012 0.000 0.012 0.012 0.000 0.018 0.004 0.024 0.012 0.016 0.048 0.006 0.006 0.016 0.000 0.064 0.005 |
1.010 1.640 1.220 1.220 1.010 0.594 1.010 1.770 1.140 1.300 1.380 0.914 1.350 1.200 0.918 1.190 0.853 0.924 0.817 1.020 0.897 1.190 1.320 1.040 1.030 1.350 0.689 1.150 0.838 |
13.50 13.00 13.75 14.00 14.25 12.75 12.50 12.25 12.00 11.75 11.50 11.25 11.00 10.75 10.50 10.25 10.00 9.75 9.50 9.25 9.00 8.75 8.50 8.25 8.00 7.80 7.50 7.25 7.00 |
编号 |
冠心病人组 |
编号 |
正常人组 | ||
舒张压kPa x1 |
胆固醇mmol/L x2 |
舒张压kPa x1 |
胆固醇mmol/L x2 | ||
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 |
9.86 13.33 14.66 9.33 12.80 10.66 10.66 13.33 13.33 13.33 12.00 14.66 13.33 12.80 13.33 |
5.18 3.73 3.89 7.10 5.49 4.09 4.45 3.63 5.96 5.70 6.19 4.01 4.01 3.63 5.96 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
10.66 12.53 13.33 9.33 10.66 10.66 9.33 10.66 10.66 10.66 10.40 9.33 10.66 10.66 11.20 9.33 |
2.07 4.45 3.06 3.94 4.45 4.92 3.68 2.77 3.21 5.02 3.94 4.92 2.69 2.43 3.42 3.63 |
10.2.2.1 数据准备
激活数据管理窗口,定义变量名:钙、镁、铁、锰、铜和血红蛋白的变量名分别为x1、x2、x3、x4、x5、x6,之后输入原始数据。
10.2.2.2 统计分析
激活Statistics菜单选Classify中的Hierarchical Cluster...项,弹出Hierarchical Cluster Analysis对话框(图10.3)。从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6,点击Ø钮使之进入Variable(s)框;在Cluster处选择聚类类型,其中Cases表示观察对象聚类,Variables表示变量聚类,本例选择Variables。
图10.3 系统聚类分析对话框
点击Statistics...钮,弹出Hierarchical Cluster Analysis: Statistics对话框,选择Distance matrix,要求显示距离矩阵,点击Continue钮返回Hierarchical Cluster Analysis对话框(图10.4)。
图10.4 系统聚类方法选择对话框
本例要求系统输出聚类结果的树状关系图,故点击Plots...钮弹出Hierarchical Cluster Analysislots对话框,选择Dendrogram项,点击Continue钮返回Hierarchical Cluster Analysis对话框。
点击Method...钮弹出Hierarchical Cluster Analysis:Method对话框,系统提供7种聚类方法供用户选择:
Between-groups linkage:类间平均链锁法;
Within-groups linkage:类内平均链锁法;
Nearest neighbor:最近邻居法;
Furthest neighbor:最远邻居法;
Centroid clustering:重心法,应与欧氏距离平方法一起使用;
Median clustering:中间距离法,应与欧氏距离平方法一起使用;
Ward's method:离差平方和法,应与欧氏距离平方法一起使用。
本例选择类间平均链锁法(系统默认方法)。在选择距离测量技术上,系统提供8种形式供用户选择:
Euclidean distance:Euclidean距离,即两观察单位间的距离为其值差的平方和的平方根,该技术用于Q型聚类;
Squared Euclidean distance:Euclidean距离平方,即两观察单位间的距离为其值差的平方和,该技术用于Q型聚类;
Cosine:变量矢量的余弦,这是模型相似性的度量;
Pearson correlation:相关系数距离,适用于R型聚类;
Chebychev:Chebychev距离,即两观察单位间的距离为其任意变量的最大绝对差值,该技术用于Q型聚类;
Block:City-Block或Manhattan距离,即两观察单位间的距离为其值差的绝对值和,适用于Q型聚类;
Minkowski:距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的平方根;p由用户指定
Customized:距离是一个绝对幂的度量,即变量绝对值的第p次幂之和的第r次根,p与r由用户指定。
本例选用Pearson correlation,点击Continue钮返回Hierarchical Cluster Analysis对话框,再点击OK钮即完成分析。
10.2.2.3 结果解释
在结果输出窗口中将看到如下统计数据:
共29例样本进入聚类分析,采用相关系数测量技术。先显示各变量间的相关系数,这对于后面选择典型变量是十分有用的。然后显示类间平均链锁法的合并进程,即第一步,X3与X6被合并,它们之间的相关系数最大,为0.863431;第二步,X1与X5合并,其间相关系数为0.624839;第三步,X2与第一步的合并项被合并,它们之间的相关系数为0.602099;第四步,它们与第二步的合并项再合并,其间相关系数为0.338335;第五步,与最后一个变量X4合并,这个相关系数最小,为-0.054485。
Data Information 29 unweighted cases accepted. 0 cases rejected because of missing value. Correlation measure used.
Correlation Similarity Coefficient Matrix Variable X1 X2 X3 X4 X5 X2 .5379 X3 .2995 .6349 X4 .1480 -.1212 -.2706 X5 .6248 .5820 .2653 .2939 X6 .0972 .5693 .8634 -.3226 .2481
Agglomeration Schedule using Average Linkage (Between Groups) Clusters Combined Stage Cluster 1st Appears Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage 1 3 6 .863431 0 0 3 2 1 5 .624839 0 0 4 3 2 3 .602099 0 1 4 4 1 2 .338335 2 3 5 5 1 4 -.054485 4 0 0
|
按类间平均链锁法,变量合并过程的冰柱图如下。先是X3与X6合并,接着X1与X5合并,然后X3、X6与X2合并,接着再与X1、X5合并,最后加上X4,六个变量全部合并。
Vertical Icicle Plot using Average Linkage (Between Groups)
(Down) Number of Clusters (Across) Case Label and number
下面用更为直观的聚类树状关系图表示,即X1、X2、X3、X5、X6先聚合后与X4再聚合。这表明,在评价儿童营养状态时,可在微量元素钙、镁、铁、铜和血红蛋白5个指标中选择一个,再加上微量元素锰即可,其效果与六个指标都用是基本等价的,但更经济更迅速。
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
本例相关指数的均值依次为:
故选择镁(变量X2)典型指标。
欢迎光临 FRM论坛 (http://frmspace.com/) | Powered by Discuz! 7.2 |