分類:
系統(tǒng)聚類方法(Hierarchical Cluster過程):直觀、易懂
快速聚類(K-means Cluster過程):快速、動態(tài)
有序聚類:時間順序or大小順序

相似性度量:
一。變量測量尺度的類型
間隔尺度:數(shù)量概念
順序尺度:次序概念
名義尺度:純粹一個標記,例如眼睛顏色、物品種類
二。樣品間親疏程度的測度
1.
R型聚類:(P階X'X)基于樣品,對指標聚類——相似系數(shù)(1,-1)
Q型聚類:(n階XX')基于指標,對樣品聚類——將樣品看成點,點點距離
2.常用距離算法
閔可夫斯基距離(明氏距離minkowski):閔氏距離、絕對距離、歐式距離、切比雪夫距離
——受量綱影響,沒考慮變量之間相關性
馬氏距離(廣義歐氏距離)
——不受量綱影響,考慮了變量之間相關性(假設變量之間獨立)
蘭氏距離
——不受量綱影響,沒考慮變量之間相關性
斜交空間距離
3.相似系數(shù)(變量相似性度量)
相似系數(shù):數(shù)據(jù)便準話后的夾角余弦
夾角余弦
系統(tǒng)聚類方法
一。分析過程
每個樣本自成一類,計算兩兩距離,共有Cn2個——將距離最小的合并為新類——利用遞推公式計算新類與其他類之間的距離——重復,直到所有樣本點歸為一類——畫聚類圖——決定類的個數(shù)
二。常見聚類法
最短距離(nearest neighbor)
最長距離(furthest neighbor)
中間距離法
重心法(gentroid clustering):樣品的均值法
離差平方和法(ward's method):類內離差平方和最小,類間最大
三。確定類的個數(shù)
1.給定閾值:距離<閾值
2.觀測樣品散點圖
3.R^2統(tǒng)計量=類間離差平方和總離差平方和——越大越好
4.偽F統(tǒng)計量(Pseudo statistic)——越大越好
5.偽t^2統(tǒng)計量:評價第p類和第q類合并的效果(與沒合并時比較)
四。主要步驟
1.選擇變量
2.計算相似性
3.聚類:選擇方法,確定類數(shù)
4.聚類結果的解釋和證實
動態(tài)聚類
一。思想
主要作用是適用于大型數(shù)據(jù)。克服了系統(tǒng)聚類的復雜繁瑣。
二。方法:
K-meanscluster:空間群點任選兩點聚核——第一次分類——求該類中心——第二次分類——……直到所有樣品不能再分配為止
三。特點
效率高:收斂到局部最優(yōu)解
四。問題
分類型數(shù)據(jù)中心如何定義
預先指定聚類個數(shù)K
結果受初始值的影響
適合形狀規(guī)則的聚類
愛華網



