
隨著聚類分析的發(fā)展,出現(xiàn)了大量的聚類算法。算法的選擇取決于數(shù)據(jù)的類型、聚類的目的和應(yīng)用。大體上,主要的聚類算法可以劃分為如下幾類:劃分方法、層次方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法等[2]。
1. 劃分方法(partitionmethod)
給定一個有N個元組或者記錄的數(shù)據(jù)集,劃分方法將構(gòu)造K個分組,每一個分組就代表一個聚類,K<N。而且這K分組滿足下列條件:
1)每一個分組至少包含一個數(shù)據(jù)記錄;
2)每一個數(shù)據(jù)記錄隸屬于且僅屬于一個分組;
對于給定的K,算法首先給出一個初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進之后分組方案都較前一次好,所謂的“好”的標(biāo)準(zhǔn)就是同一分組的記錄越相似越好,而不同分組中的記錄則越相異越好。最著名與最常用的劃分方法是k-Means方法[35]和k-中心點方法。
2. 基于層次的方法(hierarchicalmethod)
一個層次的聚類方法是將數(shù)據(jù)對象組成一棵聚類的樹。根據(jù)層次分解是自底向上還是自頂向下形成,層次的聚類方法可以進一步分為聚合式層次聚類(agglomerative)和分裂式層次聚類(divisive)。
聚合式的層次聚類,其層次過程的方向是自底向上的。將樣本集合中的每個對象作為一個初始簇,然后將最近的兩個簇合并,組成新的簇,再將這個新簇與剩余的簇中最近的合并,這種合并過程需要反復(fù)進行,直到所有的對象最終被聚到一個簇中。分裂式的層次聚類,其層次過程的方向是自頂向下的,最初先將有關(guān)對象放到一個簇中,然后將這個簇分裂,分裂的原則是使兩個子簇之間的聚類盡可能的遠,分裂的過程也反復(fù)進行,直到某個終止條件被滿足時結(jié)束。不論是合并還是分解的過程,都會產(chǎn)生樹狀結(jié)構(gòu),樹的葉子節(jié)點對應(yīng)各個獨立的對象,頂點對應(yīng)一個包含了所有對象的簇。常見的層次聚類算法有:BIRCH算法、CURE算法、ROCK算法等。
3. 基于密度的方法(density-basedmethod)
基于密度的方法[36]與其他方法的一個最根本的區(qū)別是:它不是基于各種各樣的距離,而是基于密度的,它將簇看做是數(shù)據(jù)空間中被低密度區(qū)域分割開的高密度對象區(qū)域,這種方法的優(yōu)勢是善于發(fā)現(xiàn)空間數(shù)據(jù)庫中任意形狀的聚類?;诿芏鹊木垲惛鶕?jù)空間密度的差別,把具有相似密度的點作為聚類。由于密度是一個局部概念,這類算法又稱為局部聚類(Local Clustering)。一般情況下,基于密度的聚類只掃描一次數(shù)據(jù)庫,故又稱為是單次掃描聚類(Single Scan Clustering)?;诿芏鹊木垲惙椒ㄖ饕袃煞N:基于高密度鏈接區(qū)域的密度聚類,如DBSCAN算法;基于密度分布函數(shù)的聚類,如DENCLUE算法。
4. 基于網(wǎng)格的方法(density-basedmethod)
基于網(wǎng)格的方法采用一個多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu)。它將數(shù)據(jù)空間量化,并將其劃分為有限數(shù)目的網(wǎng)格單元,所有的聚類操作都在網(wǎng)格上進行。該算法的優(yōu)勢在于 處理速度快,處理時間與數(shù)據(jù)對象的數(shù)目無關(guān)?;诰W(wǎng)格的聚類方法有STING算法和CLIQUE算法等。
5. 基于模型的方法(model-basedmehtod)
該方法是要建立數(shù)據(jù)與模型之間的最好的適應(yīng)結(jié)合關(guān)系,它試圖優(yōu)化給定的數(shù)據(jù)和某些數(shù)學(xué)模型之間的適應(yīng)性。其方法主要有兩類:統(tǒng)計學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法。
概念聚類的絕大多數(shù)方法采用了統(tǒng)計學(xué)的途徑。概念聚類是機器學(xué)習(xí)中的一種聚類方法,給出一組未標(biāo)記的對象,它產(chǎn)生對象的一個分類模式。與傳統(tǒng)的聚類不同,概念聚類除了確定相似對象的分組外,還向前走了一步,為每組對象發(fā)現(xiàn)了特征描述。即每組對象代表了一個概念或類。
神經(jīng)網(wǎng)絡(luò)方法將每個簇描述為一個標(biāo)本。標(biāo)本作為聚類的“原型”,不一定對應(yīng)一個特定的數(shù)據(jù)實例或?qū)ο蟆8鶕?jù)某些聚類度量,新的對象可以被分配給標(biāo)本與其最相似的簇。被分配給一個簇的對象的屬性可以根據(jù)該簇的標(biāo)本的屬性來預(yù)測。
愛華網(wǎng)



