【嵌牛導(dǎo)讀】FCM算法是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一簇的對(duì)象之間相似度最大,而不同簇之間的相似度最小。模糊C均值算法是普通C均值算法的改進(jìn),普通C均值算法對(duì)于數(shù)據(jù)的劃分是硬性的,而FCM則是一種柔性的模糊劃分。
【嵌牛提問(wèn)】FCM有什么用?
【嵌牛鼻子】模糊C均值聚類算法
【嵌牛正文】
聚類分析是多元統(tǒng)計(jì)分析的一種,也是無(wú)監(jiān)督模式識(shí)別的一個(gè)重要分支,在模式分類、圖像處理和模糊規(guī)則處理等眾多領(lǐng)域中獲得最廣泛的應(yīng)用。它把一個(gè)沒(méi)有類別標(biāo)記的樣本按照某種準(zhǔn)則劃分為若干子集,使相似的樣本盡可能歸于一類,而把不相似的樣本劃分到不同的類中。硬聚類把每個(gè)待識(shí)別的對(duì)象嚴(yán)格的劃分某類中,具有非此即彼的性質(zhì),而模糊聚類建立了樣本對(duì)類別的不確定描述,更能客觀的反應(yīng)客觀世界,從而成為聚類分析的主流。
模糊聚類算法是一種基于函數(shù)最優(yōu)方法的聚類算法,使用微積分計(jì)算技術(shù)求最優(yōu)代價(jià)函數(shù),在基于概率算法的聚類方法中將使用概率密度函數(shù),為此要假定合適的模型,模糊聚類算法的向量可以同時(shí)屬于多個(gè)聚類,從而擺脫上述問(wèn)題。 模糊聚類分析算法大致可分為三類:
1)分類數(shù)不定,根據(jù)不同要求對(duì)事物進(jìn)行動(dòng)態(tài)聚類,此類方法是基于模糊等價(jià)矩陣聚類的,稱為模糊等價(jià)矩陣動(dòng)態(tài)聚類分析法。
2)分類數(shù)給定,尋找出對(duì)事物的最佳分析方案,此類方法是基于目標(biāo)函數(shù)聚類的,稱為模糊C 均值聚類。
3)在攝動(dòng)有意義的情況下,根據(jù)模糊相似矩陣聚類,此類方法稱為基于攝動(dòng)的模糊聚類分析法。
我所學(xué)習(xí)的是模糊C 均值聚類算法,要學(xué)習(xí)模糊C 均值聚類算法要先了解慮屬度的含義,隸屬度函數(shù)是表示一個(gè)對(duì)象x 隸屬于集合A 的程度的函數(shù),通常記做μA (x),其自變量范圍是所有可能屬于集合A 的對(duì)象(即集合A 所在空間中的所有點(diǎn)),取值范圍是[0,1],即0<=μA (x)<=1。μA (x)=1表示x 完全隸屬于集合A ,相當(dāng)于傳統(tǒng)集合概念上的x ∈A 。一個(gè)定義在空間X={x}上的隸屬度函數(shù)就定義了一個(gè)模糊集合A ,或者叫定義在論域X={x}上的模糊子集A 。對(duì)于有限個(gè)對(duì)象x 1,x 2,……,x n 模糊集合A 可以表示為:A ={(μA (x i ), x i ) |x i ∈X } (6.1)
有了模糊集合的概念,一個(gè)元素隸屬于模糊集合就不是硬性的了,在聚類的問(wèn)題中,可以把聚類生成的簇看成模糊集合,因此,每個(gè)樣本點(diǎn)隸屬于簇的隸屬度就是[0,1]區(qū)間里面的值。
FCM 算法需要兩個(gè)參數(shù)一個(gè)是聚類數(shù)目C ,另一個(gè)是參數(shù)m 。一般來(lái)講C 要遠(yuǎn)遠(yuǎn)小于聚類樣本的總個(gè)數(shù),同時(shí)要保證C>1。對(duì)于m ,它是一個(gè)控制算法的柔性的參數(shù),如果m 過(guò)大,則聚類效果會(huì)很次,而如果m 過(guò)小則算法會(huì)接近HCM 聚類算法。算法的輸出是C 個(gè)聚類中心點(diǎn)向量和C*N的一個(gè)模糊劃分矩陣,這個(gè)矩陣表示的是每個(gè)樣本點(diǎn)屬于每個(gè)類的隸屬度。根據(jù)這個(gè)劃分矩陣按照模糊集合中的最大隸屬原則就能夠確定每個(gè)樣本點(diǎn)歸為哪個(gè)類。聚類中心表示的是每個(gè)類的平均特征,可以認(rèn)為是這個(gè)類的代表點(diǎn)。從算法的推導(dǎo)過(guò)程中我們不難看出,算法對(duì)于滿足正態(tài)分布的數(shù)據(jù)聚類效果會(huì)很好。
通過(guò)實(shí)驗(yàn)和算法的研究學(xué)習(xí),不難發(fā)現(xiàn)FCM算法的優(yōu)缺點(diǎn):
首先,模糊c 均值泛函Jm 仍是傳統(tǒng)的硬c 均值泛函J1 的自然推廣。J1 是一個(gè)應(yīng)用很廣泛的聚類準(zhǔn)則,對(duì)其在理論上的研究已經(jīng)相當(dāng)?shù)耐晟?,這就為Jm 的研究提供了良好的條件。
其次,從數(shù)學(xué)上看,Jm與Rs的希爾伯特空間結(jié)構(gòu)(正交投影和均方逼近理論) 有密切的關(guān)聯(lián),因此Jm 比其他泛函有更深厚的數(shù)學(xué)基礎(chǔ)。
最后,F(xiàn)CM 聚類算法不僅在許多鄰域獲得了非常成功的應(yīng)用,而且以該算法為基礎(chǔ),又提出基于其他原型的模糊聚類算法,形成了一大批FCM類型的算法,比如模糊c線( FCL) ,模糊c面(FCP) ,模糊c殼(FCS) 等聚類算法,分別實(shí)現(xiàn)了對(duì)呈線狀、超平面狀和“薄殼”狀結(jié)構(gòu)模式子集(或聚類) 的檢測(cè)。
模糊c均值算法因設(shè)計(jì)簡(jiǎn)單,解決問(wèn)題范圍廣,易于應(yīng)用計(jì)算機(jī)實(shí)現(xiàn)等特點(diǎn)受到了越來(lái)越多人的關(guān)注,并應(yīng)用于各個(gè)領(lǐng)域。但是,自身仍存在的諸多問(wèn)題,例如強(qiáng)烈依賴初始化數(shù)據(jù)的好壞和容易陷入局部鞍點(diǎn)等,仍然需要進(jìn)一步的研究。