模糊C均值聚類算法(FCM)

【嵌牛導(dǎo)讀】FCM算法是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一簇的對(duì)象之間相似度最大,而不同簇之間的相似度最小。模糊C均值算法是普通C均值算法的改進(jìn),普通C均值算法對(duì)于數(shù)據(jù)的劃分是硬性的,而FCM則是一種柔性的模糊劃分。

【嵌牛提問(wèn)】FCM有什么用?

【嵌牛鼻子】模糊C均值聚類算法

【嵌牛正文】

聚類分析是多元統(tǒng)計(jì)分析的一種,也是無(wú)監(jiān)督模式識(shí)別的一個(gè)重要分支,在模式分類、圖像處理和模糊規(guī)則處理等眾多領(lǐng)域中獲得最廣泛的應(yīng)用。它把一個(gè)沒(méi)有類別標(biāo)記的樣本按照某種準(zhǔn)則劃分為若干子集,使相似的樣本盡可能歸于一類,而把不相似的樣本劃分到不同的類中。硬聚類把每個(gè)待識(shí)別的對(duì)象嚴(yán)格的劃分某類中,具有非此即彼的性質(zhì),而模糊聚類建立了樣本對(duì)類別的不確定描述,更能客觀的反應(yīng)客觀世界,從而成為聚類分析的主流。

模糊聚類算法是一種基于函數(shù)最優(yōu)方法的聚類算法,使用微積分計(jì)算技術(shù)求最優(yōu)代價(jià)函數(shù),在基于概率算法的聚類方法中將使用概率密度函數(shù),為此要假定合適的模型,模糊聚類算法的向量可以同時(shí)屬于多個(gè)聚類,從而擺脫上述問(wèn)題。 模糊聚類分析算法大致可分為三類:

1)分類數(shù)不定,根據(jù)不同要求對(duì)事物進(jìn)行動(dòng)態(tài)聚類,此類方法是基于模糊等價(jià)矩陣聚類的,稱為模糊等價(jià)矩陣動(dòng)態(tài)聚類分析法。

2)分類數(shù)給定,尋找出對(duì)事物的最佳分析方案,此類方法是基于目標(biāo)函數(shù)聚類的,稱為模糊C 均值聚類。

3)在攝動(dòng)有意義的情況下,根據(jù)模糊相似矩陣聚類,此類方法稱為基于攝動(dòng)的模糊聚類分析法。

我所學(xué)習(xí)的是模糊C 均值聚類算法,要學(xué)習(xí)模糊C 均值聚類算法要先了解慮屬度的含義,隸屬度函數(shù)是表示一個(gè)對(duì)象x 隸屬于集合A 的程度的函數(shù),通常記做μA (x),其自變量范圍是所有可能屬于集合A 的對(duì)象(即集合A 所在空間中的所有點(diǎn)),取值范圍是[0,1],即0<=μA (x)<=1。μA (x)=1表示x 完全隸屬于集合A ,相當(dāng)于傳統(tǒng)集合概念上的x ∈A 。一個(gè)定義在空間X={x}上的隸屬度函數(shù)就定義了一個(gè)模糊集合A ,或者叫定義在論域X={x}上的模糊子集A 。對(duì)于有限個(gè)對(duì)象x 1,x 2,……,x n 模糊集合A 可以表示為:A ={(μA (x i ), x i ) |x i ∈X } (6.1)

有了模糊集合的概念,一個(gè)元素隸屬于模糊集合就不是硬性的了,在聚類的問(wèn)題中,可以把聚類生成的簇看成模糊集合,因此,每個(gè)樣本點(diǎn)隸屬于簇的隸屬度就是[0,1]區(qū)間里面的值。

FCM 算法需要兩個(gè)參數(shù)一個(gè)是聚類數(shù)目C ,另一個(gè)是參數(shù)m 。一般來(lái)講C 要遠(yuǎn)遠(yuǎn)小于聚類樣本的總個(gè)數(shù),同時(shí)要保證C>1。對(duì)于m ,它是一個(gè)控制算法的柔性的參數(shù),如果m 過(guò)大,則聚類效果會(huì)很次,而如果m 過(guò)小則算法會(huì)接近HCM 聚類算法。算法的輸出是C 個(gè)聚類中心點(diǎn)向量和C*N的一個(gè)模糊劃分矩陣,這個(gè)矩陣表示的是每個(gè)樣本點(diǎn)屬于每個(gè)類的隸屬度。根據(jù)這個(gè)劃分矩陣按照模糊集合中的最大隸屬原則就能夠確定每個(gè)樣本點(diǎn)歸為哪個(gè)類。聚類中心表示的是每個(gè)類的平均特征,可以認(rèn)為是這個(gè)類的代表點(diǎn)。從算法的推導(dǎo)過(guò)程中我們不難看出,算法對(duì)于滿足正態(tài)分布的數(shù)據(jù)聚類效果會(huì)很好。

通過(guò)實(shí)驗(yàn)和算法的研究學(xué)習(xí),不難發(fā)現(xiàn)FCM算法的優(yōu)缺點(diǎn):

首先,模糊c 均值泛函Jm 仍是傳統(tǒng)的硬c 均值泛函J1 的自然推廣。J1 是一個(gè)應(yīng)用很廣泛的聚類準(zhǔn)則,對(duì)其在理論上的研究已經(jīng)相當(dāng)?shù)耐晟?,這就為Jm 的研究提供了良好的條件。

其次,從數(shù)學(xué)上看,Jm與Rs的希爾伯特空間結(jié)構(gòu)(正交投影和均方逼近理論) 有密切的關(guān)聯(lián),因此Jm 比其他泛函有更深厚的數(shù)學(xué)基礎(chǔ)。

最后,F(xiàn)CM 聚類算法不僅在許多鄰域獲得了非常成功的應(yīng)用,而且以該算法為基礎(chǔ),又提出基于其他原型的模糊聚類算法,形成了一大批FCM類型的算法,比如模糊c線( FCL) ,模糊c面(FCP) ,模糊c殼(FCS) 等聚類算法,分別實(shí)現(xiàn)了對(duì)呈線狀、超平面狀和“薄殼”狀結(jié)構(gòu)模式子集(或聚類) 的檢測(cè)。

模糊c均值算法因設(shè)計(jì)簡(jiǎn)單,解決問(wèn)題范圍廣,易于應(yīng)用計(jì)算機(jī)實(shí)現(xiàn)等特點(diǎn)受到了越來(lái)越多人的關(guān)注,并應(yīng)用于各個(gè)領(lǐng)域。但是,自身仍存在的諸多問(wèn)題,例如強(qiáng)烈依賴初始化數(shù)據(jù)的好壞和容易陷入局部鞍點(diǎn)等,仍然需要進(jìn)一步的研究。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 1. 章節(jié)主要內(nèi)容 “聚類”(clustering)算法是“無(wú)監(jiān)督學(xué)習(xí)”算法中研究最多、應(yīng)用最廣的算法,它試圖將數(shù)...
    閃電隨筆閱讀 5,078評(píng)論 1 24
  • 寫在之前 因簡(jiǎn)書(shū)導(dǎo)入公式很麻煩,如果想獲得更好的觀看體驗(yàn)請(qǐng)移步https://www.zybuluo.com/ha...
    hainingwyx閱讀 6,921評(píng)論 2 13
  • 一些聚類算法 Birch層次聚類 ,KMeans原形算法 ,AGNES層次算法, DBSCAN密度算法, LVQ原...
    AresAnt閱讀 2,626評(píng)論 0 2
  • 單選題 1. 某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購(gòu)買尿布,這種屬于數(shù)據(jù)挖掘的哪類問(wèn)題?(A) A...
    山的那邊是什么_閱讀 33,716評(píng)論 2 59
  • 小編閑來(lái)無(wú)聊,寫了一篇征文,放出來(lái)給大家看看,希望得到大家的評(píng)價(jià),十分感謝。 遼寧陽(yáng)光校園征文作品展示:作品展示0...
    夏筱白閱讀 203評(píng)論 1 3