聚類分析的意義Cluster Analysis
在經(jīng)濟(jì)和社會(huì)學(xué)研究中,聚類分析是比較常用的多元統(tǒng)計(jì)分析方法,是將大量復(fù)雜多維的數(shù)據(jù)和變量進(jìn)行分組分析的方法。
例如采集1個(gè)億微信用戶樣本,他們的特征變量不太一樣,例如年齡、收入、性格、學(xué)歷、職業(yè)、興趣、生活作息習(xí)慣等等進(jìn)行初步的量化轉(zhuǎn)化,作為輸入變量進(jìn)行假設(shè)分析。
那么這一個(gè)億樣本里面,哪些人是能夠做為中產(chǎn)階級(jí),哪些人是可以作為文藝青年?
可以建立文藝青年分類指標(biāo),然后分析每個(gè)樣本個(gè)體之間的接近或相似程度,分組建立關(guān)聯(lián)函數(shù)。
從直觀和簡單的分組概念出發(fā),對(duì)于龐大的數(shù)據(jù),也可以進(jìn)行客觀的統(tǒng)計(jì)學(xué)分組劃分。
這里就會(huì)用到聚類分析方法,首先是測量樣本個(gè)體之間的差異或相似程度。
這里引入空間幾何概念,即將每個(gè)樣本當(dāng)作一個(gè)點(diǎn),分布在n維空間里,每個(gè)維度分別是年齡、收入、性格等。
如果兩個(gè)變量越接近,我們定義為兩個(gè)點(diǎn)之間的越相似或親密,這里使用“距離”的概念進(jìn)行定義。
如果變量是數(shù)值型的變量,而非函數(shù)變量。那么可以使用如下幾個(gè)空間和距離進(jìn)行量化樣本之間的親密程度。
歐式空間的歐式距離。Euclidean Distance in Euclidean Space.
定義為變量個(gè)體差值的平方和的平方根。
平方歐式距離 Squared Euclidean Distance
定義為變量個(gè)體差值的平方和,即歐式距離的平方和。
切比雪夫距離Chebychev Distance
定義為變量差值的絕對(duì)值得最大值
塊距離Block Distance
定義為變量差值的絕對(duì)值的總合
明考斯基距離Minkowski Distance
定義為變量差值絕對(duì)值的p次方的總和的p次根
夾角余弦距離Cosine Distance
定義為變量乘積的平方的和,除以(單獨(dú)每個(gè)變量自身平方的和,再相乘)
如果變量是計(jì)數(shù)的離散變量,那么距離就需要用以下方法定義
卡方距離Chi-Square Measure Distance
x,y變量之間的距離定義為x變量的第i個(gè)變量與期望值(這里也成為期望頻數(shù),例如一個(gè)人每天去咖啡館的平均次數(shù))的差值的平方,除以期望值之后進(jìn)行匯總計(jì)算,再加上y變量的第i個(gè)變量與期望值(這里也成為期望頻數(shù),例如一個(gè)人每天去咖啡館的平均次數(shù))的差值的平方,除以期望值之后進(jìn)行匯總計(jì)算。然后再開平方。
Phi方距離Phi-Square Measure Distance
和卡方距離的區(qū)別在于,是在最后一個(gè)開平方之前,先除以總頻數(shù)n。即加入了總頻數(shù)的數(shù)學(xué)考量。
如果變量是二項(xiàng)式數(shù)值,即0或1,有或無,是或非的選擇,那么距離可以用以下方法定義
簡單匹配系數(shù)Simple Matching
將2個(gè)選擇變量進(jìn)行矩陣組合,然后將一個(gè)變量為0,另一個(gè)變量為1的頻數(shù)相加,作為分子,除以分母。分母為矩陣中所有頻數(shù)的總和。
Jaccard系數(shù)
和簡單匹配系數(shù)的區(qū)別在于,分母減去了2個(gè)變量都為0的頻數(shù),即去掉了同時(shí)為0的數(shù)據(jù)的影響。
有了距離以后,下一步是劃分小組,或空間中的小球體,小集合
每個(gè)小組或小集合里面有n個(gè)樣本個(gè)體,可以按照不同的原則進(jìn)行最優(yōu)分組。例如最近鄰距離原則,組內(nèi)平均鏈鎖距離原則,重心距離,離差平方和距離方法等方法使得分組合理化和優(yōu)化。
形象點(diǎn)說,就是科學(xué)合理的通過數(shù)據(jù)統(tǒng)計(jì)方法將真正的文藝青年分成一組,偽文青分成一組,另類文青分成一組。。。
如果應(yīng)用于經(jīng)濟(jì)學(xué)領(lǐng)域,可以將100個(gè)國家按照發(fā)達(dá)指數(shù)、開放指數(shù)等做分類分層,按照聚類分析碎石圖,可以劃分層次,將這些國家分為3組、4組或更多組。
分組工具可以使用SPSS等統(tǒng)計(jì)分析軟件的聚類分析模塊來實(shí)現(xiàn)。
聚類分析先到這里,我們對(duì)空間和距離概念進(jìn)一步引申
數(shù)學(xué)上,空間、距離等概念在應(yīng)用和研究中,進(jìn)行了進(jìn)一步的抽象化。
我們常識(shí)上或直觀上理解的多為歐幾里得空間,也就是歐式空間,最常見的是三維歐式空間。即XYZ三個(gè)軸是相互垂直的關(guān)系,所有點(diǎn)可以通過三個(gè)軸對(duì)應(yīng)映射關(guān)系進(jìn)行三點(diǎn)定位。而歐式空間的距離,是兩點(diǎn)之間的實(shí)際距離。
進(jìn)一步引申,將三維空間抽象化之后,進(jìn)行4維、5維乃至n維空間,即有n個(gè)相互垂直的坐標(biāo)系,而每個(gè)點(diǎn)可以用n個(gè)軸上的映射進(jìn)行n點(diǎn)定位,這個(gè)空間的兩點(diǎn)之間的距離定義為兩個(gè)點(diǎn)第i個(gè)坐標(biāo)上映射的差值的平方和之后再開方。即我們前面提到的歐式空間距離概念。
明考斯基距離是歐式空間距離的進(jìn)一步推廣,如果p設(shè)定為2,則為歐式距離,如果p設(shè)定為無窮大,則為切比雪夫距離。
從以上數(shù)學(xué)定義推廣過程,我們可以看出,對(duì)于數(shù)值型的空間概念,是基于歐式空間的引申推廣而產(chǎn)生的不同定義,可以應(yīng)用在合適的場合和情景下。
而距離基于線性結(jié)構(gòu)八大定律之后,構(gòu)成的向量空間概念,是進(jìn)一步的抽象,而這個(gè)空間里,每個(gè)點(diǎn)到空間坐標(biāo)軸原點(diǎn)的距離,定義為范數(shù)norm。如果向量空間定義了范數(shù),則這個(gè)空間成為賦范向量空間。
然后進(jìn)一步抽象:
賦范空間+線性結(jié)構(gòu)?>線性賦范空間
如果在線性賦范空間上增加添加內(nèi)積運(yùn)算概念,即,使空間中向量在n個(gè)維度上映射的分別乘積的和,和向量之間的角度有關(guān),則這個(gè)空間稱為內(nèi)積空間。
如果在這個(gè)內(nèi)積空間里,所有的運(yùn)算的極限運(yùn)算,仍然在這個(gè)空間內(nèi),即收斂,那么這個(gè)空間就定義為希爾伯特空間Hilbert Space。
如果是基于線性賦范空間+收斂(完備性),則這個(gè)空間稱為巴拿赫空間Banach Space。
回歸到聚類分析,我們進(jìn)一步將聚類概念進(jìn)行抽象化
如果是將函數(shù)或向量進(jìn)行聚類,那么函數(shù)或向量之間的距離概念,則可以通過以上范數(shù)的概念進(jìn)行進(jìn)一步分析,而線性賦范空間的概念,為我們?yōu)楦橄蟮狞c(diǎn)和集合的分組聚類提供了可供探索的工具。
聚類分析或聚類算法在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等人工智能領(lǐng)域應(yīng)用較廣,它的一個(gè)重點(diǎn)特點(diǎn)是通過機(jī)器或計(jì)算機(jī)將大量數(shù)據(jù)進(jìn)行自動(dòng)統(tǒng)計(jì)分類,不需要人工參與。
關(guān)于希爾伯特空間、巴拿赫空間的聚類問題,可以繼續(xù)閱讀相關(guān)文獻(xiàn)。
深入閱讀:
下面文獻(xiàn)可以通過高校郵箱進(jìn)行注冊(cè)賬號(hào),閱讀公開論文。