聚類分析中的空間和距離概念

聚類分析的意義Cluster Analysis

在經(jīng)濟(jì)和社會(huì)學(xué)研究中,聚類分析是比較常用的多元統(tǒng)計(jì)分析方法,是將大量復(fù)雜多維的數(shù)據(jù)和變量進(jìn)行分組分析的方法。

例如采集1個(gè)億微信用戶樣本,他們的特征變量不太一樣,例如年齡、收入、性格、學(xué)歷、職業(yè)、興趣、生活作息習(xí)慣等等進(jìn)行初步的量化轉(zhuǎn)化,作為輸入變量進(jìn)行假設(shè)分析。

那么這一個(gè)億樣本里面,哪些人是能夠做為中產(chǎn)階級(jí),哪些人是可以作為文藝青年?

可以建立文藝青年分類指標(biāo),然后分析每個(gè)樣本個(gè)體之間的接近或相似程度,分組建立關(guān)聯(lián)函數(shù)。

從直觀和簡單的分組概念出發(fā),對(duì)于龐大的數(shù)據(jù),也可以進(jìn)行客觀的統(tǒng)計(jì)學(xué)分組劃分。

這里就會(huì)用到聚類分析方法,首先是測量樣本個(gè)體之間的差異或相似程度。

這里引入空間幾何概念,即將每個(gè)樣本當(dāng)作一個(gè)點(diǎn),分布在n維空間里,每個(gè)維度分別是年齡、收入、性格等。

如果兩個(gè)變量越接近,我們定義為兩個(gè)點(diǎn)之間的越相似或親密,這里使用“距離”的概念進(jìn)行定義。

如果變量是數(shù)值型的變量,而非函數(shù)變量。那么可以使用如下幾個(gè)空間和距離進(jìn)行量化樣本之間的親密程度。

歐式空間的歐式距離。Euclidean Distance in Euclidean Space.

定義為變量個(gè)體差值的平方和的平方根。

平方歐式距離 Squared Euclidean Distance

定義為變量個(gè)體差值的平方和,即歐式距離的平方和。

切比雪夫距離Chebychev Distance

定義為變量差值的絕對(duì)值得最大值

塊距離Block Distance

定義為變量差值的絕對(duì)值的總合

明考斯基距離Minkowski Distance

定義為變量差值絕對(duì)值的p次方的總和的p次根

夾角余弦距離Cosine Distance

定義為變量乘積的平方的和,除以(單獨(dú)每個(gè)變量自身平方的和,再相乘)

如果變量是計(jì)數(shù)的離散變量,那么距離就需要用以下方法定義

卡方距離Chi-Square Measure Distance

x,y變量之間的距離定義為x變量的第i個(gè)變量與期望值(這里也成為期望頻數(shù),例如一個(gè)人每天去咖啡館的平均次數(shù))的差值的平方,除以期望值之后進(jìn)行匯總計(jì)算,再加上y變量的第i個(gè)變量與期望值(這里也成為期望頻數(shù),例如一個(gè)人每天去咖啡館的平均次數(shù))的差值的平方,除以期望值之后進(jìn)行匯總計(jì)算。然后再開平方。

Phi方距離Phi-Square Measure Distance

和卡方距離的區(qū)別在于,是在最后一個(gè)開平方之前,先除以總頻數(shù)n。即加入了總頻數(shù)的數(shù)學(xué)考量。

如果變量是二項(xiàng)式數(shù)值,即0或1,有或無,是或非的選擇,那么距離可以用以下方法定義

簡單匹配系數(shù)Simple Matching

將2個(gè)選擇變量進(jìn)行矩陣組合,然后將一個(gè)變量為0,另一個(gè)變量為1的頻數(shù)相加,作為分子,除以分母。分母為矩陣中所有頻數(shù)的總和。

Jaccard系數(shù)

和簡單匹配系數(shù)的區(qū)別在于,分母減去了2個(gè)變量都為0的頻數(shù),即去掉了同時(shí)為0的數(shù)據(jù)的影響。

有了距離以后,下一步是劃分小組,或空間中的小球體,小集合

每個(gè)小組或小集合里面有n個(gè)樣本個(gè)體,可以按照不同的原則進(jìn)行最優(yōu)分組。例如最近鄰距離原則,組內(nèi)平均鏈鎖距離原則,重心距離,離差平方和距離方法等方法使得分組合理化和優(yōu)化。

形象點(diǎn)說,就是科學(xué)合理的通過數(shù)據(jù)統(tǒng)計(jì)方法將真正的文藝青年分成一組,偽文青分成一組,另類文青分成一組。。。

如果應(yīng)用于經(jīng)濟(jì)學(xué)領(lǐng)域,可以將100個(gè)國家按照發(fā)達(dá)指數(shù)、開放指數(shù)等做分類分層,按照聚類分析碎石圖,可以劃分層次,將這些國家分為3組、4組或更多組。

分組工具可以使用SPSS等統(tǒng)計(jì)分析軟件的聚類分析模塊來實(shí)現(xiàn)。

聚類分析先到這里,我們對(duì)空間和距離概念進(jìn)一步引申

數(shù)學(xué)上,空間、距離等概念在應(yīng)用和研究中,進(jìn)行了進(jìn)一步的抽象化。

我們常識(shí)上或直觀上理解的多為歐幾里得空間,也就是歐式空間,最常見的是三維歐式空間。即XYZ三個(gè)軸是相互垂直的關(guān)系,所有點(diǎn)可以通過三個(gè)軸對(duì)應(yīng)映射關(guān)系進(jìn)行三點(diǎn)定位。而歐式空間的距離,是兩點(diǎn)之間的實(shí)際距離。

進(jìn)一步引申,將三維空間抽象化之后,進(jìn)行4維、5維乃至n維空間,即有n個(gè)相互垂直的坐標(biāo)系,而每個(gè)點(diǎn)可以用n個(gè)軸上的映射進(jìn)行n點(diǎn)定位,這個(gè)空間的兩點(diǎn)之間的距離定義為兩個(gè)點(diǎn)第i個(gè)坐標(biāo)上映射的差值的平方和之后再開方。即我們前面提到的歐式空間距離概念。

明考斯基距離是歐式空間距離的進(jìn)一步推廣,如果p設(shè)定為2,則為歐式距離,如果p設(shè)定為無窮大,則為切比雪夫距離。

從以上數(shù)學(xué)定義推廣過程,我們可以看出,對(duì)于數(shù)值型的空間概念,是基于歐式空間的引申推廣而產(chǎn)生的不同定義,可以應(yīng)用在合適的場合和情景下。

而距離基于線性結(jié)構(gòu)八大定律之后,構(gòu)成的向量空間概念,是進(jìn)一步的抽象,而這個(gè)空間里,每個(gè)點(diǎn)到空間坐標(biāo)軸原點(diǎn)的距離,定義為范數(shù)norm。如果向量空間定義了范數(shù),則這個(gè)空間成為賦范向量空間。

然后進(jìn)一步抽象:

賦范空間+線性結(jié)構(gòu)?>線性賦范空間

如果在線性賦范空間上增加添加內(nèi)積運(yùn)算概念,即,使空間中向量在n個(gè)維度上映射的分別乘積的和,和向量之間的角度有關(guān),則這個(gè)空間稱為內(nèi)積空間。

如果在這個(gè)內(nèi)積空間里,所有的運(yùn)算的極限運(yùn)算,仍然在這個(gè)空間內(nèi),即收斂,那么這個(gè)空間就定義為希爾伯特空間Hilbert Space。

如果是基于線性賦范空間+收斂(完備性),則這個(gè)空間稱為巴拿赫空間Banach Space。

回歸到聚類分析,我們進(jìn)一步將聚類概念進(jìn)行抽象化

如果是將函數(shù)或向量進(jìn)行聚類,那么函數(shù)或向量之間的距離概念,則可以通過以上范數(shù)的概念進(jìn)行進(jìn)一步分析,而線性賦范空間的概念,為我們?yōu)楦橄蟮狞c(diǎn)和集合的分組聚類提供了可供探索的工具。

聚類分析或聚類算法在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等人工智能領(lǐng)域應(yīng)用較廣,它的一個(gè)重點(diǎn)特點(diǎn)是通過機(jī)器或計(jì)算機(jī)將大量數(shù)據(jù)進(jìn)行自動(dòng)統(tǒng)計(jì)分類,不需要人工參與。

關(guān)于希爾伯特空間、巴拿赫空間的聚類問題,可以繼續(xù)閱讀相關(guān)文獻(xiàn)。

深入閱讀:

下面文獻(xiàn)可以通過高校郵箱進(jìn)行注冊(cè)賬號(hào),閱讀公開論文。

Clustering via Hilbert space

Clustering in Banach Spaces

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,237評(píng)論 6 537
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,957評(píng)論 3 423
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,248評(píng)論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,356評(píng)論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,081評(píng)論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,485評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,534評(píng)論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,720評(píng)論 0 289
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,263評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,025評(píng)論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,204評(píng)論 1 371
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,787評(píng)論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,461評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,874評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,105評(píng)論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,945評(píng)論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,205評(píng)論 2 375

推薦閱讀更多精彩內(nèi)容