聚類分析中的空間和距離概念

聚類分析的意義Cluster Analysis

在經濟和社會學研究中,聚類分析是比較常用的多元統計分析方法,是將大量復雜多維的數據和變量進行分組分析的方法。

例如采集1個億微信用戶樣本,他們的特征變量不太一樣,例如年齡、收入、性格、學歷、職業、興趣、生活作息習慣等等進行初步的量化轉化,作為輸入變量進行假設分析。

那么這一個億樣本里面,哪些人是能夠做為中產階級,哪些人是可以作為文藝青年?

可以建立文藝青年分類指標,然后分析每個樣本個體之間的接近或相似程度,分組建立關聯函數。

從直觀和簡單的分組概念出發,對于龐大的數據,也可以進行客觀的統計學分組劃分。

這里就會用到聚類分析方法,首先是測量樣本個體之間的差異或相似程度。

這里引入空間幾何概念,即將每個樣本當作一個點,分布在n維空間里,每個維度分別是年齡、收入、性格等。

如果兩個變量越接近,我們定義為兩個點之間的越相似或親密,這里使用“距離”的概念進行定義。

如果變量是數值型的變量,而非函數變量。那么可以使用如下幾個空間和距離進行量化樣本之間的親密程度。

歐式空間的歐式距離。Euclidean Distance in Euclidean Space.

定義為變量個體差值的平方和的平方根。

平方歐式距離 Squared Euclidean Distance

定義為變量個體差值的平方和,即歐式距離的平方和。

切比雪夫距離Chebychev Distance

定義為變量差值的絕對值得最大值

塊距離Block Distance

定義為變量差值的絕對值的總合

明考斯基距離Minkowski Distance

定義為變量差值絕對值的p次方的總和的p次根

夾角余弦距離Cosine Distance

定義為變量乘積的平方的和,除以(單獨每個變量自身平方的和,再相乘)

如果變量是計數的離散變量,那么距離就需要用以下方法定義

卡方距離Chi-Square Measure Distance

x,y變量之間的距離定義為x變量的第i個變量與期望值(這里也成為期望頻數,例如一個人每天去咖啡館的平均次數)的差值的平方,除以期望值之后進行匯總計算,再加上y變量的第i個變量與期望值(這里也成為期望頻數,例如一個人每天去咖啡館的平均次數)的差值的平方,除以期望值之后進行匯總計算。然后再開平方。

Phi方距離Phi-Square Measure Distance

和卡方距離的區別在于,是在最后一個開平方之前,先除以總頻數n。即加入了總頻數的數學考量。

如果變量是二項式數值,即0或1,有或無,是或非的選擇,那么距離可以用以下方法定義

簡單匹配系數Simple Matching

將2個選擇變量進行矩陣組合,然后將一個變量為0,另一個變量為1的頻數相加,作為分子,除以分母。分母為矩陣中所有頻數的總和。

Jaccard系數

和簡單匹配系數的區別在于,分母減去了2個變量都為0的頻數,即去掉了同時為0的數據的影響。

有了距離以后,下一步是劃分小組,或空間中的小球體,小集合

每個小組或小集合里面有n個樣本個體,可以按照不同的原則進行最優分組。例如最近鄰距離原則,組內平均鏈鎖距離原則,重心距離,離差平方和距離方法等方法使得分組合理化和優化。

形象點說,就是科學合理的通過數據統計方法將真正的文藝青年分成一組,偽文青分成一組,另類文青分成一組。。。

如果應用于經濟學領域,可以將100個國家按照發達指數、開放指數等做分類分層,按照聚類分析碎石圖,可以劃分層次,將這些國家分為3組、4組或更多組。

分組工具可以使用SPSS等統計分析軟件的聚類分析模塊來實現。

聚類分析先到這里,我們對空間和距離概念進一步引申

數學上,空間、距離等概念在應用和研究中,進行了進一步的抽象化。

我們常識上或直觀上理解的多為歐幾里得空間,也就是歐式空間,最常見的是三維歐式空間。即XYZ三個軸是相互垂直的關系,所有點可以通過三個軸對應映射關系進行三點定位。而歐式空間的距離,是兩點之間的實際距離。

進一步引申,將三維空間抽象化之后,進行4維、5維乃至n維空間,即有n個相互垂直的坐標系,而每個點可以用n個軸上的映射進行n點定位,這個空間的兩點之間的距離定義為兩個點第i個坐標上映射的差值的平方和之后再開方。即我們前面提到的歐式空間距離概念。

明考斯基距離是歐式空間距離的進一步推廣,如果p設定為2,則為歐式距離,如果p設定為無窮大,則為切比雪夫距離。

從以上數學定義推廣過程,我們可以看出,對于數值型的空間概念,是基于歐式空間的引申推廣而產生的不同定義,可以應用在合適的場合和情景下。

而距離基于線性結構八大定律之后,構成的向量空間概念,是進一步的抽象,而這個空間里,每個點到空間坐標軸原點的距離,定義為范數norm。如果向量空間定義了范數,則這個空間成為賦范向量空間。

然后進一步抽象:

賦范空間+線性結構?>線性賦范空間

如果在線性賦范空間上增加添加內積運算概念,即,使空間中向量在n個維度上映射的分別乘積的和,和向量之間的角度有關,則這個空間稱為內積空間。

如果在這個內積空間里,所有的運算的極限運算,仍然在這個空間內,即收斂,那么這個空間就定義為希爾伯特空間Hilbert Space。

如果是基于線性賦范空間+收斂(完備性),則這個空間稱為巴拿赫空間Banach Space。

回歸到聚類分析,我們進一步將聚類概念進行抽象化

如果是將函數或向量進行聚類,那么函數或向量之間的距離概念,則可以通過以上范數的概念進行進一步分析,而線性賦范空間的概念,為我們為更抽象的點和集合的分組聚類提供了可供探索的工具。

聚類分析或聚類算法在機器學習、數據挖掘等人工智能領域應用較廣,它的一個重點特點是通過機器或計算機將大量數據進行自動統計分類,不需要人工參與。

關于希爾伯特空間、巴拿赫空間的聚類問題,可以繼續閱讀相關文獻。

深入閱讀:

下面文獻可以通過高校郵箱進行注冊賬號,閱讀公開論文。

Clustering via Hilbert space

Clustering in Banach Spaces

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容