最近半年一直在嘗試從復雜的關系網(wǎng)絡中,挖掘可能從事某種惡意的團伙,比如在交易數(shù)據(jù)中挖掘潛在可疑交易的詐騙團伙等。在對全網(wǎng)的復雜網(wǎng)絡分團后,面臨一個問題,就是需要識別可疑惡意團伙的核心節(jié)點,或者關鍵節(jié)點。
從調研的情況來看,主要有如下衡量節(jié)點重要性的手段:
1、度
這是一種最簡單也最直觀的衡量方式,計算網(wǎng)絡中每個節(jié)點的度數(shù),根據(jù)度數(shù)大小衡量重要性。度數(shù)越大,說明與該節(jié)點連接的節(jié)點越多,即該節(jié)點越重要。典型的案例,如微博的大V,因為其分數(shù)多,度數(shù)高,因此根據(jù)度衡量,大V們往往會被計算為團中的關鍵節(jié)點。
優(yōu)點:計算簡單,成本低,是一種考慮節(jié)點近鄰的排序方式。
存在的問題:缺乏全局的考慮,因為其僅考慮了1度關聯(lián)的節(jié)點數(shù),甚至沒有考慮關聯(lián)節(jié)點的重要性。如果某個大V購買了很多僵死粉,也會被計算為關鍵節(jié)點,雖然這個“大V”對其他正常用戶的影響力很小。
2、介數(shù)
某個節(jié)點的介數(shù),是指網(wǎng)絡中所有的最短路徑中經(jīng)過該節(jié)點的路徑數(shù)。介數(shù)越高,說明網(wǎng)絡中任意兩個人的關系與這個節(jié)點的關系越大,即這個節(jié)點在全局中的影響力越大,也就越重要越關鍵。
優(yōu)點:相比度,介數(shù)考慮節(jié)點在整個網(wǎng)絡中的重要程度,是一種基于路徑的衡量,或叫排序方式。
存在的問題:計算時間復雜度較大,尤其在節(jié)點較多的網(wǎng)絡中,在實際應用中需要進行優(yōu)化。
3、核度
核度也是一種基于近鄰度量的計算方式。對網(wǎng)絡從外圍一層一層剝離直到?jīng)]有節(jié)點,節(jié)點的核度是指該節(jié)點處于被剝離的位置。如度為1的節(jié)點為最外層,也就是核度為1的層,剝離這些節(jié)點后,會再次出現(xiàn)度為1的節(jié)點,重復剝離。值得注意的是,并不是度越大的節(jié)點,核度越大,越最后被剝離。
如果一個節(jié)點的核度越大,越是最后被剝離,說明它越處于網(wǎng)絡中的中心位置,也就越重要。
優(yōu)點:相比度的局限性,核度考慮了節(jié)點在整個網(wǎng)絡的重要程度,并且計算復雜度沒有明顯增大。
存在的不足:劃分力度太粗,導致很多看起來并不屬于同一層級的節(jié)點,被劃分為相同的重要層級,即每一次剝離的節(jié)點很多。
除了上述3個指標,還有很多其他衡量節(jié)點的方式,如H指數(shù)等。綜合來看,挖掘和識別網(wǎng)絡中的重要節(jié)點,目前存在如下的問題:
1、無法找到一種適合所有網(wǎng)絡結果的衡量方式,也就是說,不同網(wǎng)絡結果的節(jié)點重要性衡量是不一樣的。
2、即使在明確的衡量公式下,不同參數(shù)也會導致結果不同。
3、眾多的分析算法都是對單個點的重要性衡量,而不是節(jié)點集,重要的節(jié)點集,并不是單個節(jié)點的集合,而是對復雜網(wǎng)絡的一種抽取。