使用Gephi分析論壇社交關(guān)系網(wǎng)絡(luò)

本文用Python抓取QQ群論壇中的發(fā)貼、留言數(shù)據(jù),以此構(gòu)成社交關(guān)系數(shù)據(jù),再進(jìn)行數(shù)據(jù)處理,最后用Gephi繪制社交關(guān)系網(wǎng)絡(luò)圖。數(shù)據(jù)源選取的是QQ群論壇(一個(gè)收費(fèi)的成長(zhǎng)學(xué)習(xí)論壇,論壇沉淀了一年的數(shù)據(jù))。

步驟:
1)分析人物關(guān)系,確認(rèn)數(shù)據(jù)抓取方式
2)編寫(xiě)Python程序抓取人物關(guān)系數(shù)據(jù)
3)數(shù)據(jù)清洗,匯總
4)數(shù)據(jù)導(dǎo)入Gephi,調(diào)整參數(shù)繪制

一、分析頁(yè)面,確定抓取構(gòu)成人物關(guān)系的數(shù)據(jù)源

社交關(guān)系網(wǎng)絡(luò)的構(gòu)成是節(jié)點(diǎn)和邊,人物就是節(jié)點(diǎn),邊(連線)即是關(guān)系。這個(gè)論壇采用的是一人一個(gè)主題貼,蓋樓的方式記錄學(xué)習(xí)成長(zhǎng),其他人在主題貼下回復(fù),回復(fù)即互動(dòng)。

節(jié)點(diǎn),就是論壇中的參與者(成長(zhǎng)會(huì)成員)。回復(fù)構(gòu)成連接,回復(fù)多即關(guān)系強(qiáng)(互動(dòng)多,weight數(shù)值大)。

所以在抓到數(shù)據(jù)時(shí),就是抓取發(fā)貼數(shù)量,回復(fù)人即可,即把頁(yè)面所有發(fā)表主題貼和回復(fù)貼的用戶(hù)名進(jìn)行抓取即可,再進(jìn)行數(shù)據(jù)匯總統(tǒng)計(jì),就構(gòu)成社交關(guān)系數(shù)據(jù)(source -- 發(fā)貼人, target -- 回復(fù)者, weight -- 發(fā)貼人與回復(fù)者互動(dòng)次數(shù))

發(fā)貼與回復(fù)

二、Python爬蟲(chóng)抓取數(shù)據(jù)

采用Scrapy框架編寫(xiě)爬蟲(chóng)抓取數(shù)據(jù):
1)論壇登錄問(wèn)題,用Cookie登錄比較簡(jiǎn)單。參見(jiàn)之前的文章《Scrapy用Cookie實(shí)現(xiàn)模擬登錄》

2)注意,論壇中主題貼,他人主題回復(fù),在回復(fù)下的回復(fù)(樓中樓)使用了不同要標(biāo)簽樣式,抓取時(shí)不要遺漏。采用一個(gè)比較簡(jiǎn)單的檢查方式,選取一個(gè)發(fā)貼比較少的用戶(hù),各種回復(fù)都出現(xiàn)的,抓取數(shù)據(jù)后進(jìn)行比對(duì)復(fù)查。

在反復(fù)檢查核對(duì)抓取一個(gè)用戶(hù)的數(shù)據(jù)后,發(fā)現(xiàn)登錄用戶(hù)名的數(shù)據(jù)會(huì)出現(xiàn)在每一頁(yè)中,也會(huì)抓取下來(lái),核對(duì)源代碼發(fā)現(xiàn),是因?yàn)檎搲拿恳豁?yè)下有一個(gè)發(fā)貼的地方。無(wú)法在程序抓取時(shí)排除,只能放到下面數(shù)據(jù)清洗時(shí)處理。

3)分頁(yè)抓到一個(gè)用戶(hù)所有數(shù)據(jù)
進(jìn)行第一頁(yè)時(shí),獲到當(dāng)前用戶(hù)的頁(yè)數(shù)即可,循環(huán)抓取一個(gè)用戶(hù)所有頁(yè)的發(fā)貼、留言、回貼的用戶(hù)名。

4)抓取所有用戶(hù)
由于論壇用戶(hù)是順序編號(hào),論壇是Restful架構(gòu)風(fēng)格,只要一個(gè)循環(huán)可以抓取所有用戶(hù)的社交信息。只不過(guò)進(jìn)入頁(yè)面需要判斷這個(gè)頁(yè)面是不是有效頁(yè)面,因?yàn)榭赡躨d已費(fèi)掉,沒(méi)有數(shù)據(jù)。

爬蟲(chóng)數(shù)據(jù)保存用了CSV文件,剛開(kāi)始是準(zhǔn)備采用Excel分類(lèi)匯總的進(jìn)行統(tǒng)計(jì),后來(lái)還是導(dǎo)入mysql數(shù)據(jù)庫(kù)匯總比較方便。一共抓取數(shù)據(jù) 36,603 條。

三、數(shù)據(jù)清理,構(gòu)建數(shù)據(jù)源數(shù)據(jù)

數(shù)據(jù)清理包括:
1)數(shù)據(jù)匯總,匯總社交關(guān)系值weight

select aid as source,bid as target,count(bid) as weight  from bbs.link  group by aid,bid

2)手動(dòng)清理頁(yè)面中抓到的無(wú)效數(shù)據(jù)
3)對(duì)論壇管理員的數(shù)據(jù)檢查,重命名(管理員沒(méi)有進(jìn)行編號(hào))
4)對(duì)異常數(shù)據(jù)檢查核對(duì),發(fā)現(xiàn)有論壇中有人申請(qǐng)了重號(hào),未對(duì)這部分?jǐn)?shù)據(jù)一一校正,刪除數(shù)據(jù)38條
5)數(shù)據(jù)導(dǎo)出CSV格式,共計(jì) 9,587 條 ,三列 source ,target, weight

部分?jǐn)?shù)據(jù)

四、使用Gephi繪制社交網(wǎng)絡(luò)關(guān)系圖

Gephi介紹:Gephi是一款開(kāi)源基于JVM的復(fù)雜網(wǎng)格分析軟件,主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),動(dòng)態(tài)和分層圖的交互可視化工具。用于探索性數(shù)據(jù)分析,鏈接分析,社交網(wǎng)絡(luò)分析,生物網(wǎng)絡(luò)分析等。

1)導(dǎo)入數(shù)據(jù)
在Gephi的“數(shù)據(jù)資料” -- “輸入電子表格”,進(jìn)行數(shù)據(jù)導(dǎo)入。
注意導(dǎo)入數(shù)據(jù)后,要復(fù)制數(shù)據(jù)ID列 到 Label列,Label才會(huì)顯示到Gephi圖形的節(jié)點(diǎn)標(biāo)簽上。

導(dǎo)入CSV數(shù)據(jù)

2)調(diào)整Gephi的參數(shù),生成網(wǎng)絡(luò)關(guān)系圖


全圖
局部圖

2016年很快就過(guò)去了,這一年你記錄了哪些,有哪些進(jìn)步,又連接了哪些人,歡迎在評(píng)論中留言分享。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,732評(píng)論 6 539
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,214評(píng)論 3 426
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 177,781評(píng)論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,588評(píng)論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,315評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,699評(píng)論 1 327
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,698評(píng)論 3 446
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,882評(píng)論 0 289
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,441評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,189評(píng)論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,388評(píng)論 1 372
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,933評(píng)論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,613評(píng)論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 35,023評(píng)論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 36,310評(píng)論 1 293
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,112評(píng)論 3 398
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,334評(píng)論 2 377

推薦閱讀更多精彩內(nèi)容