本文用Python抓取QQ群論壇中的發(fā)貼、留言數(shù)據(jù),以此構(gòu)成社交關(guān)系數(shù)據(jù),再進(jìn)行數(shù)據(jù)處理,最后用Gephi繪制社交關(guān)系網(wǎng)絡(luò)圖。數(shù)據(jù)源選取的是QQ群論壇(一個(gè)收費(fèi)的成長(zhǎng)學(xué)習(xí)論壇,論壇沉淀了一年的數(shù)據(jù))。
步驟:
1)分析人物關(guān)系,確認(rèn)數(shù)據(jù)抓取方式
2)編寫(xiě)Python程序抓取人物關(guān)系數(shù)據(jù)
3)數(shù)據(jù)清洗,匯總
4)數(shù)據(jù)導(dǎo)入Gephi,調(diào)整參數(shù)繪制
一、分析頁(yè)面,確定抓取構(gòu)成人物關(guān)系的數(shù)據(jù)源
社交關(guān)系網(wǎng)絡(luò)的構(gòu)成是節(jié)點(diǎn)和邊,人物就是節(jié)點(diǎn),邊(連線)即是關(guān)系。這個(gè)論壇采用的是一人一個(gè)主題貼,蓋樓的方式記錄學(xué)習(xí)成長(zhǎng),其他人在主題貼下回復(fù),回復(fù)即互動(dòng)。
節(jié)點(diǎn),就是論壇中的參與者(成長(zhǎng)會(huì)成員)。回復(fù)構(gòu)成連接,回復(fù)多即關(guān)系強(qiáng)(互動(dòng)多,weight數(shù)值大)。
所以在抓到數(shù)據(jù)時(shí),就是抓取發(fā)貼數(shù)量,回復(fù)人即可,即把頁(yè)面所有發(fā)表主題貼和回復(fù)貼的用戶(hù)名進(jìn)行抓取即可,再進(jìn)行數(shù)據(jù)匯總統(tǒng)計(jì),就構(gòu)成社交關(guān)系數(shù)據(jù)(source -- 發(fā)貼人, target -- 回復(fù)者, weight -- 發(fā)貼人與回復(fù)者互動(dòng)次數(shù))
二、Python爬蟲(chóng)抓取數(shù)據(jù)
采用Scrapy框架編寫(xiě)爬蟲(chóng)抓取數(shù)據(jù):
1)論壇登錄問(wèn)題,用Cookie登錄比較簡(jiǎn)單。參見(jiàn)之前的文章《Scrapy用Cookie實(shí)現(xiàn)模擬登錄》
2)注意,論壇中主題貼,他人主題回復(fù),在回復(fù)下的回復(fù)(樓中樓)使用了不同要標(biāo)簽樣式,抓取時(shí)不要遺漏。采用一個(gè)比較簡(jiǎn)單的檢查方式,選取一個(gè)發(fā)貼比較少的用戶(hù),各種回復(fù)都出現(xiàn)的,抓取數(shù)據(jù)后進(jìn)行比對(duì)復(fù)查。
在反復(fù)檢查核對(duì)抓取一個(gè)用戶(hù)的數(shù)據(jù)后,發(fā)現(xiàn)登錄用戶(hù)名的數(shù)據(jù)會(huì)出現(xiàn)在每一頁(yè)中,也會(huì)抓取下來(lái),核對(duì)源代碼發(fā)現(xiàn),是因?yàn)檎搲拿恳豁?yè)下有一個(gè)發(fā)貼的地方。無(wú)法在程序抓取時(shí)排除,只能放到下面數(shù)據(jù)清洗時(shí)處理。
3)分頁(yè)抓到一個(gè)用戶(hù)所有數(shù)據(jù)
進(jìn)行第一頁(yè)時(shí),獲到當(dāng)前用戶(hù)的頁(yè)數(shù)即可,循環(huán)抓取一個(gè)用戶(hù)所有頁(yè)的發(fā)貼、留言、回貼的用戶(hù)名。
4)抓取所有用戶(hù)
由于論壇用戶(hù)是順序編號(hào),論壇是Restful架構(gòu)風(fēng)格,只要一個(gè)循環(huán)可以抓取所有用戶(hù)的社交信息。只不過(guò)進(jìn)入頁(yè)面需要判斷這個(gè)頁(yè)面是不是有效頁(yè)面,因?yàn)榭赡躨d已費(fèi)掉,沒(méi)有數(shù)據(jù)。
爬蟲(chóng)數(shù)據(jù)保存用了CSV文件,剛開(kāi)始是準(zhǔn)備采用Excel分類(lèi)匯總的進(jìn)行統(tǒng)計(jì),后來(lái)還是導(dǎo)入mysql數(shù)據(jù)庫(kù)匯總比較方便。一共抓取數(shù)據(jù) 36,603 條。
三、數(shù)據(jù)清理,構(gòu)建數(shù)據(jù)源數(shù)據(jù)
數(shù)據(jù)清理包括:
1)數(shù)據(jù)匯總,匯總社交關(guān)系值weight
select aid as source,bid as target,count(bid) as weight from bbs.link group by aid,bid
2)手動(dòng)清理頁(yè)面中抓到的無(wú)效數(shù)據(jù)
3)對(duì)論壇管理員的數(shù)據(jù)檢查,重命名(管理員沒(méi)有進(jìn)行編號(hào))
4)對(duì)異常數(shù)據(jù)檢查核對(duì),發(fā)現(xiàn)有論壇中有人申請(qǐng)了重號(hào),未對(duì)這部分?jǐn)?shù)據(jù)一一校正,刪除數(shù)據(jù)38條
5)數(shù)據(jù)導(dǎo)出CSV格式,共計(jì) 9,587 條 ,三列 source ,target, weight
四、使用Gephi繪制社交網(wǎng)絡(luò)關(guān)系圖
Gephi介紹:Gephi是一款開(kāi)源基于JVM的復(fù)雜網(wǎng)格分析軟件,主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),動(dòng)態(tài)和分層圖的交互可視化工具。用于探索性數(shù)據(jù)分析,鏈接分析,社交網(wǎng)絡(luò)分析,生物網(wǎng)絡(luò)分析等。
1)導(dǎo)入數(shù)據(jù)
在Gephi的“數(shù)據(jù)資料” -- “輸入電子表格”,進(jìn)行數(shù)據(jù)導(dǎo)入。
注意導(dǎo)入數(shù)據(jù)后,要復(fù)制數(shù)據(jù)ID列 到 Label列,Label才會(huì)顯示到Gephi圖形的節(jié)點(diǎn)標(biāo)簽上。
2)調(diào)整Gephi的參數(shù),生成網(wǎng)絡(luò)關(guān)系圖
2016年很快就過(guò)去了,這一年你記錄了哪些,有哪些進(jìn)步,又連接了哪些人,歡迎在評(píng)論中留言分享。