爬蟲,走起,用Excel實(shí)現(xiàn)5min抓取B站彈幕及初步處理

作為一名新時代的產(chǎn)品,如果你還不知道爬蟲,可能你已經(jīng)Out了。
爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。
soga,不過,產(chǎn)品為什么要懂爬蟲?爬蟲抓的是數(shù)據(jù)。所以:
如果你想做決策但苦于沒有數(shù)據(jù)支撐?
如果你想拆指標(biāo)但苦于沒有數(shù)據(jù)支撐?
如果你競品分析但苦于沒有數(shù)據(jù)支撐?
如果你想···但苦于沒有數(shù)據(jù)支撐?

包括市場營銷中的SEO、潛在客戶;競品分析中的競品動態(tài),相關(guān)反饋;個人生活中的專家評論,公司崗位中都有爬蟲的用武之地。

那么,爬蟲,走起。

下面,我們5min抓取B站彈幕:
首先,工欲善其事必先利其器,先安裝Chrome瀏覽器,然后召喚控制臺(Win快捷鍵Fn+F12)
溫馨小提示,通過如圖方式將網(wǎng)頁和控制臺變成上下分屏,體驗(yàn)更好哈。


上下分屏.png

接下來,我們在B站注冊,隨便打開一個鏈接,
比方說我們聽一首歌吧,http://www.bilibili.com/video/av8086236/
接著,如圖,Network-》xml-》右擊,在新的頁面打開。

抓鏈接步驟.png

如圖,這時我們就可以get到所有彈幕了,然后復(fù)制鏈接。


所有彈幕.png

打開Excel2013,數(shù)據(jù)-自網(wǎng)站-粘貼地址-轉(zhuǎn)到-勾選-導(dǎo)入:


Excel操作1.png

就此,抓到了華麗麗的數(shù)據(jù)。
然而,數(shù)據(jù)有點(diǎn)亂,簡單處理一下吧。


初步數(shù)據(jù).png

這里我們用到Excel的分列功能,分隔符號選擇逗號,


分列.png

最后效果如圖,


最后效果.png

如果你想問這些字段都是什么意思,咳咳,簡單說幾句,
K列,116.342代表的是時間(秒);
L列,1代表的是彈幕類型(1-跑馬燈,4-底部,5-懸停);
M列、N列代表的是字體和顏色;
···

數(shù)據(jù)是一筆寶貴的財富,亟待我們的挖掘。

原創(chuàng)不易,轉(zhuǎn)載請注明出處哈。
權(quán)興權(quán)意
產(chǎn)品可以更優(yōu)雅~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容