作為一名新時代的產(chǎn)品,如果你還不知道爬蟲,可能你已經(jīng)Out了。
爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。
soga,不過,產(chǎn)品為什么要懂爬蟲?爬蟲抓的是數(shù)據(jù)。所以:
如果你想做決策但苦于沒有數(shù)據(jù)支撐?
如果你想拆指標(biāo)但苦于沒有數(shù)據(jù)支撐?
如果你競品分析但苦于沒有數(shù)據(jù)支撐?
如果你想···但苦于沒有數(shù)據(jù)支撐?
包括市場營銷中的SEO、潛在客戶;競品分析中的競品動態(tài),相關(guān)反饋;個人生活中的專家評論,公司崗位中都有爬蟲的用武之地。
那么,爬蟲,走起。
下面,我們5min抓取B站彈幕:
首先,工欲善其事必先利其器,先安裝Chrome瀏覽器,然后召喚控制臺(Win快捷鍵Fn+F12)
溫馨小提示,通過如圖方式將網(wǎng)頁和控制臺變成上下分屏,體驗(yàn)更好哈。
接下來,我們在B站注冊,隨便打開一個鏈接,
比方說我們聽一首歌吧,http://www.bilibili.com/video/av8086236/
接著,如圖,Network-》xml-》右擊,在新的頁面打開。
如圖,這時我們就可以get到所有彈幕了,然后復(fù)制鏈接。
打開Excel2013,數(shù)據(jù)-自網(wǎng)站-粘貼地址-轉(zhuǎn)到-勾選-導(dǎo)入:
就此,抓到了華麗麗的數(shù)據(jù)。
然而,數(shù)據(jù)有點(diǎn)亂,簡單處理一下吧。
這里我們用到Excel的分列功能,分隔符號選擇逗號,
最后效果如圖,
如果你想問這些字段都是什么意思,咳咳,簡單說幾句,
K列,116.342代表的是時間(秒);
L列,1代表的是彈幕類型(1-跑馬燈,4-底部,5-懸停);
M列、N列代表的是字體和顏色;
···
數(shù)據(jù)是一筆寶貴的財富,亟待我們的挖掘。
原創(chuàng)不易,轉(zhuǎn)載請注明出處哈。
權(quán)興權(quán)意
產(chǎn)品可以更優(yōu)雅~