20160707收獲<關于抓取斗魚彈幕>

只是簡單的閱讀了一下大神們的思路。粗略的學習使用了一下wireshark。

大神們的數據是不能用的,過時了。首先通過關閉直播間的視頻,這樣能排除掉視頻數據的數據包。

于是接下來判斷出哪些是彈幕的數據包就非常簡單了。

目前只做到這里。然后學習了一下關于TCP的三次握手以及與HTTP協議的關系。

接下來的思路就是從頭到尾重新抓取一下進入斗魚直播間的數據包,根據端口或者網址將彈幕部分的數據包完整的獲取下來。分析出如何進行交流以及獲取彈幕。

另外,中間的連接貌似是一種能夠一直持續的連接,以前聽說過,但是一直沒有接觸過。websocket是什么鬼。這個能否僅僅靠爬蟲知識解決?目前我所使用的爬蟲功能只是簡單的利用session向服務器端發送get,post請求而已。

未完待續。。。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容