只是簡單的閱讀了一下大神們的思路。粗略的學習使用了一下wireshark。
大神們的數據是不能用的,過時了。首先通過關閉直播間的視頻,這樣能排除掉視頻數據的數據包。
于是接下來判斷出哪些是彈幕的數據包就非常簡單了。
目前只做到這里。然后學習了一下關于TCP的三次握手以及與HTTP協議的關系。
接下來的思路就是從頭到尾重新抓取一下進入斗魚直播間的數據包,根據端口或者網址將彈幕部分的數據包完整的獲取下來。分析出如何進行交流以及獲取彈幕。
另外,中間的連接貌似是一種能夠一直持續的連接,以前聽說過,但是一直沒有接觸過。websocket是什么鬼。這個能否僅僅靠爬蟲知識解決?目前我所使用的爬蟲功能只是簡單的利用session向服務器端發送get,post請求而已。
未完待續。。。