?今天給大家錄制了一個爬新浪微博的爬蟲,也用到了抓包分析網址,但相較于以前,單純的使用抓包分析網址在新浪微博是無效的。
cookie是什么
某些網站為了辨別用戶身份、進行 session 跟蹤而儲存在用戶本地終端上的數據(通常經過加密)。
目前有些 Cookie 是臨時的,有些則是持續的。臨時的 Cookie 只在瀏覽器上保存一段規定的時間,一旦超過規定的時間,該 Cookie 就會被系統清除。
持續的 Cookie 則保存在用戶的 Cookie 文件中,下一次用戶返回時,仍然可以對它進行調用。
注意:
微博中的cookie有時間限制,如果運行有問題,可以更換下cookie
如何使用cookie
Cookie = {‘Cookie’: ’UM_distinctid=15ab64ecfd6592-0afad5b368bd69-1d3b6853-13c680-15ab64ecfd7b6; remember_user_token=W1sxMjEzMTM3XSwiJDJhJDEwJHhjYklYOGl2eTQ0Yi54WC5seVh2UWUiLCIxNDg5ODI2OTgwLjg4ODQyODciXQ%3D%3D---ac835770a030c0595b2993289e39c37d82ea27e2; CNZZDATA1258679142=559069578-1488626597-https%253A%252F%252Fwww.baidu.com%252F%7C1489923851’}
我們要構造成字典格式,如上。這樣應用到請求網址的時候添加到請求頭中去即可(不懂也沒關系,繼續往下看,有視頻講說的)。
requests庫
Requests? is? an? elegant? and? simple? HTTP? library? for Python,? built? for? human? beings.? Requests是一個優雅簡潔的Python HTTP庫,給人類使用。
使用方法如下
r? = requests.get(url,cookiess = Cookie)
實戰分析
那么我們打開開發者工具,抓包分析下網址驗證我們的網址規律思路
抓包分析
接下來我只是測試下,抓孔慶東微博博文的標題,如下圖紅色方框對應的html標簽是h4