爬蟲筆記(六) - 關于 Cookie 的分析(Postman Request Selenium)

本次教程涉及到的軟件包括:

  • Chrome瀏覽器
  • Chrome的插件Postman
  • Python的Request

假設你已經熟悉使用一切,我們直接告訴你結果:

  • Python的Request
    所有的請求信息在代碼本身,不會調用到瀏覽器的Cookie信息,如果請求中需要驗證Cookie需要添加到Hearders中
  • Chrome的插件Postman
    每次請求可能會調用瀏覽器保存的Cookie,所以如果想分析Request請求需要攜帶什么Cookie,需要先刪除瀏覽器的Cookie

如果看不懂結論,可以接下來的照步驟來學習分析,主要包含幾個要點:

  1. 如何清除瀏覽器的Cookie
  2. Postman快速獲Chrome取瀏覽器產生的請求
  3. Postman分析Headers中需要驗證的內容(Cookie只是其中之一)
  4. Postman導出Request代碼
  5. Selenium獲取cookie的方法

清理瀏覽器Cookie

Chrome打開某個網站后你會看到左上角有一個小鎖,點擊后刪除所有Cookie信息,如下面的GIF所示:


Chrome清理cookie

F12開發者模式獲取瀏覽器的請求信息

在訪問某個網站過程中,會附帶很多請求,包括js、ajax、api接口的請求等


F12開發者模式

要點:

  • 注意勾選Preserve log,不然每次頁面刷新,記錄會被刪除
  • 可以嘗試使用Filter那個框的功能,在Preserve log的最左邊附近

首次登陸和非首次登陸的分析

基本了解刪除Cookie和F12開發者模式后,我們來分析下首次登陸和第二次登陸的區別
按刪除步驟刪除Cookies后,關閉瀏覽器,再目標網站觀察下:


首次訪問

要點:

  • 小鎖中的Cookie信息又恢復了(圖中有19個,具體怎么來有興趣自己可以分析下)
  • Request請求中沒有Cookie信息,Response回應中右Set-cookie的信息
  • 出現了選擇一個城市(這個信息是記錄再Cookie中的)

再次提醒:勾選Preserve log后,再次訪問目標網站,通過filter過濾需要的信息

兩次請求的對比

要點(對比兩次請求的區別):

  • 第一次:Request沒有cookie,Response中有Set-cookies
  • 第二次:Request有cookie,Response沒有Set-cookies

結論:我們首次訪問網站,網站會發一個set-cookie的回應,讓我們第二次訪問的時候帶上身份信息去請求目標網站,往往很多時候我們的想要的數據不在目標網站的首頁,可能是一個API接口的請求,可能是目標網站的某個子目錄,雖然訪問首頁會帶一個set-cookie的回應給你,但是非首頁的請求就沒有那么友善了,給你的可能是一個空回應甚至把你的請求拒之門外(往下看會有分析)

Postman快速獲Chrome取瀏覽器產生的請求

這個功能是為了快速獲取我們的請求(包括Headers和Cookies),不需要手動到Postman去添,首先我們看看功能按鍵在哪里,然后將它們開啟(如果不知道軟件在哪里安裝自己Google一下就可以了)。


通過Interceptor獲取請求

要點:

  • 圖中標識的兩個位置記得設置為on
  • 如果記錄太多影響分析,刪除下歷史記錄

瀏覽器直接訪問目標網站,你會看到所有的請求都會出現到History的標簽中,通過篩選按鈕獲取你想要的請求,為了更好分析上面所說的攔截問題,我拿了一個API接口的請求作為本次分析的目標
這個鏈接是我多次分析目標網站后,發現每次搜索python工作崗位時候,瀏覽器向服務器發送的一個請求,Response回應中的是崗位的詳細信息(Json格式)。如圖:

Postman獲取請求分析

要點:

  • 使用過濾獲取到自己想要的網址

Postman分析Headers中需要驗證的內容

接下來正式開始,我做一個大膽的測試,刪掉所有的Headers,看看請求的結果


刪除Headers

要點:

  • 你要相信你的眼睛,沒錯結果還是請求成功了

當你在懊惱為什么的時候,我又要來一個Gif了
循環播放的,簡單說下Gif操作步驟和預期結果:

  1. 直接訪問發送API請求(成功返回數據)
  2. 刪除瀏覽器中記錄的Cookies,再次發送發送API請求(沒有數據,或者是攔截網站)
  3. 復制URL到瀏覽器中,查看結果(攔截網站)
    仔細看,仔細看~~~
大膽的嘗試

總結:哈哈,其實就是一個簡單的道理Postman會使用瀏覽器記錄的Cookie,所以在每次測試的時候(包括Postman請求成功以后也會存到瀏覽器中),先刪除掉瀏覽器的Cookie再做測試。

另外,針對目標網站我分析結果是:多個網站的分析后,我只會保留User-AgentCookie這兩個Headers,最后Cookie驗證只需user_trace_token=20170511230425-b1fa946e4c77442498aac65a98153141(授人以魚不如授人以漁,過程不詳解,自己去嘗試吧)

Postman導出Request代碼

Postman導出Request代碼

步驟:

  1. Send按鈕下面的那個Code
  2. 選中Python Requests
  3. 復制代碼到IDLE中就能使用(前提是分析到對的Headers)

Selenium獲取cookie的方法

最后付上一段selenum獲取cookie的方法,詳細Selenium的使用這里不介紹了~~~

import requests
from selenium import webdriver

driver = webdriver.Chrome() # 指定使用的Webderiver,這里使用的是Chrome的
driver.get("https://www.lagou.com") # 目標網址

# 獲得cookie信息
# print driver.get_cookies()
# print type(driver.get_cookies())
cookie_tag = driver.get_cookies()[3]["value"] # 這里的代碼可能有問題,自己改一下

driver.close() # 關閉瀏覽器
print cookie_tag
url = "https://www.lagou.com/jobs/positionAjax.json"
querystring = {"city": "廣州", "needAddtionalResult": "false", "kd": "python", "pn": "{0}".format(1)}
headers = {
    'user-agent': "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0",
    'cookie': "user_trace_token={0};".format(cookie_tag)
}
response = requests.request("GET", url, headers=headers, params=querystring)
print response.text

代碼分析:

  • webdriver.Chrome():此處需要下載一個Chrome的webdriver
  • get_cookies() :獲取到所有的cookies,然后按需提取(代碼中的提取可能有問題)

以上都是我的跟人觀點,如果有不對,或者有更好的方法,歡迎留言指正~~~

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,983評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,772評論 3 422
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,947評論 0 381
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,201評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,960評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,350評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,406評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,549評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,104評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,914評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,089評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,647評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,340評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,753評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,007評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,834評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,106評論 2 375

推薦閱讀更多精彩內容