爬蟲0010:概述

爬蟲概述

——編輯:大牧莫邪

1. 目錄清單

  1. 爬蟲簡介
  2. 通用爬蟲和聚焦爬蟲
  3. 網絡請求那些事兒
  4. 網絡數據抓包分析

2. 章節內容

2.1.爬蟲簡介

在各行各業如火如荼快速發展的今天,市場是決定一家公司是否可持續發展最重要的一個衡量指標,市場的定位和發展核心是對行業數據的分析,對于數據的分析必須進行大量數據的統計分析才能得到一個比較中肯的處理建議,那么問題就來了~分析市場的行業數據,從哪里才能得到呢?

當數據開始變得敏感開始變得值錢起來(一直都很值錢)之后,很多官方或者民間的機構,開始就數據市場展開了新一輪的競爭,如官方會提供各種數據的統計信息方便大家了解目前的民生情況,百度提供了搜索引擎數據方便上網的時候進行的快速檢索,騰訊指數提供了對于時下流行關鍵詞的指數分析方便對于某些數據的統計信息的提取等等,總的來說~數據提供者一般都提供兩種數據,一種可以共享的免費數據,一種比較有針對性的私密數據;免費數據可以供所有人查看,但是私密數據在一定程度上可以選擇收費查閱或者直接禁止查閱,目前對于數據的來源一把都有如下方式:

  1. 企業分析數據,如百度指數、騰訊指數、阿里指數等等
  2. 數據平臺數據,如數據堂,國云數據市場等等
  3. 政府機構數據,如納斯達克指數、國家統計局數據等等
  4. 數據咨詢公司,如艾瑞咨詢等等
  5. 網絡爬蟲采集

問題1:并不是所有的公司都可以付費購買數據

問題2:并不是所有的公司都滿足于免費的數據?!

問題3:那么數據從哪里來?

網絡爬蟲 ,主要是針對網絡上的數據通過編程的方式使用程序自動采集的一種手段,公司除了從第三方平臺直接使用免費數據或者購買數據之外,更多的是通過網絡爬蟲的方式讓爬蟲工程師負責采集公司所需要的數據!這也是為什么爬蟲工程師非常吃香的原因!

2.2. 通用爬蟲和聚焦爬蟲

一般情況下,根據爬蟲程序的應用場景的不同,可以將爬蟲程序大致分為兩種類型:通用爬蟲和聚焦爬蟲

通用爬蟲:通用爬蟲是網絡搜索引擎的一部分,遵循爬蟲的robot協議,負責采集網絡中的網頁信息內容并建立索引,在自己的搜索引擎服務器上建議網絡信息的索引鏡像備份文件,達到對網絡上的信息內容可以快速檢索的目的

robot協議:是關于網絡爬蟲的一種約定的協議,robot協議明確告訴了通用網絡爬蟲,哪些數據內容是可以爬取的,哪些數據內容是不允許爬蟲采集的,如果是合法合規的爬蟲程序,必須遵循robot協議約定的采集內容區域,否則可能涉及到維權行為!

通用爬蟲在一定程度上滿足了大量網民的需求,可以通過搜索引擎快速檢索需要的網頁

但是公司針對性的獲取數據的場景,通用爬蟲就存在了很大的限制,如通用爬蟲獲取的網頁數據對于公司的需求來說很大一部分是無效的,因為對于分析數據來說網頁中的廣告信息、輪播圖片信息、導航信息等等都是無效數據;公司不同的需求需要采集的數據形式也是多樣的,通用搜索引擎的常規操作方式并不能完全滿足這樣的操作現狀的;尤其是針對有特定語義化搜索的數據來說,通用搜索引擎更是無能為力的的!

聚焦爬蟲: 聚焦爬蟲是通過編程的方式針對特定的需要進行數據定向采集的一種手段,能更好的更加準確的采集用戶需要的數據,在一定程序上能很好的滿足業務數據需要。缺點在于聚焦爬蟲的編碼工作比較繁瑣,針對不同類型的數據采集工作,需要定制化的開發不同的程序代碼。然而~瑕不掩瑜的是,定向爬蟲由于其特定收的采集手段,尤其是程序開發人員對于問題處理的操作方式愈發先進和自動化,聚焦爬蟲更加受到公司的歡迎!

2.3. 網絡請求那些事兒

網絡中的數據,更多的操作是對于目標服務器上的網頁數據的方式,網頁數據的訪問一般使用的都是HTTP和HTTPS協議;通過瀏覽器進行網頁訪問的過程中,在請求的請求頭信息中包含了客戶端瀏覽器的身份信息;在響應數據中包含了對于響應內容的描述信息等

2.3.1.HTTP和HTTPS協議

HTTP協議是超文本傳輸協議,是網頁訪問過程中最常用的一種協議,用于傳輸超文本標簽描述的數據內容。默認訪問端口:80

HTTPS協議是提供了安全通道的HTTP協議,在網頁數據訪問過程中,對于訪問的數據進行了數字簽名實現了非對稱的數據加密方式以保障數據的安全性。默認訪問端口:443

在指定的訪問協議寫,進行數據資源的訪問,通過網絡統一資源定位符URL進行訪問,一般情況下,一個完整的請求URL主要包含如下幾個部分:

http://www.baidu.com/s?wd=url

[訪問協議]://[主機域名][:端口號]/[資源路徑][?查詢字符串]

2.3.2.請求方式

HTTP1.1協議標準規定了8中常規請求方式,分別如下:

  • GET:定義用于從服務器獲取數據
  • POST:定義用于向服務器更新數據
  • PUT:定義用于向服務器提交數據
  • DELETE:定義用于在服務器中刪除指定數據
  • OPTIONS:定義客戶端可以通過請求查詢服務器處理信息
  • HEAD:定義用于獲取請求內容的報文頭信息
  • CONNECT:定義可以通過管道的方式連接
  • TRACE:定義心跳消息診斷的實現

常規的web項目中,在實際使用操作時我們一般使用get/post兩種請求操作方式,通過get/post兩種請求方式完成和服務器之間的常規數據交互已經可以滿足我們項目的大部分情況

  • GET請求:訪問的url地址中可以包含傳遞給服務器的參數,參數必須是字符串,url地址的長度瀏覽器本身沒有限制,但是受到服務器最大接收數據長度的限制,所以get請求一般用于傳輸不需要保密的長度收到限制的字符串數據。處理效率較高
  • POST請求:訪問的url地址中不會出現傳遞給服務器的參數,參數會包含在請求體中進行處理,主要傳遞字符串數據,可以傳遞二進制數據,傳遞數據的大小瀏覽器同樣沒有做什么限制,但是服務器端會根據實際需要進行數據量的限制,避免傳遞過大的數據到底服務器資源不夠使用!所以post請求一般用于傳遞較為敏感的不能暴露給別人看到的并且數據較大的數據。

隨著web軟件的發展,除了常規的請求操作方式之外,新的請求處理方式RESTful風格也逐步的在很多軟件中開始應用,在RESTful處理風格中,經常使用如下四種請求方式:

  • GET: 用于從服務器中獲取數據
  • POST:用于在服務器中更新數據
  • DELETE:用于在服務器中刪除指定數據
  • PUT: 用于向服務器提交新的數據

并且在處理過程中,和服務器交互的參數有可能會包含在Url地址中,這樣更加提高了參數的安全性。

2.3.2.請求頭request header

請求頭信息是請求數據的重要組成部分之一,包含了客戶端請求的身份標識等重要信息,就請求頭簡單了解如下內容:

  • Host:訪問web資源的網絡域名和端口號
  • Connection: 連接類型,一般當下瀏覽器都會發送一個這樣數據:Connection:keep-alive給對應的服務器,keep-alive是保持連接的意思,也就是長連接的意思,如果服務器支持客戶端keep-alive長連接,會返回包含keep-alive的響應數據表示建立長連接,可以繼續進行操作;如果服務器不支持就直接返回close關閉連接操作
  • Upgrade-insecure-requests:請求升級,就是當用戶在通過http協議訪問當前資源數據時,自動替換為https安全訪問協議并且不提示警告信息
  • User-agent:用戶代理,用于代理客戶發起請求的工具,一般表示瀏覽器,描述訪問網頁的瀏覽器的信息
  • Accept:接受數據類型描述;如Accept:text/html;表示客戶端可以接收的數據是html網頁文檔數據;Accept:/;表示客戶端可以接收任何數據
  • Accept-encoding:接受文件的解碼格式,一般傳輸的內容如:Accept-encoding:gzip;q=1.0;identify;q=0.5;*;q=0,表示如果有返回多種數據內容,首先匹配gzip壓縮的文檔內容,如果不是通過gzip壓縮的格式,就匹配identify壓縮編碼格式;否則就接受任意編碼格式的數據
  • Accept-language:客戶端的語言類型,當服務器支持指定的語言類型時,返回給客戶端指定的國際化語言內容;
  • Referer:請求來源,也就是當前網頁是從哪個網頁發起的請求,一般用于反盜鏈操作
  • Cookie:發送給服務器的cookie數據,通過請求頭中的cookie屬性將客戶端的cookie數據傳遞給服務器進行處理
  • Content-type:內容類型,一般在POST請求中有效,表示指定post請求傳遞的數據的類型

2.3.3. 響應頭response header

當服務器正常處理了需要操作的業務之后,就會以響應的方式返回給客戶端瀏覽器對應的數據,響應對象本身就會包含對于響應的數據內容的描述信息

  • Cache-control:must-revalidate|no-cache|private

該響應頭信息非常重要,如果響應頭明確Cache-control:max-age=0或者no-cache表示不緩存任何數據,任何時間再次發起請求都從服務器獲取新的數據;同樣如果指定了Cache-control:max-age=10*24*60*60則表示在指定的時間段獲取新的數據直接從緩存中提取,不需要從服務器獲??;如果響應頭中不包含Cache-control信息,則所有數據全部采用默認緩存方式

  • Connection:keep-alive|close

用于高速客戶端的請求方式是否保持連接,某些情況下保持連接是必要的,可以在多次發起連接時重復使用打開的連接方式,有助于提高處理效率

  • Content-encoding:gzip

響應內容編碼方式,一般默認gzip,就是告訴客戶端服務器響應的數據內容是經過gzip壓縮處理的,需要客戶端解壓縮解碼操作

  • Content-type:text/html;charset=UTF-8

響應數據內容類型,一般直接描述內容的文件屬性和編碼方式,方便客戶端瀏覽器可以針對文件屬性使用指定方式進行加載,通過指定的編碼方式進行解碼操作正常顯示加載的數據內容

  • Date:Sat, 06 Jan 2018 02:48:36 GMT

響應數據傳輸時間,HTTP協議標準指定使用GMT格林尼治時間

  • Expires:Sat, 13 Jan 2018 01:00:07 GMT

過期時間,指定某個資源的過期時間,過期之前通過緩存直接提取數據而不是從服務器獲取數據

  • Server:BWS/1.1

服務器信息描述

  • Transfer-encoding:chunked

響應數據內容分塊

2.3.4.HTTP狀態碼

編碼 描述
100 客戶端應當繼續發送請求。這個臨時響應是用來通知客戶端它的部分請求已經被服務器接收,且仍未被拒絕??蛻舳藨斃^續發送請求的剩余部分,或者如果請求已經完成,忽略這個響應。服務器必須在請求完成后向客戶端發送一個最終響應。
101 服務器已經理解了客戶端的請求,并將通過Upgrade 消息頭通知客戶端采用不同的協議來完成這個請求。在發送完這個響應最后的空行后,服務器將會切換到在Upgrade 消息頭中定義的那些協議。   只有在切換新的協議更有好處的時候才應該采取類似措施。例如,切換到新的HTTP 版本比舊版本更有優勢,或者切換到一個實時且同步的協議以傳送利用此類特性的資源。
102 由WebDAV(RFC 2518)擴展的狀態碼,代表處理將被繼續執行。
200 請求已成功,請求所希望的響應頭或數據體將隨此響應返回。
201 請求已經被實現,而且有一個新的資源已經依據請求的需要而建立,且其 URI 已經隨Location 頭信息返回。假如需要的資源無法及時建立的話,應當返回 '202 Accepted'。
202 服務器已接受請求,但尚未處理。正如它可能被拒絕一樣,最終該請求可能會也可能不會被執行。在異步操作的場合下,沒有比發送這個狀態碼更方便的做法了。   返回202狀態碼的響應的目的是允許服務器接受其他過程的請求(例如某個每天只執行一次的基于批處理的操作),而不必讓客戶端一直保持與服務器的連接直到批處理操作全部完成。在接受請求處理并返回202狀態碼的響應應當在返回的實體中包含一些指示處理當前狀態的信息,以及指向處理狀態監視器或狀態預測的指針,以便用戶能夠估計操作是否已經完成。
203 服務器已成功處理了請求,但返回的實體頭部元信息不是在原始服務器上有效的確定集合,而是來自本地或者第三方的拷貝。當前的信息可能是原始版本的子集或者超集。例如,包含資源的元數據可能導致原始服務器知道元信息的超級。使用此狀態碼不是必須的,而且只有在響應不使用此狀態碼便會返回200 OK的情況下才是合適的。
204 服務器成功處理了請求,但不需要返回任何實體內容,并且希望返回更新了的元信息。響應可能通過實體頭部的形式,返回新的或更新后的元信息。如果存在這些頭部信息,則應當與所請求的變量相呼應。   如果客戶端是瀏覽器的話,那么用戶瀏覽器應保留發送了該請求的頁面,而不產生任何文檔視圖上的變化,即使按照規范新的或更新后的元信息應當被應用到用戶瀏覽器活動視圖中的文檔。   由于204響應被禁止包含任何消息體,因此它始終以消息頭后的第一個空行結尾。
205 服務器成功處理了請求,且沒有返回任何內容。但是與204響應不同,返回此狀態碼的響應要求請求者重置文檔視圖。該響應主要是被用于接受用戶輸入后,立即重置表單,以便用戶能夠輕松地開始另一次輸入。   與204響應一樣,該響應也被禁止包含任何消息體,且以消息頭后的第一個空行結束。
206 服務器已經成功處理了部分 GET 請求。類似于 FlashGet 或者迅雷這類的 HTTP 下載工具都是使用此類響應實現斷點續傳或者將一個大文檔分解為多個下載段同時下載。   該請求必須包含 Range 頭信息來指示客戶端希望得到的內容范圍,并且可能包含 If-Range 來作為請求條件。   響應必須包含如下的頭部域:   Content-Range 用以指示本次響應中返回的內容的范圍;如果是 Content-Type 為 multipart/byteranges 的多段下載,則每一 multipart 段中都應包含 Content-Range 域用以指示本段的內容范圍。假如響應中包含 Content-Length,那么它的數值必須匹配它返回的內容范圍的真實字節數。   Date   ETag 和/或 Content-Location,假如同樣的請求本應該返回200響應。   Expires, Cache-Control,和/或 Vary,假如其值可能與之前相同變量的其他響應對應的值不同的話。   假如本響應請求使用了 If-Range 強緩存驗證,那么本次響應不應該包含其他實體頭;假如本響應的請求使用了 If-Range 弱緩存驗證,那么本次響應禁止包含其他實體頭;這避免了緩存的實體內容和更新了的實體頭信息之間的不一致。否則,本響應就應當包含所有本應該返回200響應中應當返回的所有實體頭部域。   假如 ETag 或 Last-Modified 頭部不能精確匹配的話,則客戶端緩存應禁止將206響應返回的內容與之前任何緩存過的內容組合在一起。   任何不支持 Range 以及 Content-Range 頭的緩存都禁止緩存206響應返回的內容。
207 由WebDAV(RFC 2518)擴展的狀態碼,代表之后的消息體將是一個XML消息,并且可能依照之前子請求數量的不同,包含一系列獨立的響應代碼。
300 被請求的資源有一系列可供選擇的回饋信息,每個都有自己特定的地址和瀏覽器驅動的商議信息。用戶或瀏覽器能夠自行選擇一個首選的地址進行重定向。   除非這是一個 HEAD 請求,否則該響應應當包括一個資源特性及地址的列表的實體,以便用戶或瀏覽器從中選擇最合適的重定向地址。這個實體的格式由 Content-Type 定義的格式所決定。瀏覽器可能根據響應的格式以及瀏覽器自身能力,自動作出最合適的選擇。當然,RFC 2616規范并沒有規定這樣的自動選擇該如何進行。   如果服務器本身已經有了首選的回饋選擇,那么在 Location 中應當指明這個回饋的 URI;瀏覽器可能會將這個 Location 值作為自動重定向的地址。此外,除非額外指定,否則這個響應也是可緩存的。
301 被請求的資源已永久移動到新位置,并且將來任何對此資源的引用都應該使用本響應返回的若干個 URI 之一。如果可能,擁有鏈接編輯功能的客戶端應當自動把請求的地址修改為從服務器反饋回來的地址。除非額外指定,否則這個響應也是可緩存的。   新的永久性的 URI 應當在響應的 Location 域中返回。除非這是一個 HEAD 請求,否則響應的實體中應當包含指向新的 URI 的超鏈接及簡短說明。   如果這不是一個 GET 或者 HEAD 請求,因此瀏覽器禁止自動進行重定向,除非得到用戶的確認,因為請求的條件可能因此發生變化。   注意:對于某些使用 HTTP/1.0 協議的瀏覽器,當它們發送的 POST 請求得到了一個301響應的話,接下來的重定向請求將會變成 GET 方式。
302 請求的資源現在臨時從不同的 URI 響應請求。由于這樣的重定向是臨時的,客戶端應當繼續向原有地址發送以后的請求。只有在Cache-Control或Expires中進行了指定的情況下,這個響應才是可緩存的。   新的臨時性的 URI 應當在響應的 Location 域中返回。除非這是一個 HEAD 請求,否則響應的實體中應當包含指向新的 URI 的超鏈接及簡短說明。   如果這不是一個 GET 或者 HEAD 請求,那么瀏覽器禁止自動進行重定向,除非得到用戶的確認,因為請求的條件可能因此發生變化。   注意:雖然RFC 1945和RFC 2068規范不允許客戶端在重定向時改變請求的方法,但是很多現存的瀏覽器將302響應視作為303響應,并且使用 GET 方式訪問在 Location 中規定的 URI,而無視原先請求的方法。狀態碼303和307被添加了進來,用以明確服務器期待客戶端進行何種反應。
303 對應當前請求的響應可以在另一個 URI 上被找到,而且客戶端應當采用 GET 的方式訪問那個資源。這個方法的存在主要是為了允許由腳本激活的POST請求輸出重定向到一個新的資源。這個新的 URI 不是原始資源的替代引用。同時,303響應禁止被緩存。當然,第二個請求(重定向)可能被緩存。   新的 URI 應當在響應的 Location 域中返回。除非這是一個 HEAD 請求,否則響應的實體中應當包含指向新的 URI 的超鏈接及簡短說明。   注意:許多 HTTP/1.1 版以前的 瀏覽器不能正確理解303狀態。如果需要考慮與這些瀏覽器之間的互動,302狀態碼應該可以勝任,因為大多數的瀏覽器處理302響應時的方式恰恰就是上述規范要求客戶端處理303響應時應當做的。
304 如果客戶端發送了一個帶條件的 GET 請求且該請求已被允許,而文檔的內容(自上次訪問以來或者根據請求的條件)并沒有改變,則服務器應當返回這個狀態碼。304響應禁止包含消息體,因此始終以消息頭后的第一個空行結尾。   該響應必須包含以下的頭信息:   Date,除非這個服務器沒有時鐘。假如沒有時鐘的服務器也遵守這些規則,那么代理服務器以及客戶端可以自行將 Date 字段添加到接收到的響應頭中去(正如RFC 2068中規定的一樣),緩存機制將會正常工作。   ETag 和/或 Content-Location,假如同樣的請求本應返回200響應。   Expires, Cache-Control,和/或Vary,假如其值可能與之前相同變量的其他響應對應的值不同的話。   假如本響應請求使用了強緩存驗證,那么本次響應不應該包含其他實體頭;否則(例如,某個帶條件的 GET 請求使用了弱緩存驗證),本次響應禁止包含其他實體頭;這避免了緩存了的實體內容和更新了的實體頭信息之間的不一致。   假如某個304響應指明了當前某個實體沒有緩存,那么緩存系統必須忽視這個響應,并且重復發送不包含限制條件的請求。   假如接收到一個要求更新某個緩存條目的304響應,那么緩存系統必須更新整個條目以反映所有在響應中被更新的字段的值。
305 被請求的資源必須通過指定的代理才能被訪問。Location 域中將給出指定的代理所在的 URI 信息,接收者需要重復發送一個單獨的請求,通過這個代理才能訪問相應資源。只有原始服務器才能建立305響應。   注意:RFC 2068中沒有明確305響應是為了重定向一個單獨的請求,而且只能被原始服務器建立。忽視這些限制可能導致嚴重的安全后果。
306 在最新版的規范中,306狀態碼已經不再被使用。
307 請求的資源現在臨時從不同的URI 響應請求。由于這樣的重定向是臨時的,客戶端應當繼續向原有地址發送以后的請求。只有在Cache-Control或Expires中進行了指定的情況下,這個響應才是可緩存的。   新的臨時性的URI 應當在響應的 Location 域中返回。除非這是一個HEAD 請求,否則響應的實體中應當包含指向新的URI 的超鏈接及簡短說明。因為部分瀏覽器不能識別307響應,因此需要添加上述必要信息以便用戶能夠理解并向新的 URI 發出訪問請求。   如果這不是一個GET 或者 HEAD 請求,那么瀏覽器禁止自動進行重定向,除非得到用戶的確認,因為請求的條件可能因此發生變化。
400 1、語義有誤,當前請求無法被服務器理解。除非進行修改,否則客戶端不應該重復提交這個請求。   2、請求參數有誤。
401 當前請求需要用戶驗證。該響應必須包含一個適用于被請求資源的 WWW-Authenticate 信息頭用以詢問用戶信息??蛻舳丝梢灾貜吞峤灰粋€包含恰當的 Authorization 頭信息的請求。如果當前請求已經包含了 Authorization 證書,那么401響應代表著服務器驗證已經拒絕了那些證書。如果401響應包含了與前一個響應相同的身份驗證詢問,且瀏覽器已經至少嘗試了一次驗證,那么瀏覽器應當向用戶展示響應中包含的實體信息,因為這個實體信息中可能包含了相關診斷信息。參見RFC 2617。
402 該狀態碼是為了將來可能的需求而預留的。
403 服務器已經理解請求,但是拒絕執行它。與401響應不同的是,身份驗證并不能提供任何幫助,而且這個請求也不應該被重復提交。如果這不是一個 HEAD 請求,而且服務器希望能夠講清楚為何請求不能被執行,那么就應該在實體內描述拒絕的原因。當然服務器也可以返回一個404響應,假如它不希望讓客戶端獲得任何信息。
404 請求失敗,請求所希望得到的資源未被在服務器上發現。沒有信息能夠告訴用戶這個狀況到底是暫時的還是永久的。假如服務器知道情況的話,應當使用410狀態碼來告知舊資源因為某些內部的配置機制問題,已經永久的不可用,而且沒有任何可以跳轉的地址。404這個狀態碼被廣泛應用于當服務器不想揭示到底為何請求被拒絕或者沒有其他適合的響應可用的情況下。
405 請求行中指定的請求方法不能被用于請求相應的資源。該響應必須返回一個Allow 頭信息用以表示出當前資源能夠接受的請求方法的列表。   鑒于 PUT,DELETE 方法會對服務器上的資源進行寫操作,因而絕大部分的網頁服務器都不支持或者在默認配置下不允許上述請求方法,對于此類請求均會返回405錯誤。
406 請求的資源的內容特性無法滿足請求頭中的條件,因而無法生成響應實體。   除非這是一個 HEAD 請求,否則該響應就應當返回一個包含可以讓用戶或者瀏覽器從中選擇最合適的實體特性以及地址列表的實體。實體的格式由 Content-Type 頭中定義的媒體類型決定。瀏覽器可以根據格式及自身能力自行作出最佳選擇。但是,規范中并沒有定義任何作出此類自動選擇的標準。
407 與401響應類似,只不過客戶端必須在代理服務器上進行身份驗證。代理服務器必須返回一個 Proxy-Authenticate 用以進行身份詢問??蛻舳丝梢苑祷匾粋€ Proxy-Authorization 信息頭用以驗證。參見RFC 2617。
408 請求超時。客戶端沒有在服務器預備等待的時間內完成一個請求的發送??蛻舳丝梢噪S時再次提交這一請求而無需進行任何更改。
409 由于和被請求的資源的當前狀態之間存在沖突,請求無法完成。這個代碼只允許用在這樣的情況下才能被使用:用戶被認為能夠解決沖突,并且會重新提交新的請求。該響應應當包含足夠的信息以便用戶發現沖突的源頭。   沖突通常發生于對 PUT 請求的處理中。例如,在采用版本檢查的環境下,某次 PUT 提交的對特定資源的修改請求所附帶的版本信息與之前的某個(第三方)請求向沖突,那么此時服務器就應該返回一個409錯誤,告知用戶請求無法完成。此時,響應實體中很可能會包含兩個沖突版本之間的差異比較,以便用戶重新提交歸并以后的新版本。
410 被請求的資源在服務器上已經不再可用,而且沒有任何已知的轉發地址。這樣的狀況應當被認為是永久性的。如果可能,擁有鏈接編輯功能的客戶端應當在獲得用戶許可后刪除所有指向這個地址的引用。如果服務器不知道或者無法確定這個狀況是否是永久的,那么就應該使用404狀態碼。除非額外說明,否則這個響應是可緩存的。   410響應的目的主要是幫助網站管理員維護網站,通知用戶該資源已經不再可用,并且服務器擁有者希望所有指向這個資源的遠端連接也被刪除。這類事件在限時、增值服務中很普遍。同樣,410響應也被用于通知客戶端在當前服務器站點上,原本屬于某個個人的資源已經不再可用。當然,是否需要把所有永久不可用的資源標記為'410 Gone',以及是否需要保持此標記多長時間,完全取決于服務器擁有者。
411 服務器拒絕在沒有定義 Content-Length 頭的情況下接受請求。在添加了表明請求消息體長度的有效 Content-Length 頭之后,客戶端可以再次提交該請求。
412 服務器在驗證在請求的頭字段中給出先決條件時,沒能滿足其中的一個或多個。這個狀態碼允許客戶端在獲取資源時在請求的元信息(請求頭字段數據)中設置先決條件,以此避免該請求方法被應用到其希望的內容以外的資源上。
413 服務器拒絕處理當前請求,因為該請求提交的實體數據大小超過了服務器愿意或者能夠處理的范圍。此種情況下,服務器可以關閉連接以免客戶端繼續發送此請求。   如果這個狀況是臨時的,服務器應當返回一個 Retry-After 的響應頭,以告知客戶端可以在多少時間以后重新嘗試。
414 請求的URI 長度超過了服務器能夠解釋的長度,因此服務器拒絕對該請求提供服務。這比較少見,通常的情況包括:   本應使用POST方法的表單提交變成了GET方法,導致查詢字符串(Query String)過長。   重定向URI “黑洞”,例如每次重定向把舊的 URI 作為新的 URI 的一部分,導致在若干次重定向后 URI 超長。   客戶端正在嘗試利用某些服務器中存在的安全漏洞攻擊服務器。這類服務器使用固定長度的緩沖讀取或操作請求的 URI,當 GET 后的參數超過某個數值后,可能會產生緩沖區溢出,導致任意代碼被執行[1]。沒有此類漏洞的服務器,應當返回414狀態碼。
415 對于當前請求的方法和所請求的資源,請求中提交的實體并不是服務器中所支持的格式,因此請求被拒絕。
416 如果請求中包含了 Range 請求頭,并且 Range 中指定的任何數據范圍都與當前資源的可用范圍不重合,同時請求中又沒有定義 If-Range 請求頭,那么服務器就應當返回416狀態碼。   假如 Range 使用的是字節范圍,那么這種情況就是指請求指定的所有數據范圍的首字節位置都超過了當前資源的長度。服務器也應當在返回416狀態碼的同時,包含一個 Content-Range 實體頭,用以指明當前資源的長度。這個響應也被禁止使用 multipart/byteranges 作為其 Content-Type。
417 在請求頭 Expect 中指定的預期內容無法被服務器滿足,或者這個服務器是一個代理服務器,它有明顯的證據證明在當前路由的下一個節點上,Expect 的內容無法被滿足。
421 從當前客戶端所在的IP地址到服務器的連接數超過了服務器許可的最大范圍。通常,這里的IP地址指的是從服務器上看到的客戶端地址(比如用戶的網關或者代理服務器地址)。在這種情況下,連接數的計算可能涉及到不止一個終端用戶。
422 從當前客戶端所在的IP地址到服務器的連接數超過了服務器許可的最大范圍。通常,這里的IP地址指的是從服務器上看到的客戶端地址(比如用戶的網關或者代理服務器地址)。在這種情況下,連接數的計算可能涉及到不止一個終端用戶。
422 請求格式正確,但是由于含有語義錯誤,無法響應。(RFC 4918 WebDAV)423 Locked   當前資源被鎖定。(RFC 4918 WebDAV)
424 由于之前的某個請求發生的錯誤,導致當前請求失敗,例如 PROPPATCH。(RFC 4918 WebDAV)
425 在WebDav Advanced Collections 草案中定義,但是未出現在《WebDAV 順序集協議》(RFC 3658)中。
426 客戶端應當切換到TLS/1.0。(RFC 2817)
449 由微軟擴展,代表請求應當在執行完適當的操作后進行重試。
500 服務器遇到了一個未曾預料的狀況,導致了它無法完成對請求的處理。一般來說,這個問題都會在服務器的程序碼出錯時出現。
501 服務器不支持當前請求所需要的某個功能。當服務器無法識別請求的方法,并且無法支持其對任何資源的請求。
502 作為網關或者代理工作的服務器嘗試執行請求時,從上游服務器接收到無效的響應。
503 由于臨時的服務器維護或者過載,服務器當前無法處理請求。這個狀況是臨時的,并且將在一段時間以后恢復。如果能夠預計延遲時間,那么響應中可以包含一個 Retry-After 頭用以標明這個延遲時間。如果沒有給出這個 Retry-After 信息,那么客戶端應當以處理500響應的方式處理它。   注意:503狀態碼的存在并不意味著服務器在過載的時候必須使用它。某些服務器只不過是希望拒絕客戶端的連接。
504 作為網關或者代理工作的服務器嘗試執行請求時,未能及時從上游服務器(URI標識出的服務器,例如HTTP、FTP、LDAP)或者輔助服務器(例如DNS)收到響應。   注意:某些代理服務器在DNS查詢超時時會返回400或者500錯誤
505 服務器不支持,或者拒絕支持在請求中使用的 HTTP 版本。這暗示著服務器不能或不愿使用與客戶端相同的版本。響應中應當包含一個描述了為何版本不被支持以及服務器支持哪些協議的實體。
506 由《透明內容協商協議》(RFC 2295)擴展,代表服務器存在內部配置錯誤:被請求的協商變元資源被配置為在透明內容協商中使用自己,因此在一個協商處理中不是一個合適的重點。
507 服務器無法存儲完成請求所必須的內容。這個狀況被認為是臨時的。WebDAV (RFC 4918)
509 服務器達到帶寬限制。這不是一個官方的狀態碼,但是仍被廣泛使用。
510 獲取資源所需要的策略并沒有沒滿足。(RFC 2774)

2.4. 網絡數據抓包分析

進行網絡爬蟲程序開發之前,首先針對網絡數據進行定位分析非常重要,對于網絡數據的定位處理通常使用抓包工具進行操作,常用的抓包工具如瀏覽器F12工具、Fiddler、wireshark等等,在爬蟲處理過程中,使用較多的是F12網絡工具和Fiddler。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容