一只優雅的小爬蟲誕生記

爬蟲,幾家歡喜幾人愁。爬者,拿到有利數據,分析行為,產生價值。被爬者,一是損失數據,二是遇到不懷好意的爬蟲往往被全站復制或服務器受沖擊而無法服務。今天說的是一只友好的爬蟲是如何構建出來的,請勿用它傷害他人。

爬蟲一生所遇

俗話說,如果我比別人看得遠些,那是因為我站在巨人們的肩上。前人之鑒,后人之師。小爬蟲在胎教的時候就該傳授它的前輩參悟的人生經驗,了解網絡的可怕之處。看看我提供的胎教課程:

  • 被爬網站偶然出現服務無法響應,需重試
  • 網站檢查某些header,特別是referer這個參數,請警惕
  • 訪問頻率限制,短時間單IP或者單帳號內往往有頻率限制。更高級的還可能用近段時間訪問頻率,時間段請求頻率來識別爬蟲行為。
  • 目標爬取網站需要登錄
  • 網站采用js運算產生最終頁面

小爬蟲身份成謎

爬蟲如此泛濫,網站安能不防備,識別之,封禁之爬蟲就無可奈何了。你問該如何做?我們從tcp/ip的角度來看,網站可以識別到ip地址。那么如此說來,網站封的很有可能就是ip地址。網絡上可是有代理服務器這種可怕東西存在的,爬蟲依靠代理服務器偽裝身份,一旦被封禁,換代理又可以愉快的玩耍了。

代理服務器那里來?這種東西,用搜索引擎一搜索就有了。如果你想省時省力,直接購買。然而在手頭拮據的時候,只能尋找一些免費的代理。一般來說每個網站都會提供一點點免費代理,我們只要勤快定時定后抓取入庫即可,集腋成仇。

千萬不要相信代理服務器就是可用的,要定時檢查入庫的代理是否有用,除了定時檢查之外,我們還可以借助squid,我們只要把代理往里面一丟,爬蟲代理直接設置成squid的ip和端口,這貨就會自動挑選可用代理來使用,省了自己定時檢測。

題外話:免費的往往是最貴的,特別ip,帶寬這種資源。網上提供的代理往往會注入一些廣告js等東西,這個自己想解決方案了。

一個堅持不懈的爬蟲

一只爬蟲的最高境界就是全自動化,無需人為干預,不過這種事情想想即可,不可能實現的。但是小爬蟲也有自己的修養的,最起碼在各種異常面前不能一次就退縮了吧,出錯重試多次是必須的,最重要的是出現異常進程不能中斷,任務還是得接著完成的。

最簡單的方法是什么呢?在循環里面搞一個try catch,是不是完美呢?大伙來看看這個例子:

一個簡單粗暴的方式

然而這樣子寫是不道德,最重要的還不夠優雅,所以再看看下面這個例子:

優雅的錯誤處理

應該分別抓取各種錯誤來分別處理,因為各種出錯的應對策略是不一樣的。

小爬蟲也需要團隊作戰

假如說,某一天爬蟲接到任務,一天之內要爬取100萬個網頁。假設一個網頁需要10秒,單進程單線程的爬蟲是沒法實現的。這個時候我們可以利用下面幾個方案:

  • 多線程(然而對于python來說有GIL問題,所以優勢不明顯)
  • 多進程,一旦使用多進程就需要解決任務分配問題,和進程管理問題,這個時候我們可以使用消息中間件來分配任務,簡簡單單上一個redis隊列,問題就迎刃而解了。
  • 爬蟲集群,任務分配依舊可以使用消息中間件,而部署我們可以使用偉大的docker,環境都無需配置了。

爬蟲與瀏覽器的愛恨情愁

有很多網站呢,要么登錄的時候需要提交一些js計算后的值。有些數據還要js處理生成,如果我們的爬蟲要模擬js來運算,還得針對每一個網站進行處理,這可一點都不優雅。

那么咋辦呢?最簡單的方案是,既然我們的瀏覽器能渲染,那么我們就去調用瀏覽器來拿到最終頁面嘛,平時那些稀奇古怪的交互也一并解決了。對于python來說,調用瀏覽器一點難度都沒有,因為有神器selenium。

selenium可以很方便的使用python與谷歌呀火狐呀PhantomJS等這些瀏覽器交互,缺點是只是模擬了GET請求,也許你會說不是可以執行ajax,聽我一句勸,你會被跨域請求坑住的。為了實現其它請求請再上一個庫selenium-requests,然而這庫的使用方法請查考requests,文檔這樣子也是無奈。

小爬蟲優雅架構

優雅的小爬蟲架構圖

爬蟲與反爬蟲的較量是長久的,爬取過程千萬要注意抓取頁面異常的情況,觸發反爬蟲預警達到一定次數,帳號或者IP就會被凍結。模擬登陸驗證碼識別可以借助第三方平臺,起碼比自己寫的驗證碼識別高效得多。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,333評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,491評論 3 416
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,263評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,946評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,708評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,186評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,409評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,939評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,774評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,976評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,209評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,641評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,872評論 1 286
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,650評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,958評論 2 373

推薦閱讀更多精彩內容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,638評論 25 708
  • Vector繼承自Vector,Stack是棧。它的特性是:先進后出(FILO, First In Last Ou...
    MrLuo閱讀 163評論 0 0
  • 生活是什么也許是滿身的疲憊是無盡的等待或許又是對成功的渴望我們不知道什么時候才能長大不知道什么時候才會熬過又苦又累...
    過往不戀吧閱讀 115評論 0 1
  • 最近嘗試了件新鮮事兒——作一名演講俱樂部活動主持人。因為前期對主持沒什么概念和經驗,嘗試三次后,很有些感觸。于是總...
    袁春楠閱讀 938評論 3 17