python爬取豆瓣兩千萬圖書簡介信息:(三)異常處理

這是全部的調試過程,我已經整理成為筆記,這里分享給大家:
python爬取豆瓣兩千萬圖書簡介信息:(一)目標API分析
python爬取豆瓣兩千萬圖書簡介信息:(二)簡單python請求urllib2
python爬取豆瓣兩千萬圖書簡介信息:(三)異常處理
python爬取豆瓣兩千萬圖書簡介信息:(四)多進程并發
python爬取豆瓣兩千萬圖書簡介信息:(五)數據庫設計
python爬取豆瓣兩千萬圖書簡介信息:(六)數據庫操作類
python爬取豆瓣兩千萬圖書簡介信息:(七)代理IP
python爬取豆瓣兩千萬圖書簡介信息:(八)總結

異常處理

爬取數據是一個“大”活,尤其是面對豆瓣這種兩千萬級別的數據量,手動去一條一條擼的確很慢。稍微簡單一想,用循環來爬取就是必然的選擇。
于是就有了以下的代碼:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2

def loop_get_book():
    for x in xrange(1,100):
        url = 'https://api.douban.com/v2/book/' + str(1000000+x)
        headers = {"User-Agent": "Mozilla/5.0"}
        #headers設置請求的headers,標明是哪種客戶端訪問的服務器,可以不填
        req = urllib2.Request(url, headers=headers)
        res = urllib2.urlopen(req, timeout=20)
        #設置請求,并設置請求超時時間為20s
        res = res.read()
        print res
        #通過read()解析response,并將結果轉譯為utf-8編碼
    pass

loop_get_book()

運行結果如下:

屏幕快照 2017-07-11 下午2.17.26.png

100條數據全部已經錄了下來,全放這里放不下,就截個圖臨時看看哈。
于是到這里似乎就萬事大吉了,只需要將代碼中的100改為20000000就可以等著將數據全部爬下來了。
但事實并非如此,改了之后的運行結果如下:

屏幕快照 2017-07-11 下午2.20.38.png

出現了‘urllib2.HTTPError: HTTP Error 400: Bad Request
’的異常。

簡單學習一下,(翻翻書查查博客之類的),看到對urllib2
這種有專門的異常處理類:urllib2.URLError

于是,就添加上異常處理:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2

def loop_get_book():
    for x in xrange(1,20000000):
        try:
            url = 'https://api.douban.com/v2/book/' + str(1000000+x)
            headers = {"User-Agent": "Mozilla/5.0"}
            #headers設置請求的headers,標明是哪種客戶端訪問的服務器,可以不填
            req = urllib2.Request(url, headers=headers)
            res = urllib2.urlopen(req, timeout=20)
            #設置請求,并設置請求超時時間為20s
            res = res.read()
            print res
            #通過read()解析response,并將結果轉譯為utf-8編碼
        except urllib2.URLError, e:
            print('book_id為'+str(x)+'的書目信息請求失敗')

loop_get_book()

到這里,這段代碼就能順暢的執行到2kw以上。

在之前并沒有系統的學習過python,剛好在這里就系統的總結一下python的異常處理。

什么是異常?
異常即是一個事件,該事件會在程序執行過程中發生,影響了程序的正常執行。
一般情況下,在Python無法正常處理程序時就會發生一個異常。
異常是Python對象,表示一個錯誤。
當Python腳本發生異常時我們需要捕獲處理它,否則程序會終止執行。

異常處理
捕捉異常可以使用try/except語句。
try/except語句用來檢測try語句塊中的錯誤,從而讓except語句捕獲異常信息并處理。
如果你不想在異常發生時結束你的程序,只需在try里捕獲它。
語法:
以下為簡單的try....except...else的語法:

try:
<語句>        #運行別的代碼
except <名字>:
<語句>        #如果在try部份引發了'name'異常
except <名字>,<數據>:
<語句>        #如果引發了'name'異常,獲得附加的數據
else:
<語句>        #如果沒有異常發生

try的工作原理是,當開始一個try語句后,python就在當前程序的上下文中作標記,這樣當異常出現時就可以回到這里,try子句先執行,接下來會發生什么依賴于執行時是否出現異常。

  • 如果當try后的語句執行時發生異常,python就跳回到try并執行第一個匹配該異常的except子句,異常處理完畢,控制流就通過整個try語句(除非在處理異常時又引發新的異常)。
  • 如果在try后的語句里發生了異常,卻沒有匹配的except子句,異常將被遞交到上層的try,或者到程序的最上層(這樣將結束程序,并打印缺省的出錯信息)。
  • 如果在try子句執行時沒有發生異常,python將執行else語句后的語句(如果有else的話),然后控制流通過整個try語句。

python中try的語法格式如下:

try:
    pass
except Exception, e:
    raise e

try:
    pass
except Exception, e:
    raise e
else:
    pass

try:
    pass
except Exception, e:
    raise e
finally:
    pass

try:
    pass
except Exception, e:
    raise
else:
    pass
finally:
    pass

異常的參數
一個異常可以帶上參數,可作為輸出的異常信息參數。
你可以通過except語句來捕獲異常的參數,如下所示:

try:
    #正常的操作
   ......................
except ExceptionType, Argument:
    #你可以在這輸出 Argument 的值...

變量接收的異常值通常包含在異常的語句中。在元組的表單中變量可以接收一個或者多個值。
元組通常包含錯誤字符串,錯誤數字,錯誤位置。

觸發異常
我們可以使用raise語句自己觸發異常
raise語法格式如下:

raise [Exception [, args [, traceback]]]

語句中Exception是異常的類型(例如,NameError)參數是一個異常參數值。該參數是可選的,如果不提供,異常的參數是"None"。
最后一個參數是可選的(在實踐中很少使用),如果存在,是跟蹤異常對象。
實例
一個異常可以是一個字符串,類或對象。 Python的內核提供的異常,大多數都是實例化的類,這是一個類的實例的參數。
定義一個異常非常簡單,如下所示:

def functionName( level ):
    if level < 1:
        raise Exception("Invalid level!", level)
        # 觸發異常后,后面的代碼就不會再執行

用戶自定義異常
通過創建一個新的異常類,程序可以命名它們自己的異常。異常應該是典型的繼承自Exception類,通過直接或間接的方式。
以下為與RuntimeError相關的實例,實例中創建了一個類,基類為RuntimeError,用于在異常觸發時輸出更多的信息。
在try語句塊中,用戶自定義的異常后執行except塊語句,變量 e 是用于創建Networkerror類的實例。

class Networkerror(RuntimeError):
    def __init__(self, arg):
        self.args = arg

在你定義以上類后,你可以觸發該異常,如下所示:

try:
    raise Networkerror("Bad hostname")
except Networkerror,e:
    print e.args

異常的實現原理

  • 類會跟隨一張 異常表(exception table),每一個try except都會在這個表里添加行記錄,每一個記錄都有4個信息(try except的開始地址,結束地址,異常的處理起始位,異常類名稱)。
  • 當代碼在運行時拋出了異常時,首先拿著拋出位置到異常表中查找是否可以被catch(例如看位置是不是處于任何一欄中的開始和結束位置之間),如果可以則跑到異常處理的起始位置開始處理,如果沒有找到則原地return,并且copy異常的引用給父調用方,接著看父調用的異常表。。。以此類推。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,578評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,701評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,691評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,974評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,694評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,026評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,015評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,193評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,719評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,442評論 3 360
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,668評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,151評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,846評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,255評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,592評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,394評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,635評論 2 380

推薦閱讀更多精彩內容