python爬取豆瓣兩千萬圖書簡介信息：（三）異常處理

異常處理

爬取數據是一個“大”活，尤其是面對豆瓣這種兩千萬級別的數據量，手動去一條一條擼的確很慢。稍微簡單一想，用循環來爬取就是必然的選擇。
于是就有了以下的代碼：

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2

def loop_get_book():
    for x in xrange(1,100):
        url = 'https://api.douban.com/v2/book/' + str(1000000+x)
        headers = {"User-Agent": "Mozilla/5.0"}
        #headers設置請求的headers，標明是哪種客戶端訪問的服務器，可以不填
        req = urllib2.Request(url, headers=headers)
        res = urllib2.urlopen(req, timeout=20)
        #設置請求，并設置請求超時時間為20s
        res = res.read()
        print res
        #通過read()解析response,并將結果轉譯為utf-8編碼
    pass

loop_get_book()

運行結果如下：

屏幕快照 2017-07-11 下午2.17.26.png

100條數據全部已經錄了下來，全放這里放不下，就截個圖臨時看看哈。
于是到這里似乎就萬事大吉了，只需要將代碼中的100改為20000000就可以等著將數據全部爬下來了。
但事實并非如此，改了之后的運行結果如下：

屏幕快照 2017-07-11 下午2.20.38.png

出現了‘urllib2.HTTPError: HTTP Error 400: Bad Request
’的異常。

簡單學習一下，（翻翻書查查博客之類的），看到對urllib2
這種有專門的異常處理類：urllib2.URLError

于是，就添加上異常處理：

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib2

def loop_get_book():
    for x in xrange(1,20000000):
        try:
            url = 'https://api.douban.com/v2/book/' + str(1000000+x)
            headers = {"User-Agent": "Mozilla/5.0"}
            #headers設置請求的headers，標明是哪種客戶端訪問的服務器，可以不填
            req = urllib2.Request(url, headers=headers)
            res = urllib2.urlopen(req, timeout=20)
            #設置請求，并設置請求超時時間為20s
            res = res.read()
            print res
            #通過read()解析response,并將結果轉譯為utf-8編碼
        except urllib2.URLError, e:
            print('book_id為'+str(x)+'的書目信息請求失敗')

loop_get_book()

到這里，這段代碼就能順暢的執行到2kw以上。

在之前并沒有系統的學習過python，剛好在這里就系統的總結一下python的異常處理。

什么是異常？
異常即是一個事件，該事件會在程序執行過程中發生，影響了程序的正常執行。
一般情況下，在Python無法正常處理程序時就會發生一個異常。
異常是Python對象，表示一個錯誤。
當Python腳本發生異常時我們需要捕獲處理它，否則程序會終止執行。

異常處理
捕捉異常可以使用try/except語句。
try/except語句用來檢測try語句塊中的錯誤，從而讓except語句捕獲異常信息并處理。
如果你不想在異常發生時結束你的程序，只需在try里捕獲它。
語法：
以下為簡單的try....except...else的語法：

try:
<語句>        #運行別的代碼
except <名字>：
<語句>        #如果在try部份引發了'name'異常
except <名字>，<數據>:
<語句>        #如果引發了'name'異常，獲得附加的數據
else:
<語句>        #如果沒有異常發生

try的工作原理是，當開始一個try語句后，python就在當前程序的上下文中作標記，這樣當異常出現時就可以回到這里，try子句先執行，接下來會發生什么依賴于執行時是否出現異常。

如果當try后的語句執行時發生異常，python就跳回到try并執行第一個匹配該異常的except子句，異常處理完畢，控制流就通過整個try語句（除非在處理異常時又引發新的異常）。
如果在try后的語句里發生了異常，卻沒有匹配的except子句，異常將被遞交到上層的try，或者到程序的最上層（這樣將結束程序，并打印缺省的出錯信息）。
如果在try子句執行時沒有發生異常，python將執行else語句后的語句（如果有else的話），然后控制流通過整個try語句。

python中try的語法格式如下：

try:
    pass
except Exception, e:
    raise e

try:
    pass
except Exception, e:
    raise e
else:
    pass

try:
    pass
except Exception, e:
    raise e
finally:
    pass

try:
    pass
except Exception, e:
    raise
else:
    pass
finally:
    pass

異常的參數
一個異常可以帶上參數，可作為輸出的異常信息參數。
你可以通過except語句來捕獲異常的參數，如下所示：

try:
    #正常的操作
   ......................
except ExceptionType, Argument:
    #你可以在這輸出 Argument 的值...

變量接收的異常值通常包含在異常的語句中。在元組的表單中變量可以接收一個或者多個值。
元組通常包含錯誤字符串，錯誤數字，錯誤位置。

觸發異常
我們可以使用raise語句自己觸發異常
raise語法格式如下：

raise [Exception [, args [, traceback]]]

語句中Exception是異常的類型（例如，NameError）參數是一個異常參數值。該參數是可選的，如果不提供，異常的參數是"None"。
最后一個參數是可選的（在實踐中很少使用），如果存在，是跟蹤異常對象。
實例
一個異常可以是一個字符串，類或對象。 Python的內核提供的異常，大多數都是實例化的類，這是一個類的實例的參數。
定義一個異常非常簡單，如下所示：

def functionName( level ):
    if level < 1:
        raise Exception("Invalid level!", level)
        # 觸發異常后，后面的代碼就不會再執行

用戶自定義異常
通過創建一個新的異常類，程序可以命名它們自己的異常。異常應該是典型的繼承自Exception類，通過直接或間接的方式。
以下為與RuntimeError相關的實例,實例中創建了一個類，基類為RuntimeError，用于在異常觸發時輸出更多的信息。
在try語句塊中，用戶自定義的異常后執行except塊語句，變量 e 是用于創建Networkerror類的實例。

class Networkerror(RuntimeError):
    def __init__(self, arg):
        self.args = arg

在你定義以上類后，你可以觸發該異常，如下所示：

try:
    raise Networkerror("Bad hostname")
except Networkerror,e:
    print e.args

異常的實現原理

類會跟隨一張異常表（exception table），每一個try except都會在這個表里添加行記錄，每一個記錄都有4個信息（try except的開始地址，結束地址，異常的處理起始位，異常類名稱）。
當代碼在運行時拋出了異常時，首先拿著拋出位置到異常表中查找是否可以被catch（例如看位置是不是處于任何一欄中的開始和結束位置之間），如果可以則跑到異常處理的起始位置開始處理，如果沒有找到則原地return，并且copy異常的引用給父調用方，接著看父調用的異常表。。。以此類推。

最后編輯于：2018.05.03 09:57:18

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,578評論 6贊 544
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,701評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,691評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,974評論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,694評論 6贊 413
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,026評論 1贊 329
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,015評論 3贊 450
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,193評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,719評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,442評論 3贊 360
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,668評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,151評論 5贊 365
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,846評論 3贊 351
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,255評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,592評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,394評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,635評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

python爬取豆瓣兩千萬圖書簡介信息：（三）異常處理

python爬取豆瓣兩千萬圖書簡介信息：（三）異常處理

異常處理

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

python爬取豆瓣兩千萬圖書簡介信息：（三）異常處理

異常處理

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频