這是全部的調試過程,我已經整理成為筆記,這里分享給大家:
python爬取豆瓣兩千萬圖書簡介信息:(一)目標API分析
python爬取豆瓣兩千萬圖書簡介信息:(二)簡單python請求urllib2
python爬取豆瓣兩千萬圖書簡介信息:(三)異常處理
python爬取豆瓣兩千萬圖書簡介信息:(四)多進程并發
python爬取豆瓣兩千萬圖書簡介信息:(五)數據庫設計
python爬取豆瓣兩千萬圖書簡介信息:(六)數據庫操作類
python爬取豆瓣兩千萬圖書簡介信息:(七)代理IP
python爬取豆瓣兩千萬圖書簡介信息:(八)總結
異常處理
爬取數據是一個“大”活,尤其是面對豆瓣這種兩千萬級別的數據量,手動去一條一條擼的確很慢。稍微簡單一想,用循環來爬取就是必然的選擇。
于是就有了以下的代碼:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib2
def loop_get_book():
for x in xrange(1,100):
url = 'https://api.douban.com/v2/book/' + str(1000000+x)
headers = {"User-Agent": "Mozilla/5.0"}
#headers設置請求的headers,標明是哪種客戶端訪問的服務器,可以不填
req = urllib2.Request(url, headers=headers)
res = urllib2.urlopen(req, timeout=20)
#設置請求,并設置請求超時時間為20s
res = res.read()
print res
#通過read()解析response,并將結果轉譯為utf-8編碼
pass
loop_get_book()
運行結果如下:
100條數據全部已經錄了下來,全放這里放不下,就截個圖臨時看看哈。
于是到這里似乎就萬事大吉了,只需要將代碼中的100改為20000000就可以等著將數據全部爬下來了。
但事實并非如此,改了之后的運行結果如下:
出現了‘urllib2.HTTPError: HTTP Error 400: Bad Request
’的異常。
簡單學習一下,(翻翻書查查博客之類的),看到對urllib2
這種有專門的異常處理類:urllib2.URLError
于是,就添加上異常處理:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import urllib2
def loop_get_book():
for x in xrange(1,20000000):
try:
url = 'https://api.douban.com/v2/book/' + str(1000000+x)
headers = {"User-Agent": "Mozilla/5.0"}
#headers設置請求的headers,標明是哪種客戶端訪問的服務器,可以不填
req = urllib2.Request(url, headers=headers)
res = urllib2.urlopen(req, timeout=20)
#設置請求,并設置請求超時時間為20s
res = res.read()
print res
#通過read()解析response,并將結果轉譯為utf-8編碼
except urllib2.URLError, e:
print('book_id為'+str(x)+'的書目信息請求失敗')
loop_get_book()
到這里,這段代碼就能順暢的執行到2kw以上。
在之前并沒有系統的學習過python,剛好在這里就系統的總結一下python的異常處理。
什么是異常?
異常即是一個事件,該事件會在程序執行過程中發生,影響了程序的正常執行。
一般情況下,在Python無法正常處理程序時就會發生一個異常。
異常是Python對象,表示一個錯誤。
當Python腳本發生異常時我們需要捕獲處理它,否則程序會終止執行。
異常處理
捕捉異常可以使用try/except語句。
try/except語句用來檢測try語句塊中的錯誤,從而讓except語句捕獲異常信息并處理。
如果你不想在異常發生時結束你的程序,只需在try里捕獲它。
語法:
以下為簡單的try....except...else的語法:
try:
<語句> #運行別的代碼
except <名字>:
<語句> #如果在try部份引發了'name'異常
except <名字>,<數據>:
<語句> #如果引發了'name'異常,獲得附加的數據
else:
<語句> #如果沒有異常發生
try的工作原理是,當開始一個try語句后,python就在當前程序的上下文中作標記,這樣當異常出現時就可以回到這里,try子句先執行,接下來會發生什么依賴于執行時是否出現異常。
- 如果當try后的語句執行時發生異常,python就跳回到try并執行第一個匹配該異常的except子句,異常處理完畢,控制流就通過整個try語句(除非在處理異常時又引發新的異常)。
- 如果在try后的語句里發生了異常,卻沒有匹配的except子句,異常將被遞交到上層的try,或者到程序的最上層(這樣將結束程序,并打印缺省的出錯信息)。
- 如果在try子句執行時沒有發生異常,python將執行else語句后的語句(如果有else的話),然后控制流通過整個try語句。
python中try的語法格式如下:
try:
pass
except Exception, e:
raise e
try:
pass
except Exception, e:
raise e
else:
pass
try:
pass
except Exception, e:
raise e
finally:
pass
try:
pass
except Exception, e:
raise
else:
pass
finally:
pass
異常的參數
一個異常可以帶上參數,可作為輸出的異常信息參數。
你可以通過except語句來捕獲異常的參數,如下所示:
try:
#正常的操作
......................
except ExceptionType, Argument:
#你可以在這輸出 Argument 的值...
變量接收的異常值通常包含在異常的語句中。在元組的表單中變量可以接收一個或者多個值。
元組通常包含錯誤字符串,錯誤數字,錯誤位置。
觸發異常
我們可以使用raise語句自己觸發異常
raise語法格式如下:
raise [Exception [, args [, traceback]]]
語句中Exception是異常的類型(例如,NameError)參數是一個異常參數值。該參數是可選的,如果不提供,異常的參數是"None"。
最后一個參數是可選的(在實踐中很少使用),如果存在,是跟蹤異常對象。
實例
一個異常可以是一個字符串,類或對象。 Python的內核提供的異常,大多數都是實例化的類,這是一個類的實例的參數。
定義一個異常非常簡單,如下所示:
def functionName( level ):
if level < 1:
raise Exception("Invalid level!", level)
# 觸發異常后,后面的代碼就不會再執行
用戶自定義異常
通過創建一個新的異常類,程序可以命名它們自己的異常。異常應該是典型的繼承自Exception類,通過直接或間接的方式。
以下為與RuntimeError相關的實例,實例中創建了一個類,基類為RuntimeError,用于在異常觸發時輸出更多的信息。
在try語句塊中,用戶自定義的異常后執行except塊語句,變量 e 是用于創建Networkerror類的實例。
class Networkerror(RuntimeError):
def __init__(self, arg):
self.args = arg
在你定義以上類后,你可以觸發該異常,如下所示:
try:
raise Networkerror("Bad hostname")
except Networkerror,e:
print e.args
異常的實現原理
- 類會跟隨一張 異常表(exception table),每一個try except都會在這個表里添加行記錄,每一個記錄都有4個信息(try except的開始地址,結束地址,異常的處理起始位,異常類名稱)。
- 當代碼在運行時拋出了異常時,首先拿著拋出位置到異常表中查找是否可以被catch(例如看位置是不是處于任何一欄中的開始和結束位置之間),如果可以則跑到異常處理的起始位置開始處理,如果沒有找到則原地return,并且copy異常的引用給父調用方,接著看父調用的異常表。。。以此類推。