【scrapy】爬取汽車車型數據

汽車

最近想在工作相關的項目上做技術改進,需要全而準的車型數據,尋尋覓覓而不得,所以就只能自己動手豐衣足食,到網上獲(竊)得(?。祿恕?/p>

汽車之家是大家公認的數據做的比較好的汽車網站,所以就用它吧。(感謝汽車之家的大大們這么用心地做數據,仰慕)

俗話說的好,“十爬蟲九python”,作為一只java狗,我顫顫巍巍地拿起了python想要感受一下scrapy的強大。。。

在寫這個爬蟲之前,我用urllib2,BeautifulSoup寫了一個版本,不過效率太差,而且還有內存溢出的問題,作為python小白感覺很無力,所以用scrapy才是正道。

嗯,開搞。

準備工作

  1. 安裝python,版本是2.7
  2. 安裝scrapy模塊, 版本是1.4.0

參考

汽車之家車型數據爬蟲:這是我工程的代碼,以下內容需要參照著代碼來理解,就不貼代碼在這里了。

Scrapy中文文檔:這是Scrapy的中文文檔,具體細節可以參照文檔。感謝Summer同學的翻譯。

Xpath教程:解析頁面數據要用到xpath的語法,簡單了解一下,在做的過程中遇到問題去查一下就可以了。

初始化工程

scrapy工程的初始化很方便,在shell中的指定目錄下執行scrapy start startproject 項目名稱,就自動化生成了。

執行這步的時候遇到了一個問題,拋出了異常"TLSVersion.TLSv1_1: SSL.OP_NO_TLSv1_1",解決方法是執行sudo pip install twisted==13.1.0,應該是依賴庫版本不兼容。

目錄結構

工程初始化后,scrapy中的各個元素就被構建好了,不過構建出來的是一副空殼,需要我們往里邊寫入我們的爬蟲邏輯。

初始化后的目錄結構是這樣的:

  • spiders:爬蟲目錄,爬蟲的爬取邏輯就放在個目錄下邊
  • items.py:數據實體類,在這里定義我們爬到的數據結構
  • middlewares.py:爬蟲中間件(我自己翻譯的哈),在這里定義爬取前、爬取后需要處理的邏輯
  • pipelines.py:數據管道,爬取后的數據實體會經過數據管道的處理
  • settings.py:配置文件,可以在這里配置爬蟲的爬取速度,配置中間件、管道是否開啟和先后順序,配置數據輸出的格式等。

了解過這些文件的作用后就可以開始寫爬蟲了。

開始吧!

首先,確定要爬取的目標數據。

我的目標是獲取汽車的品牌、車系、車型數據,先從品牌開始。

在汽車之家的頁面中尋覓一番后,找到了一個爬蟲的切入點,汽車之家車型大全。這個頁面里有所有品牌的數據,正是我的目標。不過在觀察的過程中發現,這個頁面里的品牌數據是在頁面向下滾動的過程中延遲加載的,這樣我們通過請求這個頁面不能獲取到延遲加載的那部分數據。不過不要慌,看一下延遲加載的方式是什么樣的。

打開瀏覽器控制臺的網絡請求面板,滾動頁面來觸發延遲加載,發現瀏覽器發送了一個異步請求:


控制臺

復制請求的URL看看:

找到規律了,每一次加載的URL,都只是改變了對應的字母,所以對A到Z分別請求一次就取到了所有的品牌數據。

打開http://www.autohome.com.cn/grade/carhtml/B.html看下,發現頁面的數據很規整,是按照品牌-廠商-車系的層級組織的。嗯,正合我意,那就開爬吧。

編寫Spider

在spiders目錄下邊,新建一個brand_spider.py文件,在文件中定義BrandSpider類,這個類繼承了scrapy.Spider類,這就是scrapy的Spider類。在BrandSpider中,需要聲明name變量,這是這個爬蟲的ID;還需要聲明start_urls,這是爬蟲的起點鏈接;再定義一個parse方法,里面實現爬蟲的邏輯。

parse方法的入參中,response就是對start_urls中的鏈接的請求響應數據,我們要爬取的品牌數據就在這里面,我們需要從response中提取出來。從response提取數據需要使用xpath語法,參考上邊的xpath教程。

提取數據之前,需要先給品牌數據定義一個實體類,因為需要把品牌數據存到數據實體中并落地到磁盤。在items.py文件中定義一個BrandItem類,這個類繼承了scrapy.Item類,類中聲明了爬取到的、要落地的品牌相關數據,這就是scrapy的Item類。

定義好品牌實體后,在parse方法中聲明一個BrandItem實例,然后通過reponse.xpath方法取到想要的品牌ID、品牌url、品牌名稱、圖標url等數據,并設置到BrandItem實例中,最后通過yield來聚合爬取到的各個品牌數據并返回,返回的數據會進入pipeline。

編寫Pipeline

爬取到的數據接著被pipeline.py文件中定義的Pipeline類處理,這個類通常是對傳入的Item實體做數據的清洗、排重等工作,可以定義多個Pipeline,依次對Item處理。由于暫時沒有這方面的需要,就不改寫這個文件,保持默認狀態就好。經過pipeline的處理后,數據進入數據集。

輸出csv格式數據

對于爬取到的車型數據,我想以csv的格式輸出,并且輸出到指定目錄下,此時需要修改settings.py文件。

在settings.py中添加FEED_FORMAT = 'csv'FEED_URI = 'data/%(name)s_%(time)s.csv'兩項,目的是指定輸出格式為csv,輸出到data目錄下,以”爬蟲名稱_爬取時間.csv“格式命名。

執行爬蟲

品牌數據的爬蟲編寫完成了,在項目根目錄下執行scrapy crawl brand,不出意外的話,在執行了brand爬蟲后,會在data目錄下出現一個新的csv文件,并且裝滿了品牌數據。

小心被屏蔽

不過需要注意一個問題,就是當爬蟲高頻地請求網站接口的時候,有可能會被網站識別出來并且屏蔽掉,因為太高頻的請求會對網站的服務器造成壓力,所以需要對爬蟲限速。

在settings.py中添加DOWNLOAD_DELAY = 3,限制爬蟲的請求頻率為平均3秒一次。

另外,如果爬蟲發送的請求頭中沒有設置user agent也很容易被屏蔽掉,所以要對請求頭設置user agent。

在項目根目錄下新建user_agent_middlewares.py文件,在文件中定義UserAgentMiddleware類,繼承了UserAgentMiddleware類。在UserAgentMiddleware中聲明user_agent_list,存放一些常用的user agent,然后重寫process_request方法,在user_agent_list中隨機選取user agent寫入請求頭中。

車系、車型爬蟲

車系爬蟲與上邊的品牌爬蟲類似,實現在spiders/series_spider.py中。

車型爬蟲稍微復雜一些,實現在spiders/model_spider.py中。車型爬蟲要從頁面中解析出車型數據,同時要解析出更多的URL添加到請求隊列中。而且,車型爬蟲爬取的頁面并不像品牌數據頁面那么規整,所以要根據URL的特征以及頁面中的特征來調整解析策略。因此在這里用到了CrawlSpiderRules,具體參照Spider文檔。

總結

以上就實現了一個簡單的汽車之家的車型數據爬蟲,其中用到了scrapy中的部分元素,當然還有很多元素沒有涉及到,不過對于一個簡單爬蟲來說足矣。


Tip

在用xpath解析頁面的時候,寫出來的xpath語句很可能與預期不符,而且調試起來很麻煩,我是用以下方式來提高效率的:

  1. 使用chrome上的XPath Helper插件。安裝好插件,打開目標頁面,按command+shift+x(mac版的快捷鍵)打開插件面板,在面板里輸入xpath語句,就能看到取到的結果了:
    xpath helper
  2. 使用scrapy shell調試。在工程目錄下執行scrapy shell http://www.xxxxx.xx,之后就會進入python的交互終端,這時就可以進行調試了。執行print response.xpath('xxxxx')來驗證xpath語句是否符合預期。
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,431評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,637評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,555評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,900評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,629評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,976評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,976評論 3 448
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,139評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,686評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,411評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,641評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,129評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,820評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,233評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,567評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,362評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,604評論 2 380

推薦閱讀更多精彩內容