一、安裝
首先Python、lxml、OpenSSL這些工具Ubuntu是自帶的,不用管它們。
其次安裝pip,在命令行中執行以下命令:
sudo apt-get install python-pip
然后安裝兩個安裝Scrapy需要的依賴庫,在命令行中分別執行以下三條命令:
sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libssl-dev #在阿里云上配置的時候發現還要安這個
最后安裝Scrapy,在命令行中執行以下命令:
sudo pip install scrapy
然后我們的最新版Scrapy就安裝好了,可以執行下列命令查看版本號:
scrapy version
二、框架介紹
參考:http://blog.csdn.net/wbainngg123/article/details/77696634
scrapy由下面幾個部分組成
spiders
:爬蟲模塊,負責配置需要爬取的數據和爬取規則,以及解析結構化數據
items
:定義我們需要的結構化數據,使用相當于dict
pipelines
:管道模塊,處理spider模塊分析好的結構化數據,如保存入庫等
middlewares
:中間件,相當于鉤子,可以對爬取前后做預處理,如修改請求header,url過濾等
三、爬蟲實踐
1、爬取京東商品介紹等詳細信息 (存儲到Excel中)
2、爬取淘寶天貓商品信息
3、爬取豆瓣書籍信息
這里爬取的結果分別存到mysql或者Excel中;
代碼附在GitHub上: