ps:python環境怎么裝我就不贅述了。。。這個資料太多了,我推薦使用python2.7 或 python3.4
IDE選擇
工欲善其事,必先利其器。我本人用過挺多腳本語言的,講道理,腳本語言很難有出色的ide,但是pycharm絕對是我用過的最贊的腳本語言ide,不要猶豫,直接用它就好了。官網鏈接:http://www.jetbrains.com/pycharm/download/,最好下載專業版的,方便很多
ps:干貨之一,pycharm專業版激活server一枚:http://idea.qinxi1992.cn ,可以反復用哦
瀏覽器選擇
Chrome或火狐,開發必備。所以大家果斷都去下載Chrome或火狐吧。。
爬蟲依賴庫介紹
- beautifulsoup
- requests
- lxml
- pymongo
以上便是我們編寫簡單爬蟲程序需要的python庫,我簡單介紹一下(ps:不想復制百科):
- beautifulsoup庫,主要功能就是快速處理抓下來的數據,找到你想要的東西,它就是一個工具箱,通過解析文檔為用戶提供需要抓取的數據。
- requests模塊,滿足我們各種各樣的網絡需求,持 HTTP 連接保持和連接池,支持使用 cookie 保持會話,支持文件上傳等
- lxml庫,lxml是Python語言里和XML以及HTML工作的功能最豐富和最容易使用的庫,我們用來配合beautifulsoup使用
- pymongo,用來和mongoDB數據庫進行交互,我們爬下來的數據將被存在mongoDB中,當然如果你用mysql等數據庫用習慣了也可以不用理這部分。
安裝
mac環境
在安裝lxml之前記得在終端敲如下命令xcode-select --install
,用來安裝Command Line Tools
pip install BeautifulSoup4
pip install requests
pip install lxml
pip install pymongo
如果用mac的話自帶的python版本可以滿足我們的需求,里面內置了pip,所以只需要在終端敲上面的命令就可以了。當然,有更簡單的安裝方式,在pycharm中安裝,選擇File->Default Settings 如圖:
選擇右下角‘+’標志,如圖:
然后搜索你要的庫的名字進行安裝即可,以上就是mac下的安裝方式,不得不說,mac是最簡單的。。。
linux安裝
ubuntu為例
安裝pip,首先在終端鍵入wget https://bootstrap.pypa.io/get-pip.py
然后鍵入sudo python get-pip.py
安裝pip
安裝完畢之后安裝lxml,鍵入
sudo apt-get install python-lxml
之后依次鍵入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安裝完畢
ps:centos系統需要安裝依賴,先鍵入yum install python-devel libxml2-devel libxslt-devel
,然后再使用pip安裝lxml即可
windows安裝
首先,安裝pip,參考http://www.tuicool.com/articles/eiM3Er3
安裝完畢之后使用pycharm安裝(如mac),或者在命令行鍵入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安裝lxml:https://pypi.python.org/pypi/lxml/3.2.3下載對應的版本,或者去網上尋找對應的whl文件安裝,不在一一贅述。
全部安裝完之后,啟動python解釋器鍵入
import requests
import lxml
from bs4 import BeautifulSoup
import pymongo
沒有報錯則環境安裝完畢
安裝MongoDB
mongodb安裝的話三個環境差不多流程,我以mac為例:
首先去官網下載https://www.mongodb.org/downloads最新版本的mongoDB壓縮包,解壓之后打開終端,進入mongoDB解壓的目錄,我的目錄如下
然后
cd bin
新建一個
mongo.conf
文件,編輯該文件,寫入:dbpath=/Users/Darker/mongo/bin/db logpath=/Users/Darker/mongo/bin/log/mongod.log port = 27017 fork = true nohttpinterface = true
其中dbPath是數據庫存儲位置,logPath是log的存儲位置,記得在對應位置創建文件夾,如圖所示
接下來在命令行鍵入./mongod --config mongo.conf
,得到如下信息則啟動成功
接下來運行./mongo
即可進入數據庫,當然,推薦使用一些可視化的數據庫管理工具,例如robomongo
Ps:windows的同學不需要寫conf文件了,直接按照這篇博客上面配置mongo服務就可以了http://www.cnblogs.com/flyoung2008/archive/2012/07/18/2597269.html
寫在最后
這篇我們講解了環境的配置,如果大家有任何問題歡迎留言討論或咨詢,我有時間會一一回復大家,下一章我們正式開始學習爬蟲
有興趣的同學可以加群498945822一起交流學習哦~~
發現問題的同學歡迎指正,直接說就行,不用留面子,博主臉皮厚!