python爬蟲的最佳實踐(二)--環(huán)境搭建

ps:python環(huán)境怎么裝我就不贅述了。。。這個資料太多了,我推薦使用python2.7 或 python3.4

IDE選擇

工欲善其事,必先利其器。我本人用過挺多腳本語言的,講道理,腳本語言很難有出色的ide,但是pycharm絕對是我用過的最贊的腳本語言ide,不要猶豫,直接用它就好了。官網(wǎng)鏈接:http://www.jetbrains.com/pycharm/download/,最好下載專業(yè)版的,方便很多
ps:干貨之一,pycharm專業(yè)版激活server一枚:http://idea.qinxi1992.cn ,可以反復(fù)用哦

瀏覽器選擇

Chrome或火狐,開發(fā)必備。所以大家果斷都去下載Chrome或火狐吧。。

爬蟲依賴庫介紹

  • beautifulsoup
  • requests
  • lxml
  • pymongo

以上便是我們編寫簡單爬蟲程序需要的python庫,我簡單介紹一下(ps:不想復(fù)制百科):

  • beautifulsoup庫,主要功能就是快速處理抓下來的數(shù)據(jù),找到你想要的東西,它就是一個工具箱,通過解析文檔為用戶提供需要抓取的數(shù)據(jù)。
  • requests模塊,滿足我們各種各樣的網(wǎng)絡(luò)需求,持 HTTP 連接保持和連接池,支持使用 cookie 保持會話,支持文件上傳等
  • lxml庫,lxml是Python語言里和XML以及HTML工作的功能最豐富和最容易使用的庫,我們用來配合beautifulsoup使用
  • pymongo,用來和mongoDB數(shù)據(jù)庫進(jìn)行交互,我們爬下來的數(shù)據(jù)將被存在mongoDB中,當(dāng)然如果你用mysql等數(shù)據(jù)庫用習(xí)慣了也可以不用理這部分。
安裝
mac環(huán)境

在安裝lxml之前記得在終端敲如下命令xcode-select --install,用來安裝Command Line Tools
pip install BeautifulSoup4
pip install requests
pip install lxml
pip install pymongo

如果用mac的話自帶的python版本可以滿足我們的需求,里面內(nèi)置了pip,所以只需要在終端敲上面的命令就可以了。當(dāng)然,有更簡單的安裝方式,在pycharm中安裝,選擇File->Default Settings 如圖:


firstPic.png

選擇右下角‘+’標(biāo)志,如圖:

secPic.png

然后搜索你要的庫的名字進(jìn)行安裝即可,以上就是mac下的安裝方式,不得不說,mac是最簡單的。。。

linux安裝

ubuntu為例
安裝pip,首先在終端鍵入wget https://bootstrap.pypa.io/get-pip.py
然后鍵入sudo python get-pip.py安裝pip
安裝完畢之后安裝lxml,鍵入
sudo apt-get install python-lxml
之后依次鍵入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安裝完畢
ps:centos系統(tǒng)需要安裝依賴,先鍵入yum install python-devel libxml2-devel libxslt-devel,然后再使用pip安裝lxml即可

windows安裝

首先,安裝pip,參考http://www.tuicool.com/articles/eiM3Er3
安裝完畢之后使用pycharm安裝(如mac),或者在命令行鍵入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安裝lxml:https://pypi.python.org/pypi/lxml/3.2.3下載對應(yīng)的版本,或者去網(wǎng)上尋找對應(yīng)的whl文件安裝,不在一一贅述。

全部安裝完之后,啟動python解釋器鍵入
import requests
import lxml
from bs4 import BeautifulSoup
import pymongo
沒有報錯則環(huán)境安裝完畢

安裝MongoDB

mongodb安裝的話三個環(huán)境差不多流程,我以mac為例:
首先去官網(wǎng)下載https://www.mongodb.org/downloads最新版本的mongoDB壓縮包,解壓之后打開終端,進(jìn)入mongoDB解壓的目錄,我的目錄如下

thrPic.png

然后cd bin
新建一個mongo.conf文件,編輯該文件,寫入:
dbpath=/Users/Darker/mongo/bin/db logpath=/Users/Darker/mongo/bin/log/mongod.log port = 27017 fork = true nohttpinterface = true
其中dbPath是數(shù)據(jù)庫存儲位置,logPath是log的存儲位置,記得在對應(yīng)位置創(chuàng)建文件夾,如圖所示

fourthPic.png

接下來在命令行鍵入./mongod --config mongo.conf,得到如下信息則啟動成功

fifthPic.png

接下來運行./mongo即可進(jìn)入數(shù)據(jù)庫,當(dāng)然,推薦使用一些可視化的數(shù)據(jù)庫管理工具,例如robomongo

Ps:windows的同學(xué)不需要寫conf文件了,直接按照這篇博客上面配置mongo服務(wù)就可以了http://www.cnblogs.com/flyoung2008/archive/2012/07/18/2597269.html

寫在最后

這篇我們講解了環(huán)境的配置,如果大家有任何問題歡迎留言討論或咨詢,我有時間會一一回復(fù)大家,下一章我們正式開始學(xué)習(xí)爬蟲

有興趣的同學(xué)可以加群498945822一起交流學(xué)習(xí)哦~~
發(fā)現(xiàn)問題的同學(xué)歡迎指正,直接說就行,不用留面子,博主臉皮厚!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • # Python 資源大全中文版 我想很多程序員應(yīng)該記得 GitHub 上有一個 Awesome - XXX 系列...
    aimaile閱讀 26,593評論 6 427
  • GitHub 上有一個 Awesome - XXX 系列的資源整理,資源非常豐富,涉及面非常廣。awesome-p...
    若與閱讀 18,772評論 4 418
  • Scrapy,Python開發(fā)的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結(jié)構(gòu)化...
    Evtion閱讀 5,915評論 12 18
  • 環(huán)境管理管理Python版本和環(huán)境的工具。p–非常簡單的交互式python版本管理工具。pyenv–簡單的Pyth...
    MrHamster閱讀 3,856評論 1 61
  • 早已物是人非,只是自己不放過自己罷了,貪戀青春的美好,那純潔懵懂的愛戀!
    嘟嘟aaa閱讀 192評論 0 0