python爬蟲的最佳實踐(二)--環境搭建

ps:python環境怎么裝我就不贅述了。。。這個資料太多了,我推薦使用python2.7 或 python3.4

IDE選擇

工欲善其事,必先利其器。我本人用過挺多腳本語言的,講道理,腳本語言很難有出色的ide,但是pycharm絕對是我用過的最贊的腳本語言ide,不要猶豫,直接用它就好了。官網鏈接:http://www.jetbrains.com/pycharm/download/,最好下載專業版的,方便很多
ps:干貨之一,pycharm專業版激活server一枚:http://idea.qinxi1992.cn ,可以反復用哦

瀏覽器選擇

Chrome或火狐,開發必備。所以大家果斷都去下載Chrome或火狐吧。。

爬蟲依賴庫介紹

  • beautifulsoup
  • requests
  • lxml
  • pymongo

以上便是我們編寫簡單爬蟲程序需要的python庫,我簡單介紹一下(ps:不想復制百科):

  • beautifulsoup庫,主要功能就是快速處理抓下來的數據,找到你想要的東西,它就是一個工具箱,通過解析文檔為用戶提供需要抓取的數據。
  • requests模塊,滿足我們各種各樣的網絡需求,持 HTTP 連接保持和連接池,支持使用 cookie 保持會話,支持文件上傳等
  • lxml庫,lxml是Python語言里和XML以及HTML工作的功能最豐富和最容易使用的庫,我們用來配合beautifulsoup使用
  • pymongo,用來和mongoDB數據庫進行交互,我們爬下來的數據將被存在mongoDB中,當然如果你用mysql等數據庫用習慣了也可以不用理這部分。
安裝
mac環境

在安裝lxml之前記得在終端敲如下命令xcode-select --install,用來安裝Command Line Tools
pip install BeautifulSoup4
pip install requests
pip install lxml
pip install pymongo

如果用mac的話自帶的python版本可以滿足我們的需求,里面內置了pip,所以只需要在終端敲上面的命令就可以了。當然,有更簡單的安裝方式,在pycharm中安裝,選擇File->Default Settings 如圖:


firstPic.png

選擇右下角‘+’標志,如圖:

secPic.png

然后搜索你要的庫的名字進行安裝即可,以上就是mac下的安裝方式,不得不說,mac是最簡單的。。。

linux安裝

ubuntu為例
安裝pip,首先在終端鍵入wget https://bootstrap.pypa.io/get-pip.py
然后鍵入sudo python get-pip.py安裝pip
安裝完畢之后安裝lxml,鍵入
sudo apt-get install python-lxml
之后依次鍵入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安裝完畢
ps:centos系統需要安裝依賴,先鍵入yum install python-devel libxml2-devel libxslt-devel,然后再使用pip安裝lxml即可

windows安裝

首先,安裝pip,參考http://www.tuicool.com/articles/eiM3Er3
安裝完畢之后使用pycharm安裝(如mac),或者在命令行鍵入
pip install BeautifulSoup4
pip install requests
pip install pymongo
安裝lxml:https://pypi.python.org/pypi/lxml/3.2.3下載對應的版本,或者去網上尋找對應的whl文件安裝,不在一一贅述。

全部安裝完之后,啟動python解釋器鍵入
import requests
import lxml
from bs4 import BeautifulSoup
import pymongo
沒有報錯則環境安裝完畢

安裝MongoDB

mongodb安裝的話三個環境差不多流程,我以mac為例:
首先去官網下載https://www.mongodb.org/downloads最新版本的mongoDB壓縮包,解壓之后打開終端,進入mongoDB解壓的目錄,我的目錄如下

thrPic.png

然后cd bin
新建一個mongo.conf文件,編輯該文件,寫入:
dbpath=/Users/Darker/mongo/bin/db logpath=/Users/Darker/mongo/bin/log/mongod.log port = 27017 fork = true nohttpinterface = true
其中dbPath是數據庫存儲位置,logPath是log的存儲位置,記得在對應位置創建文件夾,如圖所示

fourthPic.png

接下來在命令行鍵入./mongod --config mongo.conf,得到如下信息則啟動成功

fifthPic.png

接下來運行./mongo即可進入數據庫,當然,推薦使用一些可視化的數據庫管理工具,例如robomongo

Ps:windows的同學不需要寫conf文件了,直接按照這篇博客上面配置mongo服務就可以了http://www.cnblogs.com/flyoung2008/archive/2012/07/18/2597269.html

寫在最后

這篇我們講解了環境的配置,如果大家有任何問題歡迎留言討論或咨詢,我有時間會一一回復大家,下一章我們正式開始學習爬蟲

有興趣的同學可以加群498945822一起交流學習哦~~
發現問題的同學歡迎指正,直接說就行,不用留面子,博主臉皮厚!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,565評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,115評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,577評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,514評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,234評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,621評論 1 326
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,641評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,822評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,380評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,128評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,319評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,879評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,548評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,970評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,229評論 1 291
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,048評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,285評論 2 376

推薦閱讀更多精彩內容

  • # Python 資源大全中文版 我想很多程序員應該記得 GitHub 上有一個 Awesome - XXX 系列...
    aimaile閱讀 26,532評論 6 427
  • GitHub 上有一個 Awesome - XXX 系列的資源整理,資源非常豐富,涉及面非常廣。awesome-p...
    若與閱讀 18,692評論 4 418
  • Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用于抓取web站點并從頁面中提取結構化...
    Evtion閱讀 5,879評論 12 18
  • 環境管理管理Python版本和環境的工具。p–非常簡單的交互式python版本管理工具。pyenv–簡單的Pyth...
    MrHamster閱讀 3,812評論 1 61
  • 早已物是人非,只是自己不放過自己罷了,貪戀青春的美好,那純潔懵懂的愛戀!
    嘟嘟aaa閱讀 187評論 0 0