python爬蟲的最佳實踐(六)--爬蟲中的多進程

ps:寫給新手看的,大神看到了輕噴,給我留點面子~

寫在前面

為什么選用多進程而不選用多線程,這是考慮到了諸多的實際情況最終做出的選擇。

  • 在python環境下,多進程稍稍比多線程好實現好理解一點。
  • 因為爬蟲大多數都是運行在linux內核的服務器上面,而在linux操作系統下,多進程要比多線程更加合適,因為調度開銷和多線程差不多,但是進程性能更好。如果在windows系統下跑爬蟲的話,建議使用框架或者使用多線程。
  • 爬蟲畢竟不是服務器交互,沒有人會開1k的線程去跑這個,所以一般情況下我們把自己爬蟲的效率提升幾倍即可。

有興趣的同學可以去看一下進程和線程的區別,據說面試容易被問喔我們今天就講一下簡單的多進程的實現就好了,如果你想深入爬蟲效率研究可以好好研究一下多進程和多線程相關

代碼預覽

#coding:utf-8
import multiprocessing
from bs4 import BeautifulSoup
import requests

def pageUrls(url):
    web_data = requests.get(url)
    soup = BeautifulSoup(web_data.text, 'lxml')
    sum = int(soup.select('span.total > em:nth-of-type(1)')[0].get_text())
    pageNum = sum/50
    return [url+'/loupan/s?p={}'.format(str(i)) for i in range(1, pageNum+2, 1)]

def detailPage(myurl):
    urls = pageUrls(myurl)
    for url in urls:
        web_data = requests.get(url)
        soup = BeautifulSoup(web_data.text, 'lxml')
        titles = soup.select('div.list-results > div.key-list > div > div.infos > div > h3 > a')
        for title in titles:
            print url
            print title.get_text()
            print title.get('href')

def main(urls):
    pool = multiprocessing.Pool(multiprocessing.cpu_count())
    for url in urls:
        pool.apply_async(detailPage, (url, ))
    # pool.map(detailPage, urls)
    pool.close()
    pool.join()


if __name__ == "__main__":
    startUrl = 'http://tj.fang.anjuke.com/?from=navigation'
    web_data = requests.get(startUrl)
    soup = BeautifulSoup(web_data.text, 'lxml')
    urls = [url.get('href') for url in soup.select('.city-mod > dl > dd > a')]
    main(urls)

代碼剖析

if __name__ == "__main__":
    startUrl = 'http://tj.fang.anjuke.com/?from=navigation'
    web_data = requests.get(startUrl)
    soup = BeautifulSoup(web_data.text, 'lxml')
    urls = [url.get('href') for url in soup.select('.city-mod > dl > dd > a')]
    main(urls)

在這里講一個小知識點,if __name__ == "__main__":這段代碼的作用是保證在這個py文件被import的時候不會被運行,只有主動執行它的時候才會運行。
這次我們扒取的是安居客的住房信息,上面那一段代碼相信大家都能看懂,從入口進入,取到全國各地城市的鏈接,然后進入main函數

pool = multiprocessing.Pool(multiprocessing.cpu_count())
multiprocessing是python中標準的多進程庫,上面代碼的意思是創建一個進程池,進程個數為cpu內核數。這里有個小知識,電腦的cpu有多少內核便可以同時執行多少個進程,當然你也可以填的很多,只是作用不大而已,并不是進程數越多就會執行的越快。

pool.apply_async(detailPage, (url, ))
apply_async函數從進程池中取出一個進程執行func,args為func的參數,我們這段代碼不斷地從進程池中取出進程去執行我們的detailPage方法。當然,也可以采用下面哪種方式:
pool.map(detailPage, urls)
map方法,將detailPage()函數作用到表的每個元素上,表中每個元素都會被作用到。這兩種方式都可以~

pool.close()關閉進程池,進程池不會再創建新的進程
pool.join()wait進程池中的全部進程,也就是用來等待進程池中的worker進程執行完畢,防止主進程在worker進程結束前結束

這樣,對于我的電腦來說等于開了8個進程去并行爬蟲(沒做反扒一會就會被封了哈哈),經過我測試速度比單個進程快了4倍左右,還是很有用的~

剩下的兩個函數我就不多贅述了pageUrls,根據頁面上數據量的多少生成page分頁的url,detailPage扒取每個page分頁的所有樓盤的標題信息。

今天我們介紹了多進程,同時,實踐了如何從網站的一個入口延伸進而抓取整個網站的內容。當然,每個人寫代碼的習慣不同,當你多多練習的時候自然有自己的方式去實現你想要的功能。

ps:今天突然想起來,大家在做爬蟲的時候盡量先扒到鏈接,存在數據庫之后再去扒分頁里面的詳細內容,因為這樣速度不慢而且容錯率很高,也很容易做斷點續扒~

寫在最后

經過前面幾章的學習,我相信你已經可以扒取大部分網站了,并且有不錯的效率。下一章我們將學習py爬蟲的框架pyspider我覺得還是很好用的

有興趣的同學可以加群498945822一起交流學習哦~~
發現問題的同學歡迎指正,直接說就行,不用留面子,博主臉皮厚!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,501評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,673評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 178,610評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,939評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,668評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,004評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,001評論 3 449
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,173評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,705評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,426評論 3 359
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,656評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,139評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,833評論 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,247評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,580評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,371評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,621評論 2 380

推薦閱讀更多精彩內容