python爬蟲的最佳實踐(六)--爬蟲中的多進程

ps：寫給新手看的，大神看到了輕噴，給我留點面子~

寫在前面

為什么選用多進程而不選用多線程，這是考慮到了諸多的實際情況最終做出的選擇。

在python環境下，多進程稍稍比多線程好實現好理解一點。
因為爬蟲大多數都是運行在linux內核的服務器上面，而在linux操作系統下，多進程要比多線程更加合適，因為調度開銷和多線程差不多，但是進程性能更好。如果在windows系統下跑爬蟲的話，建議使用框架或者使用多線程。
爬蟲畢竟不是服務器交互，沒有人會開1k的線程去跑這個，所以一般情況下我們把自己爬蟲的效率提升幾倍即可。

有興趣的同學可以去看一下進程和線程的區別，據說面試容易被問喔_{我們今天就講一下簡單的多進程的實現就好了，如果你想深入爬蟲效率研究可以好好研究一下多進程和多線程相關}

代碼預覽

#coding:utf-8
import multiprocessing
from bs4 import BeautifulSoup
import requests

def pageUrls(url):
    web_data = requests.get(url)
    soup = BeautifulSoup(web_data.text, 'lxml')
    sum = int(soup.select('span.total > em:nth-of-type(1)')[0].get_text())
    pageNum = sum/50
    return [url+'/loupan/s?p={}'.format(str(i)) for i in range(1, pageNum+2, 1)]

def detailPage(myurl):
    urls = pageUrls(myurl)
    for url in urls:
        web_data = requests.get(url)
        soup = BeautifulSoup(web_data.text, 'lxml')
        titles = soup.select('div.list-results > div.key-list > div > div.infos > div > h3 > a')
        for title in titles:
            print url
            print title.get_text()
            print title.get('href')

def main(urls):
    pool = multiprocessing.Pool(multiprocessing.cpu_count())
    for url in urls:
        pool.apply_async(detailPage, (url, ))
    # pool.map(detailPage, urls)
    pool.close()
    pool.join()


if __name__ == "__main__":
    startUrl = 'http://tj.fang.anjuke.com/?from=navigation'
    web_data = requests.get(startUrl)
    soup = BeautifulSoup(web_data.text, 'lxml')
    urls = [url.get('href') for url in soup.select('.city-mod > dl > dd > a')]
    main(urls)

代碼剖析

if __name__ == "__main__":
    startUrl = 'http://tj.fang.anjuke.com/?from=navigation'
    web_data = requests.get(startUrl)
    soup = BeautifulSoup(web_data.text, 'lxml')
    urls = [url.get('href') for url in soup.select('.city-mod > dl > dd > a')]
    main(urls)

在這里講一個小知識點，if __name__ == "__main__":這段代碼的作用是保證在這個py文件被import的時候不會被運行，只有主動執行它的時候才會運行。
這次我們扒取的是安居客的住房信息，上面那一段代碼相信大家都能看懂，從入口進入，取到全國各地城市的鏈接，然后進入main函數

pool = multiprocessing.Pool(multiprocessing.cpu_count())
multiprocessing是python中標準的多進程庫，上面代碼的意思是創建一個進程池，進程個數為cpu內核數。這里有個小知識，電腦的cpu有多少內核便可以同時執行多少個進程，當然你也可以填的很多，只是作用不大而已，并不是進程數越多就會執行的越快。

pool.apply_async(detailPage, (url, ))
apply_async函數從進程池中取出一個進程執行func，args為func的參數，我們這段代碼不斷地從進程池中取出進程去執行我們的detailPage方法。當然，也可以采用下面哪種方式：
pool.map(detailPage, urls)
map方法，將detailPage()函數作用到表的每個元素上，表中每個元素都會被作用到。這兩種方式都可以~

pool.close()關閉進程池，進程池不會再創建新的進程
pool.join()wait進程池中的全部進程,也就是用來等待進程池中的worker進程執行完畢，防止主進程在worker進程結束前結束

這樣，對于我的電腦來說等于開了8個進程去并行爬蟲（沒做反扒一會就會被封了哈哈_{），經過我測試速度比單個進程快了4倍左右，還是很有用的}~

剩下的兩個函數我就不多贅述了pageUrls，根據頁面上數據量的多少生成page分頁的url，detailPage扒取每個page分頁的所有樓盤的標題信息。

今天我們介紹了多進程，同時，實踐了如何從網站的一個入口延伸進而抓取整個網站的內容。當然，每個人寫代碼的習慣不同，當你多多練習的時候自然有自己的方式去實現你想要的功能。

ps：今天突然想起來，大家在做爬蟲的時候盡量先扒到鏈接，存在數據庫之后再去扒分頁里面的詳細內容，因為這樣速度不慢而且容錯率很高，也很容易做斷點續扒~

寫在最后

經過前面幾章的學習，我相信你已經可以扒取大部分網站了，并且有不錯的效率。下一章我們將學習py爬蟲的框架pyspider_{我覺得還是很好用的}

有興趣的同學可以加群498945822一起交流學習哦~~
發現問題的同學歡迎指正，直接說就行，不用留面子，博主臉皮厚！

最后編輯于：2017.12.03 05:02:10

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,501評論 6贊 544
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,673評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 178,610評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,939評論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,668評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,004評論 1贊 329
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,001評論 3贊 449
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,173評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,705評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,426評論 3贊 359
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,656評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,139評論 5贊 364
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,833評論 3贊 350
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,247評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,580評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,371評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,621評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

python爬蟲的最佳實踐(六)--爬蟲中的多進程

python爬蟲的最佳實踐(六)--爬蟲中的多進程

寫在前面

代碼預覽

代碼剖析

寫在最后

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

python爬蟲的最佳實踐(六)--爬蟲中的多進程

寫在前面

代碼預覽

代碼剖析

寫在最后

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频