ps:寫給新手看的,大神看到了輕噴,給我留點面子~
寫在前面
為什么選用多進程而不選用多線程,這是考慮到了諸多的實際情況最終做出的選擇。
- 在python環境下,多進程稍稍比多線程好實現好理解一點。
- 因為爬蟲大多數都是運行在linux內核的服務器上面,而在linux操作系統下,多進程要比多線程更加合適,因為調度開銷和多線程差不多,但是進程性能更好。如果在windows系統下跑爬蟲的話,建議使用框架或者使用多線程。
- 爬蟲畢竟不是服務器交互,沒有人會開1k的線程去跑這個,所以一般情況下我們把自己爬蟲的效率提升幾倍即可。
有興趣的同學可以去看一下進程和線程的區別,據說面試容易被問喔我們今天就講一下簡單的多進程的實現就好了,如果你想深入爬蟲效率研究可以好好研究一下多進程和多線程相關
代碼預覽
#coding:utf-8
import multiprocessing
from bs4 import BeautifulSoup
import requests
def pageUrls(url):
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
sum = int(soup.select('span.total > em:nth-of-type(1)')[0].get_text())
pageNum = sum/50
return [url+'/loupan/s?p={}'.format(str(i)) for i in range(1, pageNum+2, 1)]
def detailPage(myurl):
urls = pageUrls(myurl)
for url in urls:
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
titles = soup.select('div.list-results > div.key-list > div > div.infos > div > h3 > a')
for title in titles:
print url
print title.get_text()
print title.get('href')
def main(urls):
pool = multiprocessing.Pool(multiprocessing.cpu_count())
for url in urls:
pool.apply_async(detailPage, (url, ))
# pool.map(detailPage, urls)
pool.close()
pool.join()
if __name__ == "__main__":
startUrl = 'http://tj.fang.anjuke.com/?from=navigation'
web_data = requests.get(startUrl)
soup = BeautifulSoup(web_data.text, 'lxml')
urls = [url.get('href') for url in soup.select('.city-mod > dl > dd > a')]
main(urls)
代碼剖析
if __name__ == "__main__":
startUrl = 'http://tj.fang.anjuke.com/?from=navigation'
web_data = requests.get(startUrl)
soup = BeautifulSoup(web_data.text, 'lxml')
urls = [url.get('href') for url in soup.select('.city-mod > dl > dd > a')]
main(urls)
在這里講一個小知識點,if __name__ == "__main__":
這段代碼的作用是保證在這個py文件被import的時候不會被運行,只有主動執行它的時候才會運行。
這次我們扒取的是安居客的住房信息,上面那一段代碼相信大家都能看懂,從入口進入,取到全國各地城市的鏈接,然后進入main函數
pool = multiprocessing.Pool(multiprocessing.cpu_count())
multiprocessing是python中標準的多進程庫,上面代碼的意思是創建一個進程池,進程個數為cpu內核數。這里有個小知識,電腦的cpu有多少內核便可以同時執行多少個進程,當然你也可以填的很多,只是作用不大而已,并不是進程數越多就會執行的越快。
pool.apply_async(detailPage, (url, ))
apply_async函數從進程池中取出一個進程執行func,args為func的參數,我們這段代碼不斷地從進程池中取出進程去執行我們的detailPage方法。當然,也可以采用下面哪種方式:
pool.map(detailPage, urls)
map方法,將detailPage()函數作用到表的每個元素上,表中每個元素都會被作用到。這兩種方式都可以~
pool.close()
關閉進程池,進程池不會再創建新的進程
pool.join()
wait進程池中的全部進程,也就是用來等待進程池中的worker進程執行完畢,防止主進程在worker進程結束前結束
這樣,對于我的電腦來說等于開了8個進程去并行爬蟲(沒做反扒一會就會被封了哈哈),經過我測試速度比單個進程快了4倍左右,還是很有用的~
剩下的兩個函數我就不多贅述了pageUrls,根據頁面上數據量的多少生成page分頁的url,detailPage扒取每個page分頁的所有樓盤的標題信息。
今天我們介紹了多進程,同時,實踐了如何從網站的一個入口延伸進而抓取整個網站的內容。當然,每個人寫代碼的習慣不同,當你多多練習的時候自然有自己的方式去實現你想要的功能。
ps:今天突然想起來,大家在做爬蟲的時候盡量先扒到鏈接,存在數據庫之后再去扒分頁里面的詳細內容,因為這樣速度不慢而且容錯率很高,也很容易做斷點續扒~
寫在最后
經過前面幾章的學習,我相信你已經可以扒取大部分網站了,并且有不錯的效率。下一章我們將學習py爬蟲的框架pyspider我覺得還是很好用的
有興趣的同學可以加群498945822一起交流學習哦~~
發現問題的同學歡迎指正,直接說就行,不用留面子,博主臉皮厚!