采用Python第三方模塊requests與beautifulsoup,可實現(xiàn)簡單的爬蟲功能;若需要復(fù)雜功能,可采用scrapy爬蟲框架。
#-*- coding: utf-8 -*-
import requests,re
from bs4 import BeautifulSoup
import sys
reload(sys) #重載sys模塊
sys.setdefaultencoding('utf-8') #設(shè)置默認(rèn)編碼格式為utf-8,這個是為了將結(jié)果重定向到文件中,可選擇。
for i in range(1,138):
url = 'https://butian.360.cn/company/lists/page/' + str(i)
r = requests.get(url)
r.encoding = 'utf-8' #設(shè)置編碼格式為utf-8,與網(wǎng)頁保持一致,正確顯示中文
soup = BeautifulSoup(r.text, "lxml")
for tag in soup.find_all(href=re.compile("^/company/info/id/")): #觀察網(wǎng)頁格式
print tag.string, #獲取廠商名稱
print ",",
print tag.find_next().string # 獲取廠商地址