目標(biāo):爬取海南搜房網(wǎng)上的海南新樓盤信息
一、搜集待爬取的目標(biāo)網(wǎng)址
先打開海南搜房網(wǎng)進(jìn)入新樓盤頁面進(jìn)行研究,
http://newhouse.hn.fang.com/
但是這個頁面主要是信息聚合呈現(xiàn),新樓盤信息并不全,接著找到列表頁,
http://newhouse.hn.fang.com/house/s/
這回是想要的了。
經(jīng)研究發(fā)現(xiàn)該列表頁的網(wǎng)址加上分頁為如下形式,分頁共有28頁,分頁字段主要是在/b91/這部分
從b91到b928,這樣如果把這28頁爬完就能初步得到全部新樓盤條目,接著再對每個新樓盤的主頁進(jìn)行爬取提取信息,就能得到想要的內(nèi)容。
http://newhouse.hn.fang.com/house/s/b91/?ctm=1.hn.xf_search.page.1
具體某個樓盤主頁為:
http://zhongyangwenhuachengld.fang.com
樓盤詳情頁為:
http://zhongyangwenhuachengld.fang.com/house/5011126788/housedetail.htm
開始寫代碼,先導(dǎo)入依賴的庫
import requests
import re
from bs4 import BeautifulSoup
寫了一個函數(shù)用于提取某個頁面中包含的所有不重復(fù)鏈接,返回一個列表
def get_page_urls(url,regular="\w+"):
if url is None:
return None
new_urls = set()
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/5.0.2.2000 Chrome/47.0.2526.73 Safari/537.36' }
r = requests.get(url,headers=headers,timeout=None)
if r.status_code == 200:
soup = BeautifulSoup(r.text, 'html.parser',from_encoding='utf-8')
links = soup.find_all('a', href=re.compile(r'%s' % regular))
for link in links:
new_url = link['href']
new_urls.add(new_url)
return list(new_urls)
沒想到在去重這部分花了很多時間。
開始對于每一個列表頁面進(jìn)行下載和解析,解析頁面內(nèi)所有的<a>標(biāo)簽,將鏈接地址提取出來,這里使用的正則表達(dá)式如下:
^https?://\w+.fang.com/$
將提取到的網(wǎng)址列表先存入一個set(),保證在一個頁面上抓到的網(wǎng)址沒有重復(fù),抓取完后再將該集合轉(zhuǎn)成list存入一個整體的網(wǎng)址列表中。
然后對全部網(wǎng)址進(jìn)行去除重復(fù),這里要去掉的重復(fù)網(wǎng)址是指頁面上其他的非樓盤鏈接,由于每一個樓盤列表頁都會有這些重復(fù)的信息,一共抓了28頁說明會有28個重復(fù),因此要想辦法去除這一部分的鏈接。
想來想去,想出先找出重復(fù)的網(wǎng)址,保存進(jìn)一個列表中,然后再將全部網(wǎng)址列表跟重復(fù)網(wǎng)址列表進(jìn)行比較,若有相同項則從全部網(wǎng)址列表中刪除重復(fù)網(wǎng)址項,這樣就能得出最后想要的每個新樓盤主頁。重點代碼為:
if all_urls.count(housepage) > 1:
總覺得這樣做是個笨辦法效率不高,因為有重復(fù)操作,不知道有沒有更方便的算法,目前想不出來。
經(jīng)過一番提取去重后,得到一個所有樓盤詳情頁鏈接的文本文件,用于后續(xù)信息抓取。保存的代碼為:
with open('soufangwang-detail.txt','w',encoding='utf-8') as f:
for i in all_detail_urls:
f.write(i)
f.write("\n")
二、抓取信息
首先研究了一下樓盤詳情頁結(jié)構(gòu),想爬取的結(jié)構(gòu)信息是如下這樣的,每條信息在一條li的下面有兩個<div>,第一個是信息名稱,第二個是信息值,90%的信息都是這樣的結(jié)構(gòu),除了部分標(biāo)題,主圖等:
<li>
<div class="list-left">交房時間:</div>
<div class="list-right">預(yù)計2017年6月30日A#、B#、C#交房</div>
</li>
開始的想法是針對信息條目,一條條分析進(jìn)行抓取,根據(jù)每個想要的信息構(gòu)造對應(yīng)的抓取函數(shù):
name_node = soup.find('h1').find('a',class_="ts_linear")
data["樓盤名稱"] = name_node.get_text()
address_node = soup.find('div',string = re.compile("樓盤地址")).find_next('div')
data["樓盤地址"] = address_node.get_text()
但是這樣做,首先是發(fā)現(xiàn)如果有的信息名稱是三個字的話,搜房網(wǎng)會在中間插入i標(biāo)簽,像下面的例子,導(dǎo)致抓取函數(shù)無法抓取到正確的<div>。
<li>
<div class="list-left">容<i style="margin-right: 6px;"></i>積<i style="margin-right: 6px;"></i>率:</div>
<div class="list-right">3.50 </div>
</li>
于是在這里研究了好久,先是各種換搜索正則表達(dá)式,怎么都搜不到,后來突發(fā)奇想,能不能在抓取之前把所有的i標(biāo)簽去掉,于是查文檔,寫了如下代碼
soup = BeautifulSoup(r.text, 'html.parser')
for tag_i in soup.findAll('i'):
tag_i.decompose()
這樣先對下載到的文檔進(jìn)行處理再抓取應(yīng)該是可以的,但是很奇怪,去掉i標(biāo)簽后文字還是無法查找到,這回真的卡殼了。
然后經(jīng)過一番冥思苦想,忽然想到,干嘛要一個個信息來針對性抓取啊,既然它結(jié)構(gòu)大部分都是相同的,干脆全部抓取出來存入一個字典里好了。于是開始寫代碼:
data = {}
key_nodes = soup.findAll('div', class_="list-left")
for key_node in key_nodes:
key = key_node.get_text().replace("\t","").replace("\n","").replace("\r","").replace(":","").strip()
value_node = key_node.find_next('div')
value = value_node.get_text().replace("\t","").replace("\n","").replace("\r","").strip()
data[key] = value
抓取成功!發(fā)現(xiàn)這樣做不光效率高,而且既方便又能容錯,獲得的信息也全,唉怎么不早點想到呢,折騰好久。
另外在頁面結(jié)構(gòu)中發(fā)現(xiàn)有一個<script>標(biāo)簽內(nèi)有樓盤的主圖,因此也想把這部分抓取下來,這段的原始結(jié)構(gòu)是這樣的:
<script>
newcode='5011111904';
projn = '清瀾半島';
newhousedomaintail='house/';
newhousedomain = 'http://newhouse.hn.fang.com';
address='文昌市';
vcity= '海南';
ucity = '%BA%A3%C4%CF';
price = '13000';
pricetype = '元/平方米';
priceright = '13000';
pricetyperight = '元/平方米';
face = 'http://imgs.soufun.com/house/2013_10/30/hainan/1383115329744_000.jpg';
houseurl = 'http://qinglanbandao.fang.com/';
microID=0;
bbsError ="0";
bbs_id ="5011111904";
</script>
先初步寫了個節(jié)點抓取語句,成功找到該<script>標(biāo)簽
script_node = soup.find('script', string = re.compile("face ="))
但是抓取之后怎么轉(zhuǎn)成字典的鍵值對呢,搜索加研究,使用split()函數(shù)可以實現(xiàn),方法如下,注意處理末尾多出來的一個分號:
subdata = (script_node.get_text().replace("\r","").replace("\n","").replace("\t","").replace(";", ",").replace("'","").replace(" ",""))[:-1]
subdata_dict = dict(s.split('=') for s in subdata.split(','))
data['樓盤主圖'] = subdata_dict['face']
data['樓盤主頁'] = subdata_dict['houseurl']
一些小問題和解決方法:
- 頁面中文亂碼,若是知道頁面編碼的話,可以直接寫
r.encoding = "所用編碼"
如果不知道的話,可以試試寫上,一般都會解決
r.encoding = r.apparent_encoding
但是有些頁面怎么弄都是亂碼,不知道是不是繁體中文編的碼,待解決
- 刪除文檔中的換行符回車符制表符和空格,一般用
replace("\n","") #刪除全部換行符
strip() #刪除開頭和結(jié)尾的空白符(包括'\n', '\r', '\t', ' ')
rstrip('\n') #刪除結(jié)尾的換行符
lstrip() #刪除開頭的空白符
三、存入excel文件
信息抓取到了,要保存為excel文件。
在官網(wǎng)搜索了一下,先在命令行用pip命令下載excel的支持庫
pip install xlwt
參考官網(wǎng)的例子,xlw的使用方法為:
wb = xlwt.Workbook() #新建一個工作簿
ws = wb.add_sheet('新工作表') #新建一個工作表
ws.write(行索引, 列索引, 數(shù)據(jù)) #寫入數(shù)據(jù)
wb.save('海南新樓盤.xls') #保存
這樣就成功將海南搜房網(wǎng)新樓盤信息抓取下來了。