<p>今天做了個小玩意,但覺得挺有意思的,分享給大家。</p>
<p>主要是這樣的,因為幫妹子尋找考試資料,發現同一本書不同的章節分別在不同的鏈接中,復制起來實在要命,所以就在想能不能用爬蟲實現。</p>
<p>首先結合Request
和BeautifulSoup
來對這個主頁進行處理,提取不同章節的href。在這里需要注意,我們的頁面是html類型(看網址結尾)。BeautifulSoup
中,網頁解析器要采用lxml
的話,會有半截頁面解析不出來。這里使用html5lib
解析器。</p>
import requests
from bs4 import BeautifulSoup
url = 'http://www.exam8.com/kuaiji/shuiwu/fudao/201603/3564185.html'
headers = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36",
"Host":'www.exam8.com',
"Referer":"http://www.exam8.com/kuaiji/shuiwu/fudao/201606/3684910.html"}
interial = requests.get(url, headers = headers)
interial = interial.content
soup = BeautifulSoup(interial, 'html5lib')
<p>頁面解析出來后,發現解析內容和頁面的page source一樣,亦即使沒有采用js加載內容。通過Inspect定位鏈接地址,很輕易能找到以下內容,發現所有的章節都在標簽為td
,分類(class)為lianjie
或者lianjielanse
里面:</p>
<p>這個時候可以通過Beautiful
里面的find_all
來將符合條件的鏈接找出來。但同時我們看到兩個class其實是有共同點的(前面都是lianjie),這樣我們可以將find_all
結合正則表達式來減輕我們的工作,詳細說明可以看這里的搜索文檔樹章節。</p>
<p>注意,網址所列出的課程章節是有重復(時間上有更新)的,我這里省方便就沒有考慮這個問題了。另外,章節表格最右下角有個空格,實際也是有自己的href的,但既然主頁將它隱藏了,那么我們在挑選的時候,也將其排除。</p>
import re
link = dict()
for tag in soup.find_all('td', class_=re.compile('lianjie')):
atag = tag.a
atagtext = atag.get_text()
if atagtext != '':
link[atagtext] = atag['href']
<p>這樣就得到一個包含章節題目以及網址的dict了。后面只需要對dict里面的網址內容進行爬蟲就好了。</p>
newpage = requests.get(link1, headers=headers)
newsoup = BeautifulSoup(newpage.content, 'html5lib')
<p>通過Ctrl+F比較快就能定位到內容了。一開始以為這個class是一個定值,后面做循環的時候才發現不是。查看上下文,看到上面有一個class里面包含定值ArticleIntro
,并且全文只有你一個,就通過你來定位(注意ArticleIntro
后面那段英文也是隨機的,所以這里也要用正則表達式提取)。</p>
<p>提取出來的div中,有一些內容是我們不需要的,可以通過BeautifulSoup中的decompose命令結合children和find將他們剔除后刪除。</p>
text = newsoup.find('div', class_ = re.compile('ArticleIntro'))
text.p.decompose() ##刪除第一個標簽
##后面的通過children建立一個子標簽的循環,將我們不需要的decompose就好。另外,每個節點之間存在空行,需要剔除出來。
for t in text.children:
if (t.name == 'p' and t.find('a') == None) or t.name = 'tbody':
continue
elif t.name == None:
continue
else:
t.decompose()
<p>這樣就干凈了。最后加入循環實現批量處理就好了。對我們的link
建立循環,并且將提取出來的內容寫入到html結尾的文件中,注意文件打開方式應該是'a'
,因為你需要appending:</p>
fp=open(‘filename.html’,'a')
fp.write(str(text))
fp.close()
<p>最后結果只要用瀏覽器打開就好了。當然,你也可以通過weasyprint將結果輸出為pdf。</p>