利用爬蟲收集考試大綱

<p>今天做了個小玩意,但覺得挺有意思的,分享給大家。</p>

<p>主要是這樣的,因為幫妹子尋找考試資料,發現同一本書不同的章節分別在不同的鏈接中,復制起來實在要命,所以就在想能不能用爬蟲實現。</p>

我們要爬取得頁面,注意看下面叫講義的表格

<p>首先結合RequestBeautifulSoup來對這個主頁進行處理,提取不同章節的href。在這里需要注意,我們的頁面是html類型(看網址結尾)。BeautifulSoup中,網頁解析器要采用lxml的話,會有半截頁面解析不出來。這里使用html5lib解析器。</p>

import requests
from bs4 import BeautifulSoup
url = 'http://www.exam8.com/kuaiji/shuiwu/fudao/201603/3564185.html'
headers = {"user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36",
           "Host":'www.exam8.com',
           "Referer":"http://www.exam8.com/kuaiji/shuiwu/fudao/201606/3684910.html"}
interial = requests.get(url, headers = headers)
interial = interial.content
soup = BeautifulSoup(interial, 'html5lib')

<p>頁面解析出來后,發現解析內容和頁面的page source一樣,亦即使沒有采用js加載內容。通過Inspect定位鏈接地址,很輕易能找到以下內容,發現所有的章節都在標簽為td,分類(class)為lianjie或者lianjielanse里面:</p>

章節link的在page source中的位置

<p>這個時候可以通過Beautiful里面的find_all來將符合條件的鏈接找出來。但同時我們看到兩個class其實是有共同點的(前面都是lianjie),這樣我們可以將find_all結合正則表達式來減輕我們的工作,詳細說明可以看這里的搜索文檔樹章節。</p>

<p>注意,網址所列出的課程章節是有重復(時間上有更新)的,我這里省方便就沒有考慮這個問題了。另外,章節表格最右下角有個空格,實際也是有自己的href的,但既然主頁將它隱藏了,那么我們在挑選的時候,也將其排除。</p>

import re
link = dict()
for tag in soup.find_all('td', class_=re.compile('lianjie')):
    atag = tag.a
    atagtext = atag.get_text()
    if atagtext != '':
        link[atagtext] = atag['href']

<p>這樣就得到一個包含章節題目以及網址的dict了。后面只需要對dict里面的網址內容進行爬蟲就好了。</p>

newpage = requests.get(link1, headers=headers)
newsoup = BeautifulSoup(newpage.content, 'html5lib')

<p>通過Ctrl+F比較快就能定位到內容了。一開始以為這個class是一個定值,后面做循環的時候才發現不是。查看上下文,看到上面有一個class里面包含定值ArticleIntro,并且全文只有你一個,就通過你來定位(注意ArticleIntro后面那段英文也是隨機的,所以這里也要用正則表達式提取)。</p>

章節內容的page source的位置以及定位

<p>提取出來的div中,有一些內容是我們不需要的,可以通過BeautifulSoup中的decompose命令結合children和find將他們剔除后刪除。</p>

text = newsoup.find('div', class_ = re.compile('ArticleIntro'))
text.p.decompose() ##刪除第一個標簽
##后面的通過children建立一個子標簽的循環,將我們不需要的decompose就好。另外,每個節點之間存在空行,需要剔除出來。
for t in text.children:
    if (t.name == 'p' and t.find('a') == None) or t.name = 'tbody':
        continue
    elif t.name == None:
        continue
    else:
        t.decompose()

<p>這樣就干凈了。最后加入循環實現批量處理就好了。對我們的link建立循環,并且將提取出來的內容寫入到html結尾的文件中,注意文件打開方式應該是'a',因為你需要appending:</p>

fp=open(‘filename.html’,'a')
fp.write(str(text))
fp.close()

<p>最后結果只要用瀏覽器打開就好了。當然,你也可以通過weasyprint將結果輸出為pdf。</p>

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,622評論 6 544
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,716評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,746評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,991評論 1 318
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,706評論 6 413
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,036評論 1 329
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,029評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,203評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,725評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,451評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,677評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,161評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,857評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,266評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,606評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,407評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,643評論 2 380

推薦閱讀更多精彩內容