Python爬蟲(chóng)初學(xué)（二）—— 爬百度貼吧小說(shuō)和圖片

昨天初步接觸了爬蟲(chóng)，實(shí)現(xiàn)了爬取網(wǎng)絡(luò)段子并逐條閱讀等功能，詳見(jiàn)Python爬蟲(chóng)初學(xué)（一）。今天準(zhǔn)備對(duì)百度貼吧下手了，嘿嘿。依然是跟著這個(gè)博客學(xué)習(xí)的，這次仿照該博主用類(lèi)的方式寫(xiě)。

其實(shí)我從來(lái)不玩貼吧，不過(guò)據(jù)我所知貼吧有一些網(wǎng)友，他們開(kāi)帖子連載原創(chuàng)小說(shuō)；還有些網(wǎng)友提供“福利”，造福廣大網(wǎng)民。嗯，所以今天的目標(biāo)是這樣的：

把分散的連載小說(shuō)下載到本地

批量下載貼吧圖片

一. 下載小說(shuō)

1. 定義一個(gè)類(lèi)

這次用類(lèi)來(lái)寫(xiě)。實(shí)現(xiàn)這個(gè)也不難，經(jīng)過(guò)昨天的學(xué)習(xí)已經(jīng)有一定經(jīng)驗(yàn)了。導(dǎo)入庫(kù)什么的就不說(shuō)了。先看貼吧的url構(gòu)成，如http://tieba.baidu.com/p/4723863270?see_lz=1&pn=2。其中http://tieba.baidu.com/p/4723863270為該帖的基礎(chǔ)地址，?see_lz=1是只看樓主標(biāo)志位，為1是表示“只看樓主”，pn=2代表當(dāng)前帖子的頁(yè)碼。現(xiàn)在來(lái)定義一個(gè)爬取百度貼吧的SpiderBaidu，初始化，然后定義一個(gè)open_url()來(lái)返回網(wǎng)頁(yè)內(nèi)容。

class SpiderBaidu:
    # 初始化帖子原地址，默認(rèn)只看樓主
    def __init__(self, url, see_lz_flag=1):
        self.url = url
        # 可設(shè)置看所有樓
        self.see_lz = '?see_lz=' + str(see_lz_flag)
        self.res = []
        
    # 打開(kāi)具體網(wǎng)址并返回網(wǎng)頁(yè)內(nèi)容
    def open_url(self, num):
        # 該帖具體網(wǎng)址，num指定頁(yè)碼
        wanted_page = self.url + self.see_lz + '&pn=' + str(num)
        req = request.Request(wanted_page)
        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                     '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
        response = request.urlopen(req)
        html = response.read().decode('utf-8')
        return html

2. 獲取標(biāo)題和總頁(yè)數(shù)

我們想要知道帖子標(biāo)題以及總頁(yè)數(shù)，提取出來(lái)就是了！

可以發(fā)現(xiàn)標(biāo)題被<h1 class="core_title_txt(...)</h1>包含起來(lái)了，這里要注意的是，有些帖子不是<h1>,可能是<h3>或者其他，一會(huì)兒匹配的時(shí)候考慮進(jìn)去。

    # 提取標(biāo)題
    def get_title(self):
        # 第1頁(yè)就包含標(biāo)題，所以num用1即可
        html = self.open_url(1)
        # 提取標(biāo)題的規(guī)則，<h\d>即無(wú)論h1還是h3都會(huì)匹配成功
        title_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>')
        title = re.findall(title_pattern, html)
        # 返回的是列表且只有一個(gè)元素，故用title[0]
        return title[0]

接下來(lái)是總頁(yè)數(shù)，仔細(xì)觀察總頁(yè)數(shù)其實(shí)在最上面和最下面都是有一個(gè)的，所以一會(huì)兒匹配后返回的列表會(huì)有兩個(gè)元素，這兩個(gè)元素是一模一樣的！

如上圖，數(shù)字7被<span class="red">(需要提取的數(shù)字)</span>包含。代碼如下。

    # 獲取總頁(yè)數(shù)
    def get_page_num(self): 
        # 第1頁(yè)也有總頁(yè)數(shù)
        html = self.open_url(1)
        num_pattern = re.compile(r'<span class="red">(\d+)</span>')
        page_num = re.findall(num_pattern, html)
        # 貼吧的最上和最下面都有總頁(yè)碼，隨便返回一個(gè)即可
        return page_num[0]

我們來(lái)看一下提取出來(lái)的標(biāo)題和頁(yè)碼。

3. 獲取正文

正文前面有空格，依然要用\s+匹配。正文被<div id="post_content...class=d_post_content j_d_post_content...空格空格（正文）</div>包含。以下函數(shù)提取出正文。

    # 獲取正文
    def get_content(self, num):
        # 獲取網(wǎng)頁(yè)全部?jī)?nèi)容
        html = self.open_url(num)
        # 提取每樓發(fā)言
        content_pattern = re.compile(r'<div id="post_content.*?class="d_post_content j_d_post_content'
                                     r'.*?>\s+(.*?)</div>')
        content = re.findall(content_pattern, html)
        return content

即使提取出帖子正文了，也別高興的太早。貼吧發(fā)帖不可能人人都發(fā)的純文本，可以預(yù)想到里面會(huì)有圖片（包含表情），超鏈接，還有設(shè)置的簽名等。這些還沒(méi)有被過(guò)濾掉。（不好意思忘了截圖，反正打印出來(lái)的內(nèi)容會(huì)含有很多又長(zhǎng)又難看的鏈接）

我們?cè)僦贫ㄒ?guī)則過(guò)濾掉。

    # 這里參數(shù)con為get_content()函數(shù)返回的包含正文的列表
    def get_words_only(self, con):
        for i in con:
            # 刪除圖片
            each = re.sub(r'<img class=".*?>', '', i)
            # 刪除簽名
            each = re.sub(r'<div class="post_bubble_top".*?>', '', each)
            # 換行
            each = re.sub(r'<br>', '\n', each)
            # 刪除超鏈接
            each = re.sub(r'<a href=.*?</a>', '', each)
            # 添加到初始化的列表中
            self.res.append(each)
        return self.res

4. 下載小說(shuō)到本地

默認(rèn)模式為只看樓主，其他人插樓小說(shuō)還咋讀是不。

    # 下載到本地
    def save_text(self):
        # 返回的帖子標(biāo)題作為文件名
        file_title = self.get_title()
        # 最大頁(yè)碼
        page_num = int(self.get_page_num())
        with open(file_title + '.txt', 'w', encoding='utf-8') as f:
            # 每一頁(yè)內(nèi)容都寫(xiě)入文件
            for number in range(1, page_num + 1):
                con = self.get_content(number)
                # 只留下純文字，過(guò)濾圖片、超鏈接等
                result = self.get_words_only(con)
                f.writelines(result)

最后創(chuàng)建一個(gè)實(shí)例就好了，試試下載吧。

if __name__ == '__main__':
    spider = SpiderBaidu('http://tieba.baidu.com/p/4698209454')
    title = spider.get_title()
    total_num = spider.get_page_num()
    print('{}(共{}頁(yè))'.format(title, total_num))
    spider.save_text()

下載下來(lái)后是這個(gè)效果，還行，能讀。

二、批量下載圖片

剛才有過(guò)濾圖片是不？我們反過(guò)來(lái)利用它，分分鐘就搞定！

提取圖片鏈接即可。它被<img class="BDE_Image" src="(.*?jpg)"這樣的形式包含。

# 只保存圖片
    def save_images(self, folder):
        page_num = int(self.get_page_num())
        # 文件名序號(hào)
        seq = 1
        # 創(chuàng)建文件夾
        os.mkdir(folder)
        # 工程目錄切換到當(dāng)成文件夾
        os.chdir(folder)
        for number in range(1, page_num + 1):
            # 網(wǎng)頁(yè)全部?jī)?nèi)容
            html = self.open_url(number)
            img_pattern = re.compile(r'<img class="BDE_Image" src="(.*?jpg)"')
            images = re.findall(img_pattern, html)
            # 每爬一頁(yè)，休息10秒
            time.sleep(10)
            for each in images:
                # 文件名
                filename = str(seq) + '.jpg'
                # 下載到文件夾
                request.urlretrieve(each, filename)
                # 數(shù)字遞增方式給文件命名
                seq += 1
                # 每?jī)擅胂螺d一次
                time.sleep(2)

可以適當(dāng)加入time.sleep(),防止訪問(wèn)頻率過(guò)快導(dǎo)致爬蟲(chóng)封IP。簡(jiǎn)單的可以這么做，當(dāng)然可以用代理，多線程，不過(guò)我還沒(méi)接觸到，以后再深入。

居然幾百?gòu)垼〈筘S收呀，看到圖片自動(dòng)地就被飛速下載到本地了，還用一張張右鍵嗎？No！掛著程序讓它跑，看部電影去吧！

整理一下，全部代碼如下

from urllib import request, parse
import re
import os
import time


class SpiderBaidu:
    # 初始化帖子原地址，默認(rèn)只看樓主為否
    def __init__(self, url, see_lz_flag=1):
        self.url = url
        self.see_lz = '?see_lz=' + str(see_lz_flag)
        self.res = []

    def open_url(self, num):
        # 該帖具體網(wǎng)址
        wanted_page = self.url + self.see_lz + '&pn=' + str(num)
        req = request.Request(wanted_page)
        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                                     '(KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36')
        response = request.urlopen(req)
        html = response.read().decode('utf-8')
        return html

    # 提取標(biāo)題
    def get_title(self):
        html = self.open_url(1)
        title_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>')
        title = re.findall(title_pattern, html)
        return title[0]

    # 獲取總頁(yè)數(shù)
    def get_page_num(self):
        html = self.open_url(1)
        num_pattern = re.compile(r'<span class="red">(\d+)</span>')
        page_num = re.findall(num_pattern, html)
        # 貼吧的最上和最下面都有總頁(yè)碼，隨便返回一個(gè)即可
        return page_num[0]

    # 獲取正文
    def get_content(self, num):
        html = self.open_url(num)
        content_pattern = re.compile(r'<div id="post_content.*?class="d_post_content j_d_post_content'
                                     r'.*?>\s+(.*?)</div>')
        content = re.findall(content_pattern, html)
        return content

    # 去除文字外所有內(nèi)容
    def get_words_only(self, con):
        for i in con:
            # 刪除圖片
            each = re.sub(r'<img class=".*?>', '', i)
            # 刪除簽名
            each = re.sub(r'<div class="post_bubble_top".*?>', '', each)
            # 換行
            each = re.sub(r'<br>', '\n', each)
            # 刪除超鏈接
            each = re.sub(r'<a href=.*?</a>', '', each)
            self.res.append(each)
        return self.res

    # 下載到本地
    def save_text(self):
        # 帖子標(biāo)題作為文件名
        file_title = self.get_title()
        # 最大頁(yè)碼
        page_num = int(self.get_page_num())
        with open(file_title + '.txt', 'w', encoding='utf-8') as f:
            for number in range(1, page_num + 1):
                con = self.get_content(number)
                result = self.get_words_only(con)
                f.writelines(result)

    # 只保存圖片
    def save_images(self, folder):
        page_num = int(self.get_page_num())
        # 文件名序號(hào)
        seq = 1
        os.mkdir(folder)
        os.chdir(folder)
        for number in range(1, page_num + 1):
            html = self.open_url(number)
            img_pattern = re.compile(r'<img class="BDE_Image" src="(.*?jpg)"')
            images = re.findall(img_pattern, html)
            time.sleep(10)
            for each in images:
                filename = str(seq) + '.jpg'
                request.urlretrieve(each, filename)
                seq += 1
                time.sleep(2)

if __name__ == '__main__':
    spider = SpiderBaidu('http://tieba.baidu.com/p/4698209454')
    title = spider.get_title()
    total_num = spider.get_page_num()
    print('{}(共{}頁(yè))'.format(title, total_num))
    spider.save_text()
    spider.save_images('圖')

by @sunhaiyu

2016.8.16

最后編輯于：2017.12.04 01:48:45

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書(shū)系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,117評(píng)論 6贊 537
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 98,860評(píng)論 3贊 423
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 177,128評(píng)論 0贊 381
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 63,291評(píng)論 1贊 315
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,025評(píng)論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 55,421評(píng)論 1贊 324
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,477評(píng)論 3贊 444
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 42,642評(píng)論 0贊 289
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,177評(píng)論 1贊 335
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 40,970評(píng)論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,157評(píng)論 1贊 371
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,717評(píng)論 5贊 362
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,410評(píng)論 3贊 347
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 34,821評(píng)論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 36,053評(píng)論 1贊 289
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 51,896評(píng)論 3贊 395
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,157評(píng)論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Python爬蟲(chóng)初學(xué)（二）—— 爬百度貼吧小說(shuō)和圖片

Python爬蟲(chóng)初學(xué)（二）—— 爬百度貼吧小說(shuō)和圖片

一. 下載小說(shuō)

1. 定義一個(gè)類(lèi)

2. 獲取標(biāo)題和總頁(yè)數(shù)

3. 獲取正文

4. 下載小說(shuō)到本地

二、批量下載圖片

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Python爬蟲(chóng)初學(xué)（二）—— 爬百度貼吧小說(shuō)和圖片

一. 下載小說(shuō)

1. 定義一個(gè)類(lèi)

2. 獲取標(biāo)題和總頁(yè)數(shù)

3. 獲取正文

4. 下載小說(shuō)到本地

二、 批量下載圖片

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

二、批量下載圖片