豆瓣電影小爬蟲

用比較簡單的方法爬取豆瓣電影評論及電影詳情頁的一些內容。

爬取思路:
(1) 從電影的列表頁開始,獲取當前頁面每部電影的link;
(2) 通過觀察link的組成,從電影的link,獲得評論頁的起始頁link
(3) 在全部的短評頁面,獲取評論用戶id、評分、評論內容等,同時進行翻頁(在不登錄的情況下,目前只能翻到第十頁)。

代碼效果:

  • 優點:運行簡單,不需要太多設置。
  • 缺點:第(1)步目前還沒有實現自動翻頁;(2)受登錄限制,目前跑一陣大概就會出現403錯誤。
  • 改進方向:多設置一些except error,或者是傳入cookie,或者通過模擬登錄的方式,應該可以提升自動跑的效率。scrapy框架、mongodb之類也可以多研究下。

操作環境:Mac, python 3.5

import requests
import random
import time
import csv
import re
import string
import random
from bs4 import BeautifulSoup
try:
    import cookielib
except:
    import http.cookiejar as cookielib

#header設置
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, sdch',
    'Accept-Language': 'zh-CN,zh;q=0.8',
    'Connection': 'keep-alive',
    'Host': 'movie.douban.com',
    'Referer' : 'https://movie.douban.com/subject/26345137/collections',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.87 Safari/537.36'
}

timeout = random.choice(range(60,180))

#豆瓣評分等級
gradeDic = {
    '力薦':5,
    '推薦':4,
    '還行':3,
    '較差':2,
    '很差':1
}

#爬取的起始頁:爬取思路是從電影的列表頁開始
movielist = 'https://movie.douban.com/tag/2016'

#第(1)步,讀取電影列表頁,得到回傳的可解析的內容
def get_html(url):
    while True:
        try:
            rep = requests.get(url,headers=headers,timeout=timeout)
            print(rep)
            break
        except:
            print(url,"頁面訪問失敗")
    return rep.text

# 在電影列表頁,獲取每個電影的link,放在temp這個list里面
def get_movie(html):
    url_list = []
    bs4 = BeautifulSoup(html,"html.parser").body.find(class_='article')#電影列表區
    nextUrl = BeautifulSoup(html, "html.parser").body.find(class_='paginator').find(class_='next').find('a').get('href')  # 找到下一頁url
    movie_list = bs4.find_all(class_='item')
    temp = []
    for movie in movie_list:
        movie_href = movie.find(class_= "pl2").find("a").get("href")
        temp.append(movie_href)
    return temp


#解析電影詳情頁
def get_data(html):
    final = []
    bs4 = BeautifulSoup(html,"html.parser").body.find(class_='mod-bd') #找到評論區
    movie_href = BeautifulSoup(html,"html.parser").body.find(class_='aside').find(class_ = 'pl2').find('a').get("href")#找到邊欄區

    comment_lists = bs4.find_all(class_='comment-item')
    for comment in comment_lists:
        temp = []
        grade = comment.find(class_= re.compile("allstar"))
       
        #有些評分為空,忽略
        if grade is None:
            pass

        else:
            rating = grade.get('title') #獲得評價
            username = comment.find(class_="avatar").find('a').get('title') #獲得用戶名
            datacid = comment.get('data-cid') #評論編號
            num_rating = gradeDic[rating] #評價對應的評分
            usefulness = comment.find(class_='votes').get_text() #用戶給的是否有用評價
            words = comment.find(class_='comment').find('p').get_text().strip() #評論的具體內容

            if (rating is None) or (username is None) or (datacid is None) or (words is None): #如果任何一項為空,都pass
                pass

            else:
                temp.extend((username, datacid, rating, num_rating, usefulness, words, movie_href))
                final.append(temp) #添加到[]中
    return final

#翻頁設置,在評論區翻頁
def turn_page(temp):
#第(1)步里面爬取的頁面上,有20個電影;出于爬取限制,可以寫成for url in temp[0:10],先爬取一部分
    for url in temp: 
        count = 0
        currentUrl = url + 'comments?&status=P' #通過觀察,獲取評論區首頁的url
        while currentUrl is not None and count < 9: #出于限制設置爬取頁面<10,超過第10頁就會要求登錄
            print (currentUrl)
            html = get_html(currentUrl) #解析頁面
            bs4 = BeautifulSoup(html, "html.parser").body.find(class_='mod-bd')  # 找到評論區
            nextUrl = BeautifulSoup(html, "html.parser").body.find(id='paginator').find(class_='next').get(
                'href')  # 找到下一頁url
            next_Url = url + 'comments' + nextUrl #下一頁的url

            data = get_data(html) #獲取需要爬取的字段
            currentUrl = next_Url
            count += 1
            print(count)
            write_data(data, "1.csv") #寫入csv文件
            time.sleep(random.choice(range(1, 5)))

#寫入文件
def write_data(data, name):
    file_name = name
    with open(file_name, 'a', errors='ignore', newline='', encoding='utf-8-sig') as f: #如果是windows,貌似不用寫encoding='utf-9-sig'
            f_csv = csv.writer(f)
            f_csv.writerows(data)

movie_html = movie_page_html(movielist)
movie_temp = get_movie(movie_html)
turn_page(movie_temp)

參考

豆瓣爬蟲&sql

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,825評論 6 546
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,814評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,980評論 0 384
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 64,064評論 1 319
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,779評論 6 414
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 56,109評論 1 330
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 44,099評論 3 450
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,287評論 0 291
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,799評論 1 338
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,515評論 3 361
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,750評論 1 375
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,221評論 5 365
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,933評論 3 351
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,327評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,667評論 1 296
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,492評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,703評論 2 380

推薦閱讀更多精彩內容