前幾天接觸了一下pyspider,最近又在復習pandas,所以打算拿豆瓣的數據來練練手。
這次我的目標是分析一下豆瓣2016年國產影視劇的情況,所以我以標簽的方式來抓取影視劇(2016+中國),但是不得不讓我吐槽的是,豆瓣對標簽的使用還是有些不太嚴謹,有些老電影也會打上2016年的標簽,有些明明是中國拍的卻沒有帶“中國”的標簽,比如“爵跡”。所以我不得的進行數據清洗,去掉了不是2016年的影視劇, 也人工篩選了一部分帶有中國標簽的,但主要由國外制作的影視劇(比如功夫熊貓)。至于“爵跡”這類因為沒有中國標簽而無法抓取的影片這次就先暫不考慮。
更新:發現用制片地區信息來判斷是否國產比用標簽判斷更準確,所以重新抓取了2016的所有影視劇作品數據,保留了制片地區優先為中國的電影(比如功夫熊貓這種是“美國/中國”,這種情況就排除,只有中國/美國的時候才認為是國產影視劇),這樣上述提到過一些遺漏的影視劇也被重新包括了。
整體評分分布
在有效的644部影視節目中,最低分2.2分,從直方圖來看,其實分布還算均勻,9-10分影視劇作品偏少。
前二十和后二十名
豆瓣電影中有兩個主要變量可以影視劇作品的表現——得分和評分人數。我決定按照這兩項表現取對數之和作為參考標注,做出一個2016年國產影視劇排行榜。最終,前二十的影視劇作品如下(“index”就是我新建的指數):
4/10/2017修正:之前index取值方法是rate和audience取對數,但實際情況還是audience對排名比重影響最大,所以用極大極小值重新歸一化,將rate和audience的取值范圍限定于0到1之內,所以前二十和后二十都有略微變化。
基本上2016年好的片子都排進前20了,整體評分也都較高,不過前二十中也出現了擺渡人長城這種得分較低的片子(可憐的王導張導),但是由于觀眾數量很大,所以也能擠入這個榜單。再來看一下倒數前20的影視劇作品,反正我是一部都沒看過(不過有些名字看著挺刺激的):
更新:因為發現后二十的影片實在是觀影人數太少了,所以取了第一四分位數 (Q1)——225人,225人以上的影片才考慮,所以最新的后二十如下:
更新后的后二十排行榜比之前更為靠譜,均是些低分電影。
類型分析
豆瓣電影中對影視劇作的類型分析還是比較正規的,但是有一個問題,一部作品可以有多個類型。比如既是劇情片,又是科幻片,還可能是愛情片。一開始我想取每部電影的第一個類型作為它的類型,但又考慮到大多數影視劇的第一個類型往往是劇情類,這么做可能會減少電影類型的多樣化,所以最后對于電影類型的分析我就直接按照類型名分類,不做額外處理。
從這張餅圖中我們可以看出,2016年影視劇作品中劇情片數量最多,愛情其次,喜劇第三,值得注意的是第四名的真人秀。
在觀影人數方面(評分人數),犯罪片,動作片,奇幻片獲得前三。
在的平均得分方面,紀錄片平均得分最高,傳記其次,脫口秀,戲曲,短片也有比較多的好評,得分最差的是恐怖片,驚悚片和情色片。
導演
再來看看排名前二十的導演:
基本上這個排名和之前的影視劇排名類似,除了個別導演一年內出了兩部作品,導致了排名上下有波動。周星馳憑借著美人魚成為成為了2016年指數最高的導演。按照慣例,我們來認識下指數后二十導演。
更新:導演指數后二十也做了調整
演員
上圖是不同演員的整體情況圖,大部分的演員平均作品得分集中在6分左右。圓圈的大小表示2016年的作品數量,圓圈越大,說明2016的作品越多。嗯,最大的那個圓圈就是薛之謙。我們來看看哪個演藝圈明星在2016年最忙:
因為選取了單年的數據,所以演員的指數排名基本和影視指數排名相似,前幾名的都是出演指數最高影視劇的演員,比如美人魚,驢得水,大魚海棠,七月與安生和火鍋英雄的演員。不過,我統計了下出演作品大于2的演員情況:
后續研究
- 重新抓取后的數據包括了所有地區國家,下次有機會按照國別對數據再來進行研究。
- 這次只是研究了2016的整體情況,并沒有研究不同年份之間的數據,下次可以從時間維度方面對影視劇的數據進行研究。