《少年的你》短評情感分析——機器學習之邏輯回歸

背景

《少年的你》這部國產青春劇影響還是蠻大的，票房達到了14億，從票房上看，這部電影在大陸制作的青春劇中比較成功，演員：易烊千璽+周冬雨，當然會引起一些流量效應，但是許多演員對這部電影的劇情、演員的演技評價頗好，包括自己的姐姐也非常喜歡；同時它也陷入了抄襲東野圭吾的《白夜行》和《嫌疑人X的獻身》的熱議，引起許多原著粉絲的不滿。下面就利用邏輯回歸（LogisticRegression）對《少年的你》的一些短評進行情感分析，看一看已經觀影的人對這部電影的評價如何。

獲取數據

數據是從豆瓣電影——《少年的你》短評上獲取的

在這里插入圖片描述

雖說圖中顯示的有220200條短評，我卻只爬取到600條，但當一個小的數據集樣本也是足夠的
爬蟲過程并不難，不再過多概述

處理數據

需要的庫和工具

import pandas as pd
import jieba
import re

工具：jupyter notebook

數據整理

數據讀取如下圖

在這里插入圖片描述

數據內容：名字，短評，評價
由于爬取的短評內容分為500個樣本和100個樣本，所以需要先將兩個數據集整合成一個數據集
利用pandas的merge方法即可

在這里插入圖片描述

在rating這一列中，數據還是列表格式，可觀性也比較差，很容易能推斷出10-50分為五個等級，也就是我們在網頁上看到的幾星評價，為了分析便利，可以寫一個函數將rating分為1-5五個等級

def rating(e):
    if '50' in e:
        return 5
    elif '40' in e:
        return 4
    elif '30' in e:
        return 3
    elif '20' in e:
        return 2
    else:
        return 1
data['new_rating'] = data['rating'].map(rating)
data.head()

運行后數據如下圖

在這里插入圖片描述

那么問題又來了，對于評價只有好評和壞差評之分，可是rating有五個等級怎么辦呢？
可以先將三星評價刪去，因為這些評價大概率為中性評價，然后將四星和五星定為好評，用1表示；再將一星和二星定位差評，用-1表示

new_data = data[data['new_rating']!=3]
new_data['sentiment'] = new_data['new_rating'].apply(lambda x : +1 if x>3 else -1)
new_data

在這里插入圖片描述

樣本只剩下557個，說明有43個三星中性評價被刪去

在這里插入圖片描述

好評和差評的比率大約為3.5：1，可以看出喜歡這部電影的人還是比較多的
但是樣本也出現了樣本不均衡的問題，這會對后期建模有一定的影響

怎么判定一句短評是好還是差？

我喜歡你	我討厭你
喜歡	討厭

不就可以根據一句話中的一些單詞進行判斷嘛，所以下一步用jieba庫對每一條短評進行分詞
在分詞前我們可以先分析一下文本，里面會有許多對情感分析沒有影響的內容，比如數字和字母，所以分詞時可以將其剔除

#分詞
def cut_word(text):
    text = jieba.cut(str(text),cut_all=False)
    return ' '.join(text)
new_data['new_short'] = new_data['short'].apply(cut_word)
#剔除數字
def remove_num(new_short):
    return re.sub(r'\d+','',new_short)
#剔除字母
def remove_word(new_short):
    return re.sub(r'[a-z]+','',new_short)
new_data['new_short'] = new_data['new_short'].apply(remove_num)
new_data['new_short'] = new_data['new_short'].apply(remove_word)

分詞效果如下

在這里插入圖片描述

文本中就可以看到一些帶有個人情感的單詞，比如無私奉獻，矯情等等

邏輯回歸建模

需要的庫

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
import numpy as np
from pandas import DataFrame

分析與建模

第一步需要對分析好的數據進行數據劃分，分為訓練集和測試集

train_data,test_data = train_test_split(new_data,train_size = 0.8,random_state = 0)
#文本提取
transfer = CountVectorizer()
train_word = transfer.fit_transform(train_data['new_short'])
test_word = transfer.transform(test_data['new_short'])
#稀疏矩陣
print('new_data:\n',train_word.toarray())
#特征值
print('feature_name:\n',transfer.get_feature_names())

第二步對分詞后的文本進行特征值提取，可以生成一個對應的稀疏矩陣，并且得到稀疏矩陣對應的特征值
第三步利用邏輯回歸建模，即讓訓練集中的特征值和目標值進行擬合，從而生成一個模型

x_train,x_test,y_train,y_test = train_test_split(new_data['new_short'],new_data['sentiment'],train_size = 0.8,random_state = 0)
x_train = train_word
x_test = test_word
model = LogisticRegression()
model.fit(x_train,y_train)
y_predict = model.predict(x_test)
print('布爾比對:\n',y_predict==y_test)
score = model.score(x_test,y_test)
print('模型準確率:\n',score)

得出預測結果和模型準確率如下

在這里插入圖片描述

模型準確率為85.7%，建模效果一般
我們可以從測試集文本中挑選出一些例子進行驗證，觀察一下情感分析是否正確

example = test_data[50:55]
example[['short','new_rating','sentiment']]

在這里插入圖片描述

如果想要觀察完整短評，可以寫一個迭代器，將短評完整輸出
不過在圖中我們就可以看出這些短評的語意是如何的，比如第三個涉及抄襲，所以對應sentiment為-1
通過邏輯回歸的predict_proba可以獲得一個評價為好評的概率，也就是概率越接近于1，這條短評越可能是好評，同理短評為差評的概率接近于0

possibility = model.predict_proba(test_word)[:,1]
test_data.loc[:,'possibility'] = possibility
test_data.head()

得出數據如下圖

在這里插入圖片描述

之后可以通過索引得到對《少年的你》評價最好的五條和最差的五條短評

在這里插入圖片描述

同樣迭代可查看完整短評，可以看到好評Top5寫的都比較多，也比較走心，大部分是在說這部電影反射出的社會問題——校園霸凌；而差評Top5都指出這部電影是在抄襲，引起許多人的不滿

在這里插入圖片描述

上圖為在短評中出現次數較多的單詞：
(演技青春少年希望喜歡)——這些詞應該是出至于一些好評，屬于正面詞匯，可以影響評價夾帶著的情感
(欺凌保護校園霸凌暴力)——這些詞語是陳述電影背景的詞語，雖然有些帶有負面情感，但還需根據短評句子的語意才能判斷好差之分
(抄襲)——這個單詞出現67次，而sentiment為-1的短評一共才有122個，通過分析也可得知帶有抄襲的評價大概率為差評

總結

一部票房可以達到14億的電影，一定有它的獨到之處，不論是演員陣容或者是背景題材，但是一部確定抄襲的電影注定不會成為一部好電影，作為一個路人，對《少年的你》是否抄襲不能做出判斷；但任何人的知識產權不能被侵犯是一定的！

公眾號“奶糖貓”后臺回復“少年的你”可獲取源碼和數據供參考，感謝支持。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,527評論 6贊 544
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,687評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,640評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,957評論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,682評論 6贊 413
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,011評論 1贊 329
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,009評論 3贊 449
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,183評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,714評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,435評論 3贊 359
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,665評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,148評論 5贊 365
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,838評論 3贊 350
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,251評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,588評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,379評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,627評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

《少年的你》短評情感分析——機器學習之邏輯回歸

《少年的你》短評情感分析——機器學習之邏輯回歸

背景

獲取數據

處理數據

需要的庫和工具

數據整理

邏輯回歸建模

需要的庫

分析與建模

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

《少年的你》短評情感分析——機器學習之邏輯回歸

背景

獲取數據

處理數據

需要的庫和工具

數據整理

邏輯回歸建模

需要的庫

分析與建模

總結

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频