基于文本情感分析技術(shù)的數(shù)據(jù)分析應(yīng)用

引語:在不同的情境下,詞語會被被賦予不同的情感色彩,通過不同的情感色彩我們可以得到一些信息。而這些信息可以幫助我們更好的工作。

1. 情感分析介紹及作用

情感分析是自然語言處理(NLP)領(lǐng)域的一個任務(wù),又稱傾向性分析,意見抽取,意見挖掘,情感挖掘,主觀分析等,它是對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。本文主要討論的是文本分析。它可以分析文本中作者對特定主體的情感偏好和觀點(diǎn)用于預(yù)測電影票房、股票趨勢、輿情分析、改進(jìn)服務(wù)及產(chǎn)品、及了解用戶的體驗(yàn)等


2.情感分析的基本流程

情感分析的流程包括文本預(yù)處理、特征標(biāo)注與選擇、訓(xùn)練模型、調(diào)整模型、其中我們主要說明特征標(biāo)注與選擇部分,因?yàn)槲谋绢A(yù)處理及訓(xùn)練模型、調(diào)整模型的部分的主要由算法工程師實(shí)現(xiàn),所以在這里不做過多的解釋。


2.1 預(yù)處理

預(yù)處理主要就是進(jìn)行數(shù)據(jù)清洗,刪除一些冗余語料。


2.2特征標(biāo)注與選擇

本文的特征主要指的是情感特征,在這里主要介紹情感詞的分類、情感標(biāo)注相關(guān)問題。


2.2.1情感詞

在不同領(lǐng)域中情感詞的標(biāo)準(zhǔn)都是不同的。

閑聊:在閑聊中,以人類所擁有的情緒作為基礎(chǔ)的情感分類,如喜、怒、哀、驚、懼等幾大類。而每個類別下都有著相關(guān)的情感詞,如下表

從表中我們可以看出,一個類別的情感里會有很多的相關(guān)的情感詞。而每類情感都具有強(qiáng)度,不同程度的強(qiáng)度,能看出一個人情緒的變化。

今天有一些開心

今天好開心

今天很完美

其中有一些開心的強(qiáng)度為+1,好開心為+2,很完美為+3,我們可以根據(jù)情緒的強(qiáng)度來推薦相關(guān)技能或者是進(jìn)行不同方向的聊天設(shè)定。


金融-股票:一般情感分析在股票中可以用來分析趨勢走向。在這里我們會把情感詞分為三類,正向、負(fù)向和中性詞。如下

2.2.2情感詞標(biāo)注

一般我們接觸到的標(biāo)注文件有兩種

成段的歷史會話記錄:成段的歷史會話記錄,沒有辦法直接進(jìn)行標(biāo)注。需要進(jìn)行一些處理。處理方式:①給到相關(guān)的研發(fā)進(jìn)行格式處理 ②利用txt和excel進(jìn)行分行處理

處理過后的文本和一句話一行的短文本的標(biāo)注方式一樣。具體標(biāo)注的方式需要根據(jù)研發(fā)團(tuán)隊的要求來走。


2.2.3語義塊

通過上面兩個不同行業(yè)的情感詞舉例,可以看出不同行業(yè)的情感詞的標(biāo)注都是不同的。而我們也可以通過積累做一個情感詞的特征庫,如

2.3.訓(xùn)練模型——得出結(jié)論

當(dāng)所有數(shù)據(jù)都準(zhǔn)備好之后,算法工程師就開始訓(xùn)練模型了。模型的迭代會進(jìn)行很多次,每一次都會給出結(jié)果,這些結(jié)果需要進(jìn)行人工標(biāo)注badcase。然后再次進(jìn)行數(shù)據(jù)的調(diào)整,繼續(xù)注入到模型里訓(xùn)練。



3.應(yīng)用場景舉例

3.1 AI助手 閑聊

①根據(jù)情感詞的正負(fù)設(shè)定回復(fù)檢查規(guī)則

? ? 用? 戶? :我戀愛了

? ? AI 助手 :恭喜了,記得帶來給我看看。

其中用戶說的“戀愛”是一個正向的情感詞,然后AI給出回復(fù)。為了不使回復(fù)出現(xiàn)相反方向的情感回復(fù),可以根據(jù)“情感詞”設(shè)立檢查規(guī)則。


②根據(jù)情緒分析進(jìn)行心理健康診斷

前提是需要長期收集用戶不同時間段的聊天語料,進(jìn)行分析。然后在合適的閑聊時候,跟聊天的方式跟用戶說出“猜情緒”的聊天內(nèi)容,對有用進(jìn)行引導(dǎo)。如果有心理咨詢的服務(wù)應(yīng)用可以接入到AI助手會比較好。

? ? ? 周五晚上 10點(diǎn)

? ? ? 用 戶? :在干嘛

? ? ? AI助手:在感受你的心,因?yàn)槲野l(fā)現(xiàn)最近這一段時間你總是很消極,不能在這樣下去了。建議你可以找你的好朋友或者心理醫(yī)生去聊聊。


③ 情緒傳遞瓶游戲

? ? 將用戶此時此刻的情緒傳遞給附近最近的使用者

? ? 將用戶此時此刻的情緒傳遞給隨意一個使用者

④根據(jù)情感詞 進(jìn)行相關(guān)推薦(根據(jù)用戶上一步動作或歷史動作)

? ? 也可以建立情感關(guān)聯(lián)詞,為用戶推薦可以用到信息

? ? 用戶:約到了女神。

? ? 約會,女神——玩的地方,吃什么,禮物,天氣等。


? ? 用戶:要去和喜歡的男的約會啦。

? ? 約會,男的——妝容,衣服.....


? ? 用戶:我不開心

? 系統(tǒng)時間周五玩晚上

? AI可以推薦其出去發(fā)泄一下,如去附近的店吃飯或者找朋友KTV。



3.2在線客服

業(yè)務(wù)分析:在客服的歷史會話數(shù)據(jù)中,用戶會咨詢商品和投訴商品,通過“情感詞+規(guī)則”可總結(jié)出咨詢和投訴的占比。

例 1 商品破損

? ? ? 用戶:收到的水杯壞了

? ? ? 其中水杯和壞了是關(guān)鍵詞,而水杯是名詞,壞了是一個負(fù)向情感詞,由此可設(shè)立一個規(guī)則“名詞+負(fù)向情感詞=商品破損”


例2 催物流

? ? 用戶:都3天了,我的快遞呢?

? 其中的快遞是業(yè)務(wù)詞,而3天代表用戶已經(jīng)很著急了,所以在這情境下數(shù)詞是一個負(fù)向的情感詞,所以可以基于此建立一個規(guī)則“數(shù)詞+業(yè)務(wù)關(guān)鍵詞=催物流”。然后可以將相關(guān)信息通過工單,下達(dá)給相關(guān)客服。由客服做一個回訪。

例:怎么還沒到?

? ? ? 其中怎么是疑問代詞, 而用戶已經(jīng)產(chǎn)生了疑問,就說明他已經(jīng)產(chǎn)生了負(fù)面情緒,所以疑問代詞在這樣的情境下就是一個負(fù)向情感詞 。而沒到指的是物流進(jìn)行的一個狀態(tài),所以可以設(shè)立一個規(guī)則“疑問代詞+業(yè)務(wù)關(guān)鍵詞 =催物流”。


3.3金融類

預(yù)測股票走勢和價格

股票有利好和利空之分。在情感詞里利好是正向情感詞,利空是負(fù)向情感詞。而股票的走勢預(yù)測是需要根據(jù)情感詞進(jìn)行分析的,所以要建立關(guān)于正面和負(fù)面的情感詞典,然后通過情感分析進(jìn)行預(yù)測。

相關(guān)的文本,可以從新聞、股票網(wǎng)站、論壇、微博及財務(wù)報表獲得。獲得數(shù)據(jù)后,并標(biāo)注后,就可以開始訓(xùn)練模型了。

4.文本分析的難點(diǎn)

中國的語言博大精深,單憑機(jī)器是去解析是無法全部言中的。目前有以下幾個難點(diǎn):

4.1反諷

反諷手法是指說反話,用肯定贊美的語言描述明顯的丑惡、虛假的現(xiàn)象,表達(dá)作者的鄙視與挖苦。這樣的情況機(jī)器就無法準(zhǔn)確的解答原敘述者的本意,很有可能出現(xiàn)誤解。

4.2新詞

現(xiàn)在是互聯(lián)網(wǎng)時代,新詞幾乎每天都在出現(xiàn)。如早先的“佛系”,“猥瑣發(fā)育”?!捌てのr我們走”等眾多新詞。我們?nèi)祟惪梢噪S時接觸到這些詞,但是機(jī)器在不經(jīng)過訓(xùn)練的情況下,根本就不知道以上的那些詞指的是什么,所以往往都會給出不正確的解答。

4.3情境

在生活中,我們會因?yàn)闀r間、地點(diǎn)、事件、天氣、心情等一些因素,決定下一句要說出來的話是什么。而機(jī)器并不知道那時我們所處的一個環(huán)境是怎樣的,所以在進(jìn)行文本分析的時候會產(chǎn)生歧義,導(dǎo)致錯誤。

天氣:下雨

事件:約會導(dǎo)致的不開心

用戶:好不開心啊

AI:怎么了呢?

用戶:他遲到了,還沒帶禮物。

單純的從文字上,機(jī)器人是無法知道事情具體的一個情境的。所以一般機(jī)器人會回答:他這樣是不太好。

但如果用戶是在跟自己的朋友聊天,朋友可能會說:別生氣了,今天的雨下的太大了。他也不是故意的,可以理解的。你稍微懲罰他一下就好。由上可以看出,由于無法理解情境,導(dǎo)致回答的方向不太對。

其實(shí),也許在用戶說出不開心的時候,可出發(fā)出到查天氣的技能,然后返回相關(guān)字段,加入模板組成一句話,來確定用戶的不開心跟天氣有關(guān)。


5.多模態(tài)分析

現(xiàn)在的技術(shù),讓生活便的更便利了。有一些產(chǎn)品不僅僅是通過文本來傳達(dá),有語音的也有動態(tài)的。

5.1 動態(tài)

我理解的動態(tài)就是表情+動作,以下舉例說明。

監(jiān)控攝像頭:有些人出于自身安全考慮會在自己家門的走廊里安裝監(jiān)控攝像頭,如電視劇《歡樂頌》中的安迪。但監(jiān)控攝像頭,需要人眼去觀看。如果它可以通過人的表情+動作來判定這個人究竟是正常的人,還是來踩點(diǎn)的小偷會不會更好呢?


5.2語音

每個人的音色都是不同的,如男歌星中的“林俊杰”“王力宏”“王俊凱”等,無論怎么聽你都能很容易的認(rèn)出他們的聲音。所以說音色也是可以用來進(jìn)行分析的。每個人在遇見不同事情時候說話的音量和音調(diào)都有所不同,這也是可以去進(jìn)行分析的兩個點(diǎn)。

危險情況舉例(純屬虛構(gòu))

家里進(jìn)入盜賊

在一個月黑風(fēng)高的深夜,熟睡中的你被撬門的聲音驚醒。原來,盜賊已經(jīng)踩了很長時間的點(diǎn),一般這個時候你都在加班,但今天你因?yàn)樯眢w不適早早的就回來了。這時,你突然不知道該怎么辦了,是跟盜賊拼命,還是從別的地方逃走?不過逃走是沒有可能了,畢竟你住在高樓上,跳下去不死也傷。

如果在這樣的情境下,你有在門前的走廊里安裝監(jiān)控攝像頭,同時它是智能的可以分析站在門前的人是正常的人還是有問題的人。然后對有問題的人進(jìn)行警告或者是可以聯(lián)絡(luò)小區(qū)物業(yè)和保安或是及時報警或是發(fā)出極大的響聲驚動你的鄰居。這樣你也就安全了,財產(chǎn)也可以保全了。

打車遇見黑司機(jī)

一天下午你很著急的打車,沒有注意來的車是不是你打的那個車,你就上了車。上了車之后你發(fā)現(xiàn),司機(jī)開車的路線不太對,然后司機(jī)告訴你說,他要帶你走一條小路,那里會更快的到達(dá)你的目的地。這時,你發(fā)現(xiàn)你上錯了車,你試著打開車門。但車門已經(jīng)被鎖。

此時如果你的打車APP里有路線不對的判斷,然后通過這個判斷,相關(guān)客服把情況以及你現(xiàn)在所處的位置反饋給公司,公司可以將相關(guān)信息傳遞給路線附近的滴滴司機(jī),也許就有可能救你一命。

本文參考書目《情感分析 挖掘觀點(diǎn)、情感和情緒》劉兵

? ? ? ? ? ? ? ? ? ? ? 《文本情感分析關(guān)鍵技術(shù)研究》朱儉


以上內(nèi)容,首發(fā)自飯團(tuán)“AI產(chǎn)品經(jīng)理大本營”,點(diǎn)擊這里可關(guān)注:關(guān)http://fantuan.guokr.net/groups/219/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。