亚洲乱码日产一区三区,理论片87福利理论电影,贱狗总裁的私教日常

Actionable and Political Text Classification using Word Embeddings and LSTM

Rao A, Spasojevic N. Actionable and Political Text Classification using Word Embeddings and LSTM[J]. arXiv preprint arXiv:1607.02501, 2016.

關(guān)鍵詞

文本分類；社交媒體；深度學(xué)習(xí)；神經(jīng)網(wǎng)絡(luò)；LSTM模型；可行動(dòng)性；政治

目標(biāo)問題

在文本分類領(lǐng)域，大量的研究是關(guān)于情感挖掘問題，而其他形式的文本分類則研究得相對(duì)較少。在一部分應(yīng)用場(chǎng)景下，只獲取文本的情感分類不足以提供充分的信息來滿足應(yīng)用需求。論文考慮使用基于應(yīng)用上下文標(biāo)準(zhǔn)的文本分類。其中應(yīng)用的技術(shù)包括：詞嵌入和長(zhǎng)短期記憶人工神級(jí)網(wǎng)絡(luò)。具體應(yīng)用為文本可行動(dòng)性分類和政治傾向分類。

論文主要貢獻(xiàn)

詞嵌入已經(jīng)被證明是文本語(yǔ)義特征提取的有效工具，LSTM網(wǎng)絡(luò)能有效完成與文本序列有關(guān)的任務(wù)。論文將兩者結(jié)合來解決基于上下文的文本分類問題。

方法與模型

預(yù)處理

輸入的信息被分詞（tokenized）后作為神經(jīng)網(wǎng)絡(luò)的輸入。每一個(gè)詞例（token）的詞頻作為其索引。詞頻排名前V的詞例組成詞匯庫(kù)。每一條信息可以被轉(zhuǎn)化為詞頻索引序列。論文選擇一個(gè)最大允許長(zhǎng)度作為每一個(gè)索引序列的固定長(zhǎng)度，如果索引序列實(shí)際長(zhǎng)度小于最大允許長(zhǎng)度，用數(shù)字0補(bǔ)充多余的索引。

神經(jīng)網(wǎng)絡(luò)架構(gòu)

遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks，RNNs）是神經(jīng)網(wǎng)絡(luò)的一類。與傳統(tǒng)升降網(wǎng)絡(luò)不同的是，RNNs使用一種具有內(nèi)部狀態(tài)、能保存前向事件信息的單元（unit），因此非常適用于需要處理連續(xù)信息的場(chǎng)合，比如文本處理。

傳統(tǒng)的RNNs不能保存長(zhǎng)期依賴關(guān)系，長(zhǎng)短期記憶（Long Short Term Memory ，LSTM）神經(jīng)網(wǎng)絡(luò)則能避免這個(gè)問題。

論文使用的神經(jīng)網(wǎng)絡(luò)模型應(yīng)用了詞嵌入和LSTM單元實(shí)現(xiàn)基于上下文的文本分類，具體的神經(jīng)網(wǎng)絡(luò)層次結(jié)構(gòu)如下：

嵌入層

網(wǎng)絡(luò)的第一層是嵌入層。嵌入層的目的是建立離散詞匯庫(kù)中的詞語(yǔ)到低維向量空間的映射。這種詞匯的分布式表示在建立概念之間的關(guān)系上具有極大優(yōu)勢(shì)。通過嵌入層，實(shí)現(xiàn)了文本特征的自動(dòng)提取，無(wú)需手動(dòng)定義特征。

LSTM層

網(wǎng)絡(luò)的第二層是LSTM層。LSTM層由若干個(gè)LSTM單元組成。一個(gè)LSTM單元相當(dāng)于一個(gè)記憶細(xì)胞，由四部分組成：一個(gè)輸入門，一個(gè)一個(gè)自循環(huán)連接，一個(gè)遺忘門以及一個(gè)輸出門。

退出層

退出（Dropout）是神經(jīng)網(wǎng)絡(luò)中避免過擬合的一種調(diào)節(jié)機(jī)制，通過隨機(jī)中止部分神經(jīng)單元來避免共同適應(yīng)。

充分連接層

充分連接層中，上一層所有的激活都充分連接。這一層用來學(xué)習(xí)高層次特征間的非線性結(jié)合。

損失層

這一層用來衡量預(yù)測(cè)結(jié)果和實(shí)際結(jié)果之間的偏差。論文使用二維交叉熵作為損失函數(shù)。

實(shí)驗(yàn)一：可行動(dòng)性預(yù)測(cè)

可行性實(shí)驗(yàn)判斷是將消息劃分為可行動(dòng)的或者非可行動(dòng)的兩類。

數(shù)據(jù)集

數(shù)據(jù)集來源于一個(gè)社交媒體平臺(tái)。該平臺(tái)幫助代理代表公司對(duì)顧客來信進(jìn)行回復(fù)。平臺(tái)整合了多個(gè)社交媒體平臺(tái)，包括Twitter、Facebook、google+、品牌社區(qū)以及在線論壇。

監(jiān)督訓(xùn)練的標(biāo)簽通過以下方式收集：如果代理對(duì)一條信息進(jìn)行了回復(fù)，這條信息則被標(biāo)注為可行動(dòng)的（Actionable），用1作為標(biāo)簽；反之則為非可行動(dòng)性的（Non-Actionable）,用0作為標(biāo)簽。論文使用了從2014.11.1到2015.05.1為期6個(gè)月的數(shù)據(jù)，收集了同等數(shù)量的可行動(dòng)數(shù)據(jù)集和非可行動(dòng)性數(shù)據(jù)集。80%的數(shù)據(jù)集用來訓(xùn)練，余下的20%用來測(cè)試。實(shí)驗(yàn)針對(duì)多種語(yǔ)言，因此每一種語(yǔ)言都包括一組訓(xùn)練集和測(cè)試集。實(shí)驗(yàn)還包括一組包含所有語(yǔ)言的數(shù)據(jù)集。數(shù)據(jù)集大小隨語(yǔ)言變化，最小的2.7萬(wàn)條信息（Farsi）到最大的850萬(wàn)條信息（English）?；旌险Z(yǔ)言數(shù)據(jù)集規(guī)模為170萬(wàn)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果分析

與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)比較，在Arabic以外的其他語(yǔ)種，論文使用的LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精度上表現(xiàn)更佳。具體結(jié)果見下表：

模型建立中的一個(gè)參數(shù)變量是詞表規(guī)模，記作V。如table 1所示，實(shí)驗(yàn)選取了V的兩個(gè)值，20,000和100,000。從整體實(shí)驗(yàn)結(jié)果來看，兩個(gè)詞表的測(cè)試集精度相差不大。這表明較小的數(shù)據(jù)集同樣能有效預(yù)測(cè)消息的可行動(dòng)性，并且模型訓(xùn)練時(shí)間開銷更小。

實(shí)驗(yàn)二：政治傾向預(yù)測(cè)

第二個(gè)文本分類任務(wù)是判斷與美國(guó)政治相關(guān)的政治傾向。根據(jù)消息中表現(xiàn)出的觀點(diǎn)，將消息分為民主黨或者共和黨。

數(shù)據(jù)集

數(shù)據(jù)收取方式：根據(jù)twitter上其他用戶創(chuàng)建的twitter 名單，選取Twitter上政治傾向明確的用戶。收集這些用戶從2015.10.12到2016.1.12為期三個(gè)月發(fā)布的信息。如果是民主黨，則標(biāo)記為0，如果是共和黨則標(biāo)記為1。訓(xùn)練集和測(cè)試集的比例為8:2，規(guī)模分別為336,000和84,000。

訓(xùn)練與評(píng)估

使用與第一個(gè)實(shí)驗(yàn)相同的神將網(wǎng)絡(luò)模型（嵌入層和LSTM層各有128個(gè)單元），得到的結(jié)果為：訓(xùn)練集的精度為88.82%，測(cè)試集的精度為87.57%。

模型參數(shù)對(duì)訓(xùn)練結(jié)果的影響

嵌入層、LSTM層的單元數(shù)變化對(duì)模型精度的影響參考Figure 2。Figure 2(a)顯示當(dāng)LSTM為固定64個(gè)單元時(shí)，模型精度隨嵌入層單元數(shù)量的變化情況；Figure 2(b)顯示當(dāng)嵌入層為固定128個(gè)單元時(shí)，模型精度隨LSTM單元數(shù)量的變化情況；Figure 3(b)顯示當(dāng)LSTM層和嵌入層單元數(shù)量同時(shí)增長(zhǎng)時(shí)，模型精度的變化情況。

優(yōu)化器（optimizers）:Adam優(yōu)化器精度最高，為87.57%；其次是Adagrad，為87.12%;RM-Sprop,87.06%

批規(guī)模（batch size）:較小的批規(guī)模會(huì)使模型精度稍微提高，但較大的批則使模型收斂的更快。實(shí)驗(yàn)結(jié)果表明，當(dāng)批大小為64時(shí)，模型精度達(dá)到87.57%，并且相對(duì)收斂較快。

激活函數(shù)（activation）：使用sigmoid激活函數(shù)比tanh函數(shù)在準(zhǔn)確度上提高了0.5%。

從Figure2可以看出，模型精度隨著LSTM層和嵌入層單元數(shù)量增加呈現(xiàn)增長(zhǎng)趨勢(shì)，但是關(guān)于參數(shù)如何選擇仍然是一個(gè)開放問題。但Figure2表明，隨著參數(shù)變化，模型精度在一個(gè)較小的區(qū)間浮動(dòng)，變化總體相對(duì)較小。另外，使用規(guī)模較小的網(wǎng)絡(luò)在訓(xùn)練時(shí)間和內(nèi)存限制上存在優(yōu)勢(shì)。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

利用詞嵌入和長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)的行動(dòng)性和政治性文本分類（論文讀書筆記）

利用詞嵌入和長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)的行動(dòng)性和政治性文本分類（論文讀書筆記）

關(guān)鍵詞

目標(biāo)問題

論文主要貢獻(xiàn)

方法與模型

預(yù)處理

神經(jīng)網(wǎng)絡(luò)架構(gòu)

實(shí)驗(yàn)一：可行動(dòng)性預(yù)測(cè)

數(shù)據(jù)集

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)二：政治傾向預(yù)測(cè)

數(shù)據(jù)集

訓(xùn)練與評(píng)估

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

利用詞嵌入和長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)的行動(dòng)性和政治性文本分類（論文讀書筆記）

關(guān)鍵詞

目標(biāo)問題

論文主要貢獻(xiàn)

方法與模型

預(yù)處理

神經(jīng)網(wǎng)絡(luò)架構(gòu)

實(shí)驗(yàn)一：可行動(dòng)性預(yù)測(cè)

數(shù)據(jù)集

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)二：政治傾向預(yù)測(cè)

數(shù)據(jù)集

訓(xùn)練與評(píng)估

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频