Adversarial Multi-task Learning for Text Classification

論文 : Adversarial Multi-task Learning for Text Classification

最近決定每周讀一篇GAN的論文。一方面,提升自己的閱讀理解能力。另一方面,拓展自己的思路。作為GAN的初學(xué)者,有很多表述不當(dāng)?shù)牡胤綒g迎大家批評(píng)指正!

標(biāo)題:對(duì)抗多任務(wù)學(xué)習(xí)用于文本分類。所謂多任務(wù)學(xué)習(xí)(MTL)就是指學(xué)習(xí)某一類任務(wù)的通用知識(shí)(focus on learning the shared layers to extract the common and task-invariant features)。比如學(xué)習(xí)AlexNet,VGG的卷積部分(不含全連接層)。這樣學(xué)習(xí)出來(lái)的卷積特征通常表示一些通用的特征表示(類似于SIFT,HOG)。而利用全連接層,就可以學(xué)的一些可以針對(duì)某個(gè)具體任務(wù)的特征,比如分類,分割,檢測(cè)等。詳細(xì)可以看這篇關(guān)于多任務(wù)學(xué)習(xí)文章。

Abstract

作者提出利用GAN進(jìn)行多任務(wù)學(xué)習(xí),可以緩解多任務(wù)學(xué)習(xí)中學(xué)習(xí)的shared knowledge存在task-specific features問(wèn)題。

Introduction

作者為解決目前多任務(wù)學(xué)習(xí)中存在的問(wèn)題,設(shè)計(jì)了一個(gè)shared-private learning framework. 其主要關(guān)鍵點(diǎn)就是引入了對(duì)抗訓(xùn)練以及正交約束,這樣可以阻止 shared and private latent features from interfering with each other。說(shuō)白了,作者就是要將task-specific features 以及 task-dependent features分開(kāi)來(lái),示意圖如下:

Shared-Private Model示意圖

舉個(gè)栗子,通用的shared-private model存在下面的問(wèn)題:

文本分類任務(wù)存在的問(wèn)題舉例

第一句話的infantile是一個(gè)中性詞,但是第二句是貶義詞。顯然,這是一個(gè)task-specific feature, 但是,目前的模型卻會(huì)把他們放到shared space,這樣就會(huì)導(dǎo)致shared space 中的特征冗余。為了解決這個(gè)問(wèn)題,作者提出的框架引入了正交約束,使得shared-privete space 天生就是分離的。

作者提出的框架具有兩個(gè)關(guān)鍵點(diǎn):

  • 對(duì)抗訓(xùn)練:使得shared features space 僅僅包含通用的特征。
  • 正交約束:從private and shared space中消除冗余約束。

作者本文的工作有以下三點(diǎn):

  • 提出了一種更精確的劃分task-specific features 以及 shared space 的方法,而不是以前那種通過(guò)shared parameters來(lái)粗糙的劃分。
  • 對(duì)于多類問(wèn)題,拓展了以前的二值GAN,不僅使得多任務(wù)可以聯(lián)合訓(xùn)練,而且還可以利用未標(biāo)記的數(shù)據(jù)。
  • 將shared knowledge 濃縮到現(xiàn)成的layer中,使其可以很容易的遷移到新任務(wù)中。

LSTM用于文本分類

LSTM可以表示為下式:

LSTM計(jì)算公式

對(duì)于分類問(wèn)題,給定一個(gè)詞序列,首先要學(xué)得每一個(gè)詞的向量表示(即詞嵌入,所謂詞嵌入,是學(xué)得序列的一個(gè)向量表示,ont-encoding就是一種表示,但這樣通常維度很高,詞嵌入通常有一個(gè)降維過(guò)程,word2vec就是一種詞嵌入方法),經(jīng)過(guò)LSTM之后,其最后一個(gè)時(shí)刻的輸出h作為整個(gè)序列的特征表示,而后跟上一個(gè)softmax非線性層預(yù)測(cè)每一類的概率。


網(wǎng)絡(luò)的優(yōu)化目標(biāo)是交叉熵?fù)p失。

Multi-task Learning for TextClassification

多任務(wù)學(xué)習(xí)的關(guān)鍵就是在潛在的特征空間共享方案。共享方案通常有兩種:

  • Fully-Shared Model (FS-MTL) :這種模型忽略了task-dependent特性
  • Shared-Private Model (SP-MTL) :這種模型對(duì)每個(gè)任務(wù)都引入了shared space 和 private space。分別用LSTM學(xué)得,并級(jí)聯(lián)。

示意圖如下:



上圖其實(shí)表示的就是多任務(wù)學(xué)習(xí)的兩種網(wǎng)絡(luò)框架,上述網(wǎng)絡(luò)的優(yōu)化目標(biāo)如下(alpha為各個(gè)任務(wù)的權(quán)重因子,L表示交叉熵?fù)p失):


損失函數(shù)

Incorporating Adversarial Training

作者將shared space學(xué)得的特征丟到判別器中,最大化判別器的損失,以達(dá)到對(duì)抗訓(xùn)練的目的。損失函數(shù)如下(d表示任務(wù)的類型):


對(duì)于一個(gè)sentence,LSTM生成一個(gè)特征表示誤導(dǎo)判別器,與此同時(shí),判別器嘗試盡可能減小判別誤差。此外,從上面的公式可以看出,訓(xùn)練過(guò)程并未用到樣本的label,所以可以將這個(gè)引入無(wú)監(jiān)督學(xué)習(xí)以解決相關(guān)問(wèn)題。

可以看出,上述模型還存在一個(gè)問(wèn)題,那就是對(duì)抗訓(xùn)練只能保證task-dependent features 不進(jìn)入shared space,但是task-invariant features還是會(huì)進(jìn)入private space。因此,作者受他人工作啟發(fā),引入正交約束,對(duì)代價(jià)函數(shù)進(jìn)行懲罰,使LSTM盡量從不同層面提取特征。懲罰函數(shù)如下:

懲罰函數(shù)

總結(jié)起來(lái),最終代價(jià)函數(shù)如下(lambda和gama為超參數(shù),即各個(gè)loss的權(quán)重比例):


最終代價(jià)函數(shù)

網(wǎng)絡(luò)利用反向傳播進(jìn)行訓(xùn)練,對(duì)抗網(wǎng)絡(luò)的訓(xùn)練可以用gradient reverse layer。整體網(wǎng)絡(luò)框架如下:


作者提出的網(wǎng)絡(luò)框架

Experiment

效果不錯(cuò),就不講啦。

作者本文的兩大關(guān)鍵點(diǎn)就是:對(duì)抗訓(xùn)練,正交約束。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容