會議:AAAI 2019
論文鏈接:https://gaotianyu1350.github.io/assets/aaai2019_hatt_paper.pdf
源碼鏈接:https://github.com/thunlp/HATT-Proto
1 介紹
問題現狀:使用 DS 可獲取大量數據,但其范圍比較局限,還存在稀疏數據的問題(例如,long-tail relations);現有的 FSL 模型都在 low-noise 的圖像數據集上實驗,無法處理多樣性和含有較多噪聲的文本數據。
(1)噪聲數據:支持集中很少的噪聲可以引起關系特征向量的巨大偏差(因為傳統的原型由樣本特征的簡單平均算出)
(2)稀疏特征:對于一個關系特征向量,并不是所有的維度都對最終的分類結果具有明顯的區分/決定作用。
本文方法:提出了基于混合注意力機制的原型網絡(hybrid attention-based prototypical networks),包括 instance-level attention 與 feature-level attention,分別解決上述兩個問題;該方法提高了在含有噪聲的 FSL 場景下(noisy FSL scenario)關系分類(RC)模型的性能與魯棒性,并且加快了 RC 模型的收斂。
原文相關描述如下:
Little noise in the support set may cause a huge deviation of relation features, and not all dimensions of relation features in the space are discrimiative enough to support final classification. Our hybrid attentions are specially designed to alleviate the influence of noisy data and sparse features.
- The instance-level attention module is to select more informative instances in the support set and denoise those noisy instances during training.
- The feature-level attention module can highlight important dimensions in the feature space and formulate specific distance functions for different relations, which enables our model to alleviate the problem of feature sparsity.
即 instance-level attention 傾向于選擇支持集中包含信息較多的那些實例,同時對訓練數據進行降噪處理(降低噪聲實例的權重);feature-level attention 則強調了特征空間中比較重要的那些維度,為不同的關系類型制定不同的距離函數,從而緩解了特征稀疏的問題。
2 相關工作
3 方法論
3.1 符號與定義
小樣本關系分類任務描述:給定一個關系集 R 和一個支持集 S,預測查詢樣本(query instance)x 中的實體對 (h, t) 之間的關系 r。S 的定義如下:
在小樣本學習的場景下,關系 ri 所包含的樣本數量 ni 通常較小(一般小于20)。在術語 N-way K-shot 中,N 表示一個 episode 中支持集有多少個關系,K 表示每個關系包含多少個樣本,即:
3.2 框架
3.3 HATT的實現
由于 Instance Encoder 和 Prototypical Networks 的實現比較簡單,該筆記暫時略過,下面詳細介紹 HATT 的實現步驟。
3.3.1 Instance-level Attention(IATT)
對于關系 i,其樣本數量為 ni,其原型的特征向量為 ci,j 表示第 i 個關系中第 j 個樣本(1 ≤ j ≤ ni),αj 表示第 j 個樣本的權重, xij 表示第 i 個關系中第 j 個樣本經過編碼后得到的特征向量。公式如下:
αj 由Softmax函數得到(ej 作為相應的參數);x 為 query 樣本的特征向量,g(·) 表示對 xij 和 x 進行線性變換,再進行點乘操作(element-wise production),σ(·) 為激活函數,這里選用 tanh,將點乘結果映射到 [-1, 1] 之間,sum{·} 表示對向量里的所有元素求和。詳細公式如下:
使用了 IATT 后,與 query 樣本具有更多相似特征的 support 樣本將會獲得更高的權重,最后的原型也會與這些 support 樣本更接近。
3.3.2 Feature-level Attention(FATT)
在 Euclidean 距離的基礎上,乘以一個值 zi,得到一個新的距離度量,公式如下:
對于關系 ri,對其 K 個樣本的特征向量進行 3 次卷積操作,得到 zi,具體計算流程如下圖所示:
注意,卷積時采用了 padding 策略,以此來保證最終得到的 zi 大小為 1 * dh * 1
。卷積操作的參數設置代碼如下:
4 實驗
為了表明混合注意力機制在有噪聲數據的情況下能夠讓網絡有較好的魯棒性,我們采用了 4 個級別的 noise_rate
:0、10%、30%、50%,也就是說,在訓練和測試時,support set 中正確的句子有相應噪聲率的可能性被替換成其他句子,該其他句子的 label 與原 label 不一樣即可。
# 返回一個或一組服從0~1均勻分布的隨機樣本值
prob = np.random.rand()
if prob < noise_rate:
# 替換操作
4.1 結果
4.2 IATT的影響
4.3 FATT的影響
5 未來工作
將混合注意力機制與其他 FSL 模型結合,并且使用更多的神經網絡編碼器,來讓我們的模型更具有一般性。