What
中文分詞系統(tǒng)
Why
已有的分詞系統(tǒng)都是建立在character-based sequence labeling基礎(chǔ)上的,只有窗口內(nèi)的信息和相鄰tags的interaction會(huì)被考慮到。
而該系統(tǒng)utilize complete segmentation history且沒有窗口的限制了。
How
綜述:1. 利用gated combination neural network over characters生成候選的分詞方法。2. 再用LSTM language scoring model給其評(píng)分。
首先介紹評(píng)分系統(tǒng):
character embedding, 給每個(gè)漢字一個(gè)字向量(字向量經(jīng)訓(xùn)練效果會(huì)更好)
-
用gated combination neural network的方法把字向量轉(zhuǎn)變?yōu)樵~向量
r:reset gates z:update gates
圖中,w為詞向量,c1...cL是字向量。其余為帶訓(xùn)練的參數(shù)。該方法可有效capture漢字和漢字之間的交互關(guān)系。
-
用word score給每個(gè)獲得的詞向量打分。
yi: 詞向量 u:訓(xùn)練參數(shù),代表yi多大可能是個(gè)真實(shí)存在的詞 LSTM來為詞與詞之間的link關(guān)系打分
- 為整個(gè)句子打分:link score和word score之和
第二部分是如何獲得待評(píng)分的分詞方法
不能用維特比方法,因?yàn)樵摲椒ㄊ腔隈R爾科夫鏈的假設(shè)(只有相鄰的詞之間才有相互作用,不符合本文利用全部segmentation history的假設(shè))。
故而采用集束搜索。具體可見文中偽代碼。
最后介紹訓(xùn)練方法
定義max-margin(hinge loss)為不正確的分詞個(gè)數(shù)乘以平滑參數(shù),并以此定義l2范式形式的損失函數(shù)。
由于目標(biāo)函數(shù)不能微分,采用subgradient method訓(xùn)練。