Word2vec詞嵌入

Word2vec

word2vector,顧名思義,就是將語料庫中的詞轉(zhuǎn)化成向量,以便后續(xù)在詞向量的基礎(chǔ)上進行各種計算。

我們以詞為單位掃描這句話,每掃描到一個詞,都把該詞左右各2個詞(窗口尺寸)共4個詞拿出來,分別與被掃描的單詞組成單詞對,作為我們的訓(xùn)練數(shù)據(jù)。

基本思想是首先將所有詞語進行one-hot編碼,輸入只有一個隱藏層的神經(jīng)網(wǎng)絡(luò),定義好loss后進行訓(xùn)練,后面我們會講解如何定義loss,這里暫時按下不表。訓(xùn)練完成后,我們就可以用隱藏層的權(quán)重來作為詞的向量表示??!

隱藏層的神經(jīng)元個數(shù),取決于我們希望得到的詞向量是多少維,有多少個隱藏神經(jīng)元詞向量就是多少維。網(wǎng)絡(luò)的輸入是one-hot編碼的單詞,它與隱藏層權(quán)重矩陣相乘實際上是取權(quán)重矩陣特定的行。這意味著,隱藏層實際上相當(dāng)于是一個查找表,它的輸出就是輸入的單詞的詞向量。

輸出層的神經(jīng)元數(shù)量和語料庫中的單詞數(shù)量一樣。每一個神經(jīng)元可以認(rèn)為對應(yīng)一個單詞的輸出權(quán)重,詞向量乘以該輸出權(quán)重就得到一個數(shù),該數(shù)字代表了輸出神經(jīng)元對應(yīng)的單詞出現(xiàn)在輸入單詞周圍的可能性大小,通過對所有的輸出層神經(jīng)元的輸出進行softmax操作,我們就把輸出層的輸出規(guī)整為一個概率分布了。
這里有一點需要注意,我們說輸出的是該單詞出現(xiàn)在輸入單詞周圍的概率大小,這個“周圍”包含單詞的前面,也包含單詞的后面。

神經(jīng)網(wǎng)絡(luò)訓(xùn)練,大體有如下幾個步驟:

準(zhǔn)備好data,即X和Y
定義好網(wǎng)絡(luò)結(jié)構(gòu)
定義好loss
選擇合適的優(yōu)化器
進行迭代訓(xùn)練
存儲訓(xùn)練好的網(wǎng)絡(luò)

對高頻詞進行抽樣

下采樣subsampling,具體意思是:
當(dāng)我們掃描文本中的詞時,會根據(jù)一定的概率刪除這個詞,也就是相當(dāng)于文本中此處沒有了這個詞。這個概率大小取決于該詞在整個語料庫中的出現(xiàn)頻率。出現(xiàn)頻率越高,那么我們刪除該詞的概率就越大。


1.PNG

這個很容易理解,以上面的the為例,由于它在整個語料庫中出現(xiàn)的頻率很高,我們就會刪除相當(dāng)一部分的the,以便減少訓(xùn)練量。。

負(fù)采樣

在我們的例子中,我們看到其他應(yīng)當(dāng)為0的維度有7個,在實際工作中,這個維度的數(shù)量是非常大的,因為我們的詞表一般會很大。
所謂負(fù)抽樣,即是從這些應(yīng)當(dāng)為0的維度中隨機抽取幾個,只更新這幾個維度對應(yīng)的神經(jīng)元的權(quán)重,這既是負(fù)抽樣的確切含義。當(dāng)然,同時還要加上輸出應(yīng)當(dāng)為1的維度所對應(yīng)的神經(jīng)元。
具體負(fù)抽樣時抽幾個維度的神經(jīng)元,取決于具體的問題,google的論文中建議是5到20個。

用一個例子來具體感受一下。假設(shè)我們負(fù)抽樣的維度數(shù)為5,我們的詞表中有10000個單詞,詞向量的維度為300,也即是隱藏層有300個神經(jīng)元。
那么,在輸出層,權(quán)重矩陣的大小將是30010000?,F(xiàn)在我們抽取了5個負(fù)的維度(輸出應(yīng)當(dāng)為0的維度),加上輸出為1的維度,只更新這6個維度所對應(yīng)的神經(jīng)元。那么需要更新的權(quán)重系數(shù)是3006=1800個。這只占輸出層中所有權(quán)重系數(shù)的0.06%!!
在抽取這5個維度時,是按照單詞在語料庫中出現(xiàn)的次數(shù)多少來的, 出現(xiàn)次數(shù)越多,那么越可能被抽中。

2.PNG

區(qū)別

不同點:構(gòu)建目標(biāo)函數(shù)的方式不同。
CBOW: 根據(jù)詞語上下文預(yù)測中心詞
Skip-gram: 根據(jù)中心詞預(yù)測上下文
共同點:以小窗粒度捕獲詞語與上下文的聯(lián)系,然后滑動小窗,在整個語料上捕獲聯(lián)系。
制定目標(biāo)函數(shù),量化這種聯(lián)系,最優(yōu)化,從而求得每個詞的向量。

word embedding

通過訓(xùn)練,將每個詞都映射到一個較短的詞向量上來
Word Embedding 是NLP中一組語言模型和特征學(xué)習(xí)技術(shù)的總稱,把詞匯表中的單詞或者短語映射成由實數(shù)構(gòu)成的向量上(映射)。
我們將king這個詞從一個可能非常稀疏的向量坐在的空間,映射到現(xiàn)在這個四維向量所在的空間,必須滿足以下性質(zhì):
(1)這個映射是單設(shè)(不懂的概念自行搜索);
(2)映射之后的向量不會丟失之前的那種向量所含的信息。
這個過程稱為word embedding(詞嵌入),即將高維詞向量嵌入到一個低維空間。

詞的表示

詞的表示分為獨熱表示one-hot、分布式表示distributed。

獨熱表示one-hot
1、向量的維度會隨著句子的詞的數(shù)量類型增大而增大;2、任意兩個詞之間都是孤立的,根本無法表示出在語義層面上詞語詞之間的相關(guān)信息,而這一點是致命的。

分布式表示distributed representation
根據(jù)建模的不同,主要可以分為三類:基于矩陣的分布表示、基于聚類的分布表示和基于神經(jīng)網(wǎng)絡(luò)的分布表示(即word embedding)。
基于神經(jīng)網(wǎng)絡(luò)的分布表示一般稱為詞向量、詞嵌入(word embedding)或分布式表示(distributed representation)

語言模型

語言模型包括文法語言模型和統(tǒng)計語言模型。一般我們指的是統(tǒng)計語言模型。
簡單來說,就是衡量一個句子是否符合人說出來的自然句子的概率(或者置信度)。

常見的統(tǒng)計語言模型有N元文法模型(N-gram Model),最常見的是unigram model、bigram model、trigram model等等。

統(tǒng)計語言模型: 統(tǒng)計語言模型把語言(詞的序列)看作一個隨機事件,并賦予相應(yīng)的概率來描述其屬于某種語言集合的可能性。給定一個詞匯集合 V,對于一個由 V 中的詞構(gòu)成的序列S = ?w1, · · · , wT ? ∈ Vn,統(tǒng)計語言模型賦予這個序列一個概率P(S),來衡量S 符合自然語言的語法和語義規(guī)則的置信度。

機器學(xué)習(xí)必須熟悉的算法之word2vector(一)
http://www.lxweimin.com/p/1405932293ea
機器學(xué)習(xí)必須熟悉的算法之word2vector(一)
http://www.lxweimin.com/p/d0e2d00fb4f0
通俗理解word2vec
http://www.lxweimin.com/p/471d9bfbd72f
詞嵌入來龍去脈 word embedding、word2vec
https://blog.csdn.net/u012052268/article/details/77170517
Word Embedding&word2vec
http://www.lxweimin.com/p/af8f20fe7dd3
詞嵌入算法
https://blog.csdn.net/lilong117194/article/details/82085172
自然語言處理:問答語料生成詞匯表,詞轉(zhuǎn)向量(三)
https://blog.csdn.net/Xin_101/article/details/87359705
機器翻譯質(zhì)量評測算法-BLEU
https://blog.csdn.net/wwj_748/article/details/79686042

【聊天機器人】
利用tensorflow制作一個簡單的聊天機器人
https://blog.csdn.net/a18852867035/article/details/53816030

  1. 基于檢索的模型 vs. 產(chǎn)生式模型
    https://www.cnblogs.com/LittleHann/p/6426610.html
    bert代碼解讀4----中文命名實體識別
    http://www.lxweimin.com/writer#/notebooks/29448373/notes/45067149
    BERT+BiLSTM-CRF-NER用于做ner識別
    https://blog.csdn.net/qqywm/article/details/85569885
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,923評論 6 535
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,740評論 3 420
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,856評論 0 380
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,175評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 71,931評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,321評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,383評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,533評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,082評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 40,891評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,618評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 44,319評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,732評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,987評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,794評論 3 394
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 48,076評論 2 375