探秘Word2Vec(三)-詞向量的理解

在NLP任務(wù)中,我們將自然語(yǔ)言交給機(jī)器學(xué)習(xí)算法來(lái)處理,但機(jī)器無(wú)法直接理解人類的語(yǔ)言,因此首先的任務(wù)就是將語(yǔ)言數(shù)學(xué)化,如何對(duì)自然語(yǔ)言進(jìn)行數(shù)學(xué)化呢?詞向量提供了一種很好的形式。這里我們介紹兩種簡(jiǎn)單的詞向量

1、one-hot representation

一種最簡(jiǎn)單的詞向量就是one-hot representation,就是用一個(gè)很長(zhǎng)的向量來(lái)表示一個(gè)詞,向量的長(zhǎng)度為辭典D的大小N,向量的分量只有一個(gè)1,其他全部是0,1的位置對(duì)應(yīng)蓋茨在辭典中的索引,但這種詞向量有一些缺點(diǎn),容易受到維數(shù)災(zāi)難的困擾,同時(shí),他不能很好的刻畫詞與詞之間的相關(guān)性。

2、Distributed representation

另一種詞向量是Distributed representation,其基本思想是:通過(guò)訓(xùn)練某種語(yǔ)言的每一個(gè)詞映射成一個(gè)固定長(zhǎng)度的短向量,所有這些向量構(gòu)成一個(gè)詞向量空間,而每個(gè)向量視為這個(gè)空間中的一個(gè)點(diǎn),那么,可以在這個(gè)空間中引入距離的概念,比如余弦距離,用以刻畫詞之間的相關(guān)性。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容