在NLP任務(wù)中,我們將自然語(yǔ)言交給機(jī)器學(xué)習(xí)算法來(lái)處理,但機(jī)器無(wú)法直接理解人類的語(yǔ)言,因此首先的任務(wù)就是將語(yǔ)言數(shù)學(xué)化,如何對(duì)自然語(yǔ)言進(jìn)行數(shù)學(xué)化呢?詞向量提供了一種很好的形式。這里我們介紹兩種簡(jiǎn)單的詞向量
1、one-hot representation
一種最簡(jiǎn)單的詞向量就是one-hot representation,就是用一個(gè)很長(zhǎng)的向量來(lái)表示一個(gè)詞,向量的長(zhǎng)度為辭典D的大小N,向量的分量只有一個(gè)1,其他全部是0,1的位置對(duì)應(yīng)蓋茨在辭典中的索引,但這種詞向量有一些缺點(diǎn),容易受到維數(shù)災(zāi)難的困擾,同時(shí),他不能很好的刻畫詞與詞之間的相關(guān)性。
2、Distributed representation
另一種詞向量是Distributed representation,其基本思想是:通過(guò)訓(xùn)練某種語(yǔ)言的每一個(gè)詞映射成一個(gè)固定長(zhǎng)度的短向量,所有這些向量構(gòu)成一個(gè)詞向量空間,而每個(gè)向量視為這個(gè)空間中的一個(gè)點(diǎn),那么,可以在這個(gè)空間中引入距離的概念,比如余弦距離,用以刻畫詞之間的相關(guān)性。