總體結構:
CBOW & Skip-gram
Skip-gram模型的目標函數是最大化:
Skip-gram目標函數
對于Skip-gram,更大的context window 可以生成更多的訓練樣本,獲得更精確的表達,但訓練時間更長。
Softmax表示
Trick:
1).Hierarchical Softmax
The main advantage is that instead of evaluating W output nodes in the neural network to obtain the probability distribution, it is needed to evaluate only about log2(W) nodes.
簡而言之,構造了一顆二叉樹,減少運算量
2).Negative Sampling
Sorry, I can't understand
3).Subsampling of Frequent Words
以概率:
discarsion p
拋棄單詞,其中f是詞頻,t是閾值,通常為10^-5。