CBOW / Skip-gram

總體結構:

CBOW & Skip-gram

Skip-gram模型的目標函數是最大化:

Skip-gram目標函數

對于Skip-gram,更大的context window 可以生成更多的訓練樣本,獲得更精確的表達,但訓練時間更長。

Softmax表示

Trick:
1).Hierarchical Softmax
The main advantage is that instead of evaluating W output nodes in the neural network to obtain the probability distribution, it is needed to evaluate only about log2(W) nodes.
簡而言之,構造了一顆二叉樹,減少運算量

2).Negative Sampling
Sorry, I can't understand

3).Subsampling of Frequent Words
以概率:


discarsion p

拋棄單詞,其中f是詞頻,t是閾值,通常為10^-5。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • 使用總結 </br> <br /> 圈塊(上面是分割線) 說明 強制換行 引用 大連海洋大學信息工程學院信息工程學...
    iCodingShow閱讀 1,163評論 1 3
  • 灑過淚,不服輸,霸氣早成,英雄我屬青春寫下我們的召喚,青春編織我們的諾言。加油!!!!
    冷妖瞳閱讀 204評論 0 0
  • 記住最后的余暉 做一場夢 花田和菜園 我都耕種 采一束玫瑰放在壟頭 努力收割秋風 磨出最鮮的稻谷 劈柴 生火 ...
    藍潭星海閱讀 266評論 0 2