
本篇解讀DPOTrainer[https://github.com/huggingface/trl/blob/main/trl/trainer/...
PPO(Proximal Policy Optimization)是rlhf經典算法,RLOO (REINFORCE Leave One-Out...
獎勵模型(reward model)是強化學習的基礎,如果說pretrain是背書的話,sft就是背題,而rlhf則可以看作是有老師批改作業的學...
TRL[https://github.com/huggingface/trl/tree/main]是一個專門用于訓練Transformer模型的...
這是我之前發布在個人公眾號廝殺取樂上的第一篇文章,因為一開始調子起得太高,導致我后面想繼續更,卻有點力不從心,所以公眾號就一直處于停更狀態(在朋...
一、前言 Bert源碼解讀完了,具體怎么用于自己的項目呢?在Bert系列(四)——源碼解讀之Fine-tune中,我說只要修改兩個地方。 重要的...
這是我們源碼解讀的最后一個部分了。fine-tune搞明白之后推斷也就沒必要再分析了,反正形式都是一樣的,重要的是明白根據不同任務調整輸入格式和...
pre-train是遷移學習的基礎,雖然Google已經發布了各種預訓練好的模型,而且因為資源消耗巨大,自己再預訓練也不現實(在Google C...
本篇文章主要是解讀模型主體代碼modeling.py。在閱讀這篇文章之前希望讀者們對bert的相關理論有一定的了解,尤其是transformer...