關于 Transformer 和注意力機制提出的 101 個高級思考問題可以查看 Gitee Transformer101Q
標簽:Transformer,注意力機制,Attention機制,Transfomer課程,Transformer架構,Transformer模型,對話機器人,NLP課程,NLP,自然語言處理,知識圖譜,命名實體識別
《NLP on Transformers 101》培訓課程
One Architecture, One Course,One Universe
第1章: 貝葉斯理論下的Transformer揭秘
1,基于Bayesian Theory,融Hard Attention、Soft Attention、Self-Attention、Multi-head Attention于一身的Transformer架構
2,為什么說拋棄了傳統模型(例如RNN、 LSTM、CNN等)的Transformer拉開了非序列化模型時代的序幕?
3,為什么說Transformer是預訓練領域底層通用引擎?
4,Transformer的Input-Encoder-Decoder-Output模型組建逐一剖析
5,Transformer中Encoder-Decoder模型進行Training時候處理Data的全生命周期七大步驟揭秘
6,Transformer中Encoder-Decoder模型進行Inference時候處理Data的全生命周期六大步驟詳解
7,Teacher Forcing數學原理及在Transformer中的應用
8,窮根溯源:為何Scaled Dot-Product Attention是有效的?
9,透視Scaled Dot-Product Attention數據流全生命周期
10,窮根溯源:Queries、Keys、Values背后的Trainable矩陣揭秘
11,當Transformer架構遇到Bayesian理論:multi-head attention
12,End-to-end Multi-head attention的三種不同實現方式分析
13,透視Multi-head attention全生命周期數據流
14,Transformer的Feed-Forward Networks的兩種實現方式:Linear Transformations和Convolutions
15,Embeddings和Softmax參數共享剖析
16,Positional Encoding及Positional Embedding解析
17,Sequence Masking和Padding Masking解析
18,Normal distribution、Layer Normalization和Batch Normalization解析
19,Transformer的Optimization Algorithms數學原理、運行流程和最佳實踐
20,Learning rate剖析及最佳實踐
21,從Bayesian視角剖析Transformer中的Dropout及最佳實踐
22,Label Smoothing數學原理和工程實踐解析
23,Transformer背后的驅動力探討
第2章: 通過30+個細分模塊完整實現Transformer論文源碼及項目調試
1,Transformer源碼訓練及預測整體效果展示
2,模型訓練model_training.py代碼完整實現
3,數據預處理data_preprocess.py代碼完整實現
4,Input端Embeddings源碼完整實現
5,Attention機制attention.py代碼完整實現
6,Multi-head Attention機制multi_head_attention.py代碼完整實現
7,Position-wise Feed-forward源碼完整實現
8,Masking 在Encoder和Decoder端的源碼完整實現0
9,SublayerConnection源碼完整實現
10,Encoder Layer源碼完整實現
11,LayerNormalization源碼完整實現
12,DecoderLayer源碼完整實現
13,Encoder Stack源碼完整實現
14,Decoder Stack源碼完整實現
15,由Memory鏈接起來的EncoderDecoder Module源碼完整實現
16,Batch操作完整源碼實現
16,Optimization源碼完整實現
17,Loss計算數學原理及完整源碼實現
18,Output端Generator源碼完整實現
19,Transformer模型初始化源碼及內幕揭秘
20, Label Smoothing源碼完整實現
21,Training源碼完整實現
22,Greedy Decoding源碼及內幕解析
23,Tokenizer源碼及調試
24,Multi-GPU訓練完整源碼
27,使用自己實現的Transformer完成分類任務及調試
28,Transformer翻譯任務代碼完整實現及調試
29,BPE解析及源碼實現
30,Shared Embeddings解析及源碼實現
31,Beam Search解析及源碼實現
32,可視化Attention源碼實現及剖析
第3章: 細說Language Model內幕及Transformer XL源碼實現
1,人工智能中最重要的公式之一MLE數學本質剖析及代碼實戰
2,Language Model的數學原理、Chain Rule剖析及Sparsity問題
3,Markov Assumption:first order、second order、third order剖析
4,Language Model:unigram及其問題剖析、bigram及依賴順序、n-gram
5,使用Unigram訓練一個Language Model剖析及實踐
6,使用Bigram訓練一個Language Model剖析及實踐
7,使用N-gram訓練一個Language Model剖析及實踐
8,拼寫糾錯案例實戰:基于簡化后的Naive Bayes的糾錯算法詳解及源碼實現
9,使用基于Average Log Likelihood的PPL(Perplexity)來評估Language Model
10,Laplace Smoothing剖析及基于PPL挑選最優化K的具體方法分析
11,Interpolation Smoothing實現解析:加權平均不同的N-gram概率
12,Good-Turning Smoothing算法解析
13,Vallina Transformer language model處理長文本架構解析
14, Vallina Transformer Training Losses:Multiple Postions Loss、Intermediate Layer Losses、Multiple Targets Losses
15,Vallina Transformer的三大核心問題:Segment上下文斷裂、位置難以區分、預測效率低下
16,Transformer XL:Attentive Language Models Beyond a Fixed-Length Context
17,Segment-level Recurrence with State Reuse數學原理及實現分析
18,Relative Positional Encoding算法解析
19,Transformer XL 中降低矩陣運算復雜度的Trick解析
20,緩存機制在語言模型中的使用思考
21,Transformer XL之數據預處理完整源碼實現及調試
22,Transformer XL之MemoryTransformerLM完整源碼實現及調試
23,Transformer XL之PartialLearnableMultiHeadAttention源碼實現及調試
24,Transformer XL之PartialLearnableDecoderLayer源碼實現及調試
25,Transformer XL之AdaptiveEmbedding源碼實現及調試
26,Transformer XL之相對位置編碼PositionalEncoding源碼實現及調試
27,Transformer XL之Adaptive Softmax解析及源碼完整實現
28,Transformer XL之Training完整源碼實現及調試
29,Transformer XL之Memory更新、讀取、維護揭秘
30,Transformer XL之Unit單元測試
31,Transformer XL案例調試及可視化
第4章: Autoregressive Language Models之GPT-1、2、3解析及GPT源碼實現
1,Task-aware的人工智能Language model + Pre-training + Fine-tuning時代
2,Decoder-Only Stack數學原理及架構解析
3,訓練材料標注:neutral、contradiction、entailment、multi-label、QA等
4,NLP(Natural Language Understanding):Semantic similarity、document classification、textual entailment等
5,大規模Unsupervised pre-training貝葉斯數學原理及架構剖析
6,Task-specific Supervised fine-tuning的Softmax及Loss詳解
7,針對Classification、Entailment、Similarity、Mutiple Choice特定任務的Input數據預處理解析及矩陣緯度變化處理
8,GPT2架構解析:Language Models for unsupervised multitask learners
9,GPT 2把Layer Norm前置的數據原理剖析
10,GPT 2 Self-Attention剖析
11,GPT 2 Training數據流動全生命周期解析
12,GPT 2 Inference數據流動全生命周期解析
13,GPT 3 架構剖析:Language Models are Few-Shot Learners
14,由GPT 3引發的NLP12大規律總結
15,GPT數據預處理源碼完整實現及調試
16,GPT的BPE實現源碼及調試
17,GPT的TextEncoder源碼實現及調試
18,GPT的Attention完整源碼實現及調試
19,GPT的Layer Normalization完整源碼實現及調試
20,GPT的Feed Foward神經網絡通過Convolutions源碼實現
21,GPT的Block源碼完整實現及調試
22,GPT的TransformerModel源碼完整實現及調試
23,GPT的輸入LMHead源碼完整實現及調試
24,GPT的MultipleChoiceHead源碼完整實現及調試
25,GPT的語言模型及特定Task的DoubleHeadModel源碼完整實現
26,GPT的OpenAIAdam優化器源碼及調試
27,GPT的LanguageModel loss源碼及調試
28,GPT的MultipleChoiceLoss源碼及調試
29,OpenAI GPT的Pretrained Model的加載使用
30,GPT模型Task-specific訓練完整源碼及調試
31,GPT進行Inference完整源碼實現及代碼調試
第5章: Autoencoding Language Models數學原理及模型架構解析
1,Auto-encoding Language Models通用數學原理詳解
2,為何要放棄采用Feature-Based語言模型ELMo而使用Fine-tuning模型?
3,雙向語言模型:both left-to-right and right-to-left不同實現及數學原理解析
4,深度雙向語言模型背后的數學原理及物理機制
5,Unsupervised Fine-tuning訓練模型架構及數學原理解析
6,Transfer Learning數學原理及工程實現詳解
7,MLM(Masked Language Models)數學原理及工程架構解析
8,MLM問題解析及解決方案分析
9,Pre-training + Fine-tuning的BERT分層架構體系及組件解析
10,BERT的三層復合Embeddings解析
11,BERT不同模塊的參數復雜度分析
12,BERT在進行Masking操作中采用10%隨機選取詞庫的內容進行替換masked位置的內容的數學原理剖析
13,BERT在進行Masking操作中采用10%的內容維持不變的數學原理揭秘
14,BERT的Masking機制五大缺陷及其解決方案分析
15,BERT的Masking機制在Data Enchancement方面的妙用
16,BERT的Masking機制在處理智能對話系統中不規范用語甚至是錯誤語法及用詞的妙用
17,BERT的NSP(Next Sentence Prediction)機制及其實現
18,BERT的NSP三大問題及解決方案剖析
19,BERT的CLS剖析及工程實現
20,BERT的CLS三個核心問題及解決方案
21,Knowledge Distillation for BERT數學原理貝葉斯及KL散度解析及案例實戰
22,使用BERT進行Classification架構及案例實戰
23,使用BERT進行NER(Named Entity Recognition)架構及案例實戰
24,使用BERT實現文本Similarity任務的架構及案例實戰
25,使用BERT實現Question-Answering任務的架構及案例實戰
26,ALBERT模型架構解析
27,RoBERTa模型架構解析
28,SpanBERT模型架構解析
29,TinyBERT模型架構解析
30,Sentence-BERT模型架構解析
31,FiBERT模型架構解析
32,K-BERT模型架構解析
33,KG-BERT模型架構解析
第6章: BERT Pre-training模型源碼完整實現、測試、調試及可視化分析
1,詞典Vocabulary庫構建多層級源碼實現及測試
2,Dataset加載及數據處理源碼完整實現及測試和調試
3,Next Sentence Prediction機制源碼完整實現及測試
4,Masked Language Model機制中80%詞匯Masking源碼實現
5,Masked Language Model機制中10%詞匯隨機替換和10%詞匯保持不變源碼實現
6,Masked Language Model機制下的Output Label操作源碼實現
7,加入CLS、SEP 等Tokens
8,Segment Embeddings源碼實現
9,Padding源碼實現及測試
10,使用DataLoader實現Batch加載
11,BERT的初始化init及forward方法源碼實現
12,PositionalEmbeddings源碼實現詳解
13,TokenEmbeddings源碼
14,SegmentEmbeddings源碼
15,BERTEmbeddings層源碼實現及調試
16,基于Embeddings之多Linear Transformation操作
17,Queries、Keys、Values操作源碼
18,Attention機制源碼實現
19,Multi-head Attention源碼實現
20,Layer Normalization數學原理及源碼實現
21,Sublayer Connection源碼實現
22,Position-wise Feedforward層源碼實現
23,Dropout數學機制及源碼實現
24,基于Embeddings之上的Linear Transformation及其不同源碼實現方式
25,TransformerBlock源碼完整實現及測試
26,BERT模型訓練時候多二分類和多分類別任務數學原理和實現機制
26,BERT Training Task之MLM源碼完整實現及測試
27,BERT Training Task之NSP源碼完整實現及測試
28,Negative Sampling數學原理及實現源碼
29,MLM和NSP的Loss計算源碼實現
30,BERT模型的訓練源碼實現及測試
31,使用小文本訓練BERT模型源碼、測試和調試
32,使用特定領域的(例如醫療、金融等)來對BERT進行Pre-training最佳實踐
33,BERT加速訓練技巧:動態調整Attention的Token能夠Attending的長度
34,BERT可視化分析
第7章: BERT Fine-tuning源碼完整實現、調試及案例實戰
1,數據預處理訓練集、測試集源碼
2,文本中的Token、Mask、Padding的預處理源碼
3,數據的Batch處理實現源碼及測試
4,加載Pre-training模型的BertModel及BertTokenizer
5,模型Config配置
6,Model源碼實現、測試、調試
7,BERT Model微調的數學原理及工程實踐
8,BERT Model參數Frozen數學原理及工程實踐
9,BertAdam數學原理及源碼剖析
10,訓練train方法源碼詳解
11,fully-connected neural network層源碼詳解及調試
12,采用Cross-Entropy Loss Function數學原理及代碼實現
13,Evaluation 指標解析及源碼實現
14,Classification任務下的Token設置及計算技巧
15,適配特定任務的Tokenization解析
16,BERT + ESIM(Enhanced Sequential Inference Model)強化BERT模型
17,使用BERT + LSTM整合強化BERT 模型
18,基于Movie數據的BERT Fine-tuning案例完整代碼實現、測試及調試
第8章: 輕量級ALBERT模型剖析及BERT變種中常見模型優化方式詳解
1,從數學原理和工程實踐的角度闡述BERT中應該設置Hidden Layer的維度高于(甚至是高幾個數量級)Word Embeddings的維度背后的原因
2,從數學的角度剖析Neural Networks參數共享的內幕機制及物理意義
3,從數學的角度剖析Neural Networks進行Factorization的機制及物理意義
4,使用Inter-sentence coherence任務進行模型訓練的的數學原理剖析
5,上下文相關的Hidden Layer Embeddings
6,上下午無關或不完全相關的Word Embeddings
7,ALBERT中的Factorized embedding parameterization剖析
8,ALBERT中的Cross-Layer parameter sharing機制:只共享Attention參數
9,ALBERT中的Cross-Layer parameter sharing機制:只共享FFN參數
10,ALBERT中的Cross-Layer parameter sharing機制:共享所有的參數
11,ALBERT不同Layers的Input和Output相似度分析
12,訓練Task的復雜度:分離主題預測和連貫性預測的數學原因及工程實踐
13,ALBERT中的不同于BERT的 Sentence Negative Sampling
14,句子關系預測的有效行分析及問題的底層根源
15,ALBERT的SOP(Sentence Order Prediction)實現分析及工程實踐
16,ALBERT采用比BERT更長的注意力長度進行實際的訓練
17,N-gram Masking LM數學原理和ALERT對其實現分析
18,采用Quantization優化技術的Q8BERT模型架構解析
19,采用Truncation優化技術的“Are Sixteen Heads Really Better than One?”模型架構解析
20,采用Knowledge Distillation優化技術的distillBERT模型架構解析
21,采用多層Loss計算+知識蒸餾技術的TinyBERT模型架構解析
22,由輕量級BERT帶來的關于Transformer網絡架構及實現的7點啟示
第9章: ALBERT Pre-training模型及Fine-tuning源碼完整實現、案例及調試
1,Corpus數據分析
2,Pre-training參數設置分析
3,BasicTokenizer源碼實現
4,WordpieceTokenizer源碼實現
5,ALBERT的Tokenization完整實現源碼
6,加入特殊Tokens CLS和SEP
7,采用N-gram的Masking機制源碼完整實現及測試
8,Padding操作源碼
9,Sentence-Pair數據預處理源碼實現
10,動態Token Length實現源碼
11,SOP正負樣本源碼實現
12,采用了Factorization的Embeddings源碼實現
13,共享參數Attention源碼實現
14,共享參數Multi-head Attention源碼實現
15,LayerNorm源碼實現
16,共享參數Position-wise FFN源碼實現
17,采用GELU作為激活函數分析
18,Transformer源碼完整實現
19,Output端Classification和N-gram Masking機制的Loss計算源碼
20,使用Adam進行優化源碼實現
21,訓練器Trainer完整源碼實現及調試
22,Fine-tuning參數設置、模型加載
23,基于IMDB影視數據的預處理源碼
24,Fine-tuning階段Input Embeddings實現源碼
25,ALBERT Sequence Classification參數結構總結
26,Fine-tuning 訓練代碼完整實現及調試
27,Evaluation代碼實現
28,對Movie數據的分類測試及調試
第10章: 明星級輕量級高效Transformer模型ELECTRA: 采用Generator-Discriminator的Text Encoders解析及ELECTRA模型源碼完整實現
1,GAN:Generative Model和Discriminative Model架構解析
2,為什么說ELECTRA是NLP領域輕量級訓練模型明星級別的Model?
3,使用replaced token detection機制規避BERT中的MLM的眾多問題解析
4,以Generator-Discriminator實現的ELECTRA預訓練架構解析
5,ELECTRTA和GAN的在數據處理、梯度傳播等五大區別
6,ELECTRA數據訓練全生命周期數據流
7,以Discriminator實現Fine-tuning架構解析
8,ELECTRA的Generator數學機制及內部實現詳解
9,Generator的Loss數學機制及實現詳解
10,Discriminator的Loss數學機制及實現詳解
11,Generator和Discriminator共享Embeddings數據原理解析
12,Discriminator網絡要大于Generator網絡數學原理及工程架構
13,Two-Stage Training和GAN-style Training實驗及效果比較
14,ELECTRA數據預處理源碼實現及測試
15,Tokenization源碼完整實現及測試
16,Embeddings源碼實現
17,Attention源碼實現
18,借助Bert Model實現Transformer通用部分源碼完整實現
19,ELECTRA Generator源碼實現
20,ELECTRA Discriminator源碼實現
21,Generator和Discriminator相結合源碼實現及測試
22,pre-training訓練過程源碼完整實現
23,pre-training數據全流程調試分析
24,聚集于Discriminator的ELECTRA的fine-tuning源碼完整實現
25,fine-tuning數據流調試解析
26,ELECTRA引發Streaming Computations在Transformer中的應用思考