两男一女一床一添一摸,娇小搡bbbb搡bbbb,精品97国产免费人成视频

CS224d－Day 5: 什么是RNN

本文結(jié)構(gòu)：

1.什么是 RNN？和NN的區(qū)別？
2.RNN 能做什么？為什么要用 RNN？
3.RNN 怎么工作的？
4.RNN 基本模型存在某些問(wèn)題？
5.GRU 和 LSTM 是什么？

1.什么是 RNN？和NN的區(qū)別？

RNN－(Recurrent Neural Networks)：循環(huán)神經(jīng)網(wǎng)絡(luò)

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型，它是有向無(wú)環(huán)的，就是在隱藏層中各個(gè)神經(jīng)元之間是沒(méi)有聯(lián)系的，而實(shí)際上我們的大腦并不是這樣運(yùn)作的，所以有了RNN模型，它在隱藏層的各個(gè)神經(jīng)元之間是有相互作用的，能夠處理那些輸入之間前后有關(guān)聯(lián)的問(wèn)題。

2.RNN 能做什么？為什么要用 RNN？

RNN 在 NLP 中有廣泛的應(yīng)用，語(yǔ)言模型與文本生成(Language Modeling and Generating Text)，機(jī)器翻譯(Machine Translation)，語(yǔ)音識(shí)別(Speech Recognition)，圖像描述生成 (Generating Image Descriptions) 等。

3.RNN 怎么工作的？

參考：深入淺出講解 SRN

用 SRN－(Simple RNNs) 這個(gè)最簡(jiǎn)單的 RNN 模型來(lái)舉例說(shuō)明一下它是怎樣工作的：

SRN 做的事情就是，在一個(gè)時(shí)間序列中尋找這個(gè)時(shí)間序列具有的結(jié)構(gòu)。例如，給一句話，這句話是把所有詞串在一起沒(méi)有空格，然后 SRN 要自動(dòng)學(xué)習(xí)最小單元是什么，也就是它要學(xué)習(xí)哪些是單詞，怎樣的切割才可以被識(shí)別成是一個(gè)單詞。

具體做法就是，在每個(gè)時(shí)間點(diǎn)時(shí)，預(yù)測(cè)下一個(gè)時(shí)間點(diǎn)是什么字母，SRN 的結(jié)果就是隨著時(shí)間預(yù)測(cè)結(jié)果的誤差，比如說(shuō)，t＝0時(shí)字母是F，t＝1時(shí)預(yù)測(cè)是i，那誤差就會(huì)減小，直到d，誤差都是一直減小，但是下一刻預(yù)測(cè)結(jié)果是S，誤差就會(huì)重新升高。就這樣通過(guò) SRN 這個(gè)模型就可以得到這個(gè)時(shí)間序列是由哪些詞組成的。

模型結(jié)構(gòu)就是有3層，輸入層隱藏層和輸出層，另外還有一個(gè)語(yǔ)義層，語(yǔ)義層的內(nèi)容是直接復(fù)制上一時(shí)刻隱藏層的內(nèi)容，然后它會(huì)返回一個(gè)權(quán)重矩陣，t 時(shí)刻的輸入層和由 t－1 隱藏層復(fù)制過(guò)來(lái)的語(yǔ)義層一同作用到 t 時(shí)刻的輸出層。

再具體點(diǎn)，把這個(gè)模型的環(huán)拆成線型來(lái)理解，在 t＝0 的時(shí)候，就是普通的神經(jīng)網(wǎng)絡(luò)模型，有3層，兩個(gè)權(quán)重矩陣和 bias，到輸出層，預(yù)測(cè)結(jié)果和目標(biāo)結(jié)果計(jì)算誤差，接著用 BP 去更新 W1 和 W2，但是在 t＝1 的時(shí)候，就有一個(gè)語(yǔ)義層，是從上一個(gè)時(shí)刻的隱藏層復(fù)制過(guò)來(lái)的，然后和此刻的輸入層一起作用到隱藏層，再繼續(xù)得到結(jié)果，再通過(guò) BP 去更新 W1 和 W2。一直這樣下去不斷地迭代 W1，W2，theta，不斷地跑這個(gè)時(shí)間序列，如果串的長(zhǎng)度不到迭代次數(shù)，就首尾相連，直到收斂停止迭代。

SRN 是由 ELMAN 提出的，他用 N 個(gè)詞，造了幾百個(gè)句子，然后首尾相連，放進(jìn)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，最終結(jié)果就是學(xué)到了里面的基本構(gòu)成單元－單詞。

用數(shù)學(xué)表達(dá)出這個(gè)模型：

4.RNN 基本模型存在某些問(wèn)題？

不過(guò)這個(gè)模型有個(gè)問(wèn)題，就是當(dāng)想要記憶的越多時(shí)，比如想要記憶 t－1，t－2，t－3 時(shí)刻的，就需要更多的層，伴隨著層數(shù)的增加，就會(huì)出現(xiàn) 梯度消失(vanishing gradients) 的問(wèn)題，

梯度消失就是一定深度的梯度對(duì)模型更新沒(méi)有幫助。

原因簡(jiǎn)述：更新模型參數(shù)的方法是反向求導(dǎo)，越往前梯度越小。而激活函數(shù)是 sigmoid 和 tanh 的時(shí)候，這兩個(gè)函數(shù)的導(dǎo)數(shù)又是在兩端都是無(wú)限趨近于0的，會(huì)使得之前的梯度也朝向0，最終的結(jié)果是到達(dá)一定”深度“后，梯度就對(duì)模型的更新沒(méi)有任何貢獻(xiàn)。

這篇博客中有詳細(xì)的解釋為何會(huì)出現(xiàn)這樣的問(wèn)題。

可以用 gradient clipping 來(lái)改善這個(gè)問(wèn)題：

5.GRU 和 LSTM 是什么？

GRU：

為了解決上面的問(wèn)題，讓 RNN 有更好的表現(xiàn)，它有一些改良版模型。

GRU(Gated Recurrent Unit Recurrent Neural Networks)

GRU 對(duì)兩個(gè)方面進(jìn)行了改進(jìn)：1. 序列中不同的位置的單詞對(duì)當(dāng)前的隱藏層的狀態(tài)的影響不同，越前面的影響越小。2. 誤差可能是由某一個(gè)或者幾個(gè)單詞引起的，更新權(quán)值時(shí)應(yīng)該只針對(duì)相應(yīng)的單詞。

LSTM：

LSTM (Long Short-Term Memory，長(zhǎng)短時(shí)記憶模型) 是目前使用最廣泛的模型，它能夠更好地對(duì)長(zhǎng)短時(shí)依賴進(jìn)行表達(dá)。

LSTM 與 GRU 類似，只是在隱藏層使用了不同的函數(shù)。這里有一篇非常好的文章來(lái)講解 LSTM。
簡(jiǎn)書上也有一篇譯文。

[cs224d]

Day 1. 深度學(xué)習(xí)與自然語(yǔ)言處理主要概念一覽
Day 2. TensorFlow 入門
Day 3. word2vec 模型思想和代碼實(shí)現(xiàn)
Day 4. 怎樣做情感分析
Day 5. CS224d－Day 5: RNN快速入門
Day 6. 一文學(xué)會(huì)用 Tensorflow 搭建神經(jīng)網(wǎng)絡(luò)
Day 7. 用深度神經(jīng)網(wǎng)絡(luò)處理NER命名實(shí)體識(shí)別問(wèn)題
Day 8. 用 RNN 訓(xùn)練語(yǔ)言模型生成文本
Day 9. RNN與機(jī)器翻譯
Day 10. 用 Recursive Neural Networks 得到分析樹(shù)
Day 11. RNN的高級(jí)應(yīng)用

我是 不會(huì)停的蝸牛Alice
85后全職主婦
喜歡人工智能，行動(dòng)派
創(chuàng)造力，思考力，學(xué)習(xí)力提升修煉進(jìn)行中
歡迎您的喜歡，關(guān)注和評(píng)論！

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

CS224d－Day 5: RNN快速入門

CS224d－Day 5: RNN快速入門

1.什么是 RNN？和NN的區(qū)別？

2.RNN 能做什么？為什么要用 RNN？

3.RNN 怎么工作的？

4.RNN 基本模型存在某些問(wèn)題？

5.GRU 和 LSTM 是什么？

[cs224d]

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

CS224d－Day 5: RNN快速入門

1.什么是 RNN？和NN的區(qū)別？

2.RNN 能做什么？為什么要用 RNN？

3.RNN 怎么工作的？

4.RNN 基本模型存在某些問(wèn)題？

5.GRU 和 LSTM 是什么？

[cs224d]

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频