CS224d-Day 5: RNN快速入門


CS224d-Day 5: 什么是RNN

本文結(jié)構(gòu):

  • 1.什么是 RNN?和NN的區(qū)別?
  • 2.RNN 能做什么?為什么要用 RNN?
  • 3.RNN 怎么工作的?
  • 4.RNN 基本模型存在某些問題?
  • 5.GRU 和 LSTM 是什么?

1.什么是 RNN?和NN的區(qū)別?

RNN-(Recurrent Neural Networks):循環(huán)神經(jīng)網(wǎng)絡(luò)

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型,它是有向無環(huán)的,就是在隱藏層中各個(gè)神經(jīng)元之間是沒有聯(lián)系的,而實(shí)際上我們的大腦并不是這樣運(yùn)作的,所以有了RNN模型,它在隱藏層的各個(gè)神經(jīng)元之間是有相互作用的,能夠處理那些輸入之間前后有關(guān)聯(lián)的問題。

2.RNN 能做什么?為什么要用 RNN?

RNN 在 NLP 中有廣泛的應(yīng)用,語言模型與文本生成(Language Modeling and Generating Text),機(jī)器翻譯(Machine Translation),語音識別(Speech Recognition),圖像描述生成 (Generating Image Descriptions) 等。

3.RNN 怎么工作的?

參考:深入淺出講解 SRN

用 SRN-(Simple RNNs) 這個(gè)最簡單的 RNN 模型來舉例說明一下它是怎樣工作的:

SRN 做的事情就是,在一個(gè)時(shí)間序列中尋找這個(gè)時(shí)間序列具有的結(jié)構(gòu)。例如,給一句話,這句話是把所有詞串在一起沒有空格,然后 SRN 要自動學(xué)習(xí)最小單元是什么,也就是它要學(xué)習(xí)哪些是單詞,怎樣的切割才可以被識別成是一個(gè)單詞。

具體做法就是,在每個(gè)時(shí)間點(diǎn)時(shí),預(yù)測下一個(gè)時(shí)間點(diǎn)是什么字母,SRN 的結(jié)果就是隨著時(shí)間預(yù)測結(jié)果的誤差,比如說,t=0時(shí)字母是F,t=1時(shí)預(yù)測是i,那誤差就會減小,直到d,誤差都是一直減小,但是下一刻預(yù)測結(jié)果是S,誤差就會重新升高。就這樣通過 SRN 這個(gè)模型就可以得到這個(gè)時(shí)間序列是由哪些詞組成的。

模型結(jié)構(gòu)就是有3層,輸入層隱藏層和輸出層,另外還有一個(gè)語義層,語義層的內(nèi)容是直接復(fù)制上一時(shí)刻隱藏層的內(nèi)容,然后它會返回一個(gè)權(quán)重矩陣,t 時(shí)刻的輸入層和由 t-1 隱藏層復(fù)制過來的語義層一同作用到 t 時(shí)刻的輸出層。

再具體點(diǎn),把這個(gè)模型的環(huán)拆成線型來理解,在 t=0 的時(shí)候,就是普通的神經(jīng)網(wǎng)絡(luò)模型,有3層,兩個(gè)權(quán)重矩陣和 bias,到輸出層,預(yù)測結(jié)果和目標(biāo)結(jié)果計(jì)算誤差,接著用 BP 去更新 W1 和 W2,但是在 t=1 的時(shí)候,就有一個(gè)語義層,是從上一個(gè)時(shí)刻的隱藏層復(fù)制過來的,然后和此刻的輸入層一起作用到隱藏層,再繼續(xù)得到結(jié)果,再通過 BP 去更新 W1 和 W2。一直這樣下去不斷地迭代 W1,W2,theta,不斷地跑這個(gè)時(shí)間序列,如果串的長度不到迭代次數(shù),就首尾相連,直到收斂停止迭代。


SRN 是由 ELMAN 提出的,他用 N 個(gè)詞,造了幾百個(gè)句子,然后首尾相連,放進(jìn)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),最終結(jié)果就是學(xué)到了里面的基本構(gòu)成單元-單詞。


用數(shù)學(xué)表達(dá)出這個(gè)模型:


4.RNN 基本模型存在某些問題?

不過這個(gè)模型有個(gè)問題,就是當(dāng)想要記憶的越多時(shí),比如想要記憶 t-1,t-2,t-3 時(shí)刻的,就需要更多的層,伴隨著層數(shù)的增加,就會出現(xiàn) 梯度消失(vanishing gradients) 的問題,

梯度消失就是一定深度的梯度對模型更新沒有幫助。

原因簡述:更新模型參數(shù)的方法是反向求導(dǎo),越往前梯度越小。而激活函數(shù)是 sigmoid 和 tanh 的時(shí)候,這兩個(gè)函數(shù)的導(dǎo)數(shù)又是在兩端都是無限趨近于0的,會使得之前的梯度也朝向0,最終的結(jié)果是到達(dá)一定”深度“后,梯度就對模型的更新沒有任何貢獻(xiàn)。

這篇博客中有詳細(xì)的解釋為何會出現(xiàn)這樣的問題。

可以用 gradient clipping 來改善這個(gè)問題:

5.GRU 和 LSTM 是什么?

GRU:

為了解決上面的問題,讓 RNN 有更好的表現(xiàn),它有一些改良版模型。

GRU(Gated Recurrent Unit Recurrent Neural Networks)

GRU 對兩個(gè)方面進(jìn)行了改進(jìn):1. 序列中不同的位置的單詞對當(dāng)前的隱藏層的狀態(tài)的影響不同,越前面的影響越小。2. 誤差可能是由某一個(gè)或者幾個(gè)單詞引起的,更新權(quán)值時(shí)應(yīng)該只針對相應(yīng)的單詞。

LSTM:

LSTM (Long Short-Term Memory,長短時(shí)記憶模型) 是目前使用最廣泛的模型,它能夠更好地對長短時(shí)依賴進(jìn)行表達(dá)。

LSTM 與 GRU 類似,只是在隱藏層使用了不同的函數(shù)。這里有一篇非常好的文章來講解 LSTM。
簡書上也有一篇譯文。

[cs224d]

Day 1. 深度學(xué)習(xí)與自然語言處理 主要概念一覽
Day 2. TensorFlow 入門
Day 3. word2vec 模型思想和代碼實(shí)現(xiàn)
Day 4. 怎樣做情感分析
Day 5. CS224d-Day 5: RNN快速入門
Day 6. 一文學(xué)會用 Tensorflow 搭建神經(jīng)網(wǎng)絡(luò)
Day 7. 用深度神經(jīng)網(wǎng)絡(luò)處理NER命名實(shí)體識別問題
Day 8. 用 RNN 訓(xùn)練語言模型生成文本
Day 9. RNN與機(jī)器翻譯
Day 10. 用 Recursive Neural Networks 得到分析樹
Day 11. RNN的高級應(yīng)用


我是 不會停的蝸牛Alice
85后全職主婦
喜歡人工智能,行動派
創(chuàng)造力,思考力,學(xué)習(xí)力提升修煉進(jìn)行中
歡迎您的喜歡,關(guān)注和評論!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,565評論 6 539
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 99,115評論 3 423
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,577評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經(jīng)常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,514評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 72,234評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 55,621評論 1 326
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,641評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 42,822評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 49,380評論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 41,128評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 43,319評論 1 371
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,879評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,548評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,970評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,229評論 1 291
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 52,048評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 48,285評論 2 376

推薦閱讀更多精彩內(nèi)容