一直以來都在研究深度學習的東西,這幾周重新拾起來時間序列進行研究,這次研究將是長期和專業(yè)的,我們將從學術的角度對問題進行剖析,同時接下來我會把所有實現的模型在論文完成之后開源所有代碼,供大家參考。
update:
2019-02-20: 為大家推薦一個學習人工智能算法的好地方,奇異AI算法平臺,海量人工智能算法每周更新,你不需要學,哪怕跑一跑都能學個八九不離十,里面的算法都是原創(chuàng)的:http://strangeai.pro
Preface
此前做了一篇文章,也是關于LSTM時間序列預測,經過將近半年的改變和進化,我再次提筆寫下這篇關于時間序列的文章。算是和前文的一個對比把,也是近期對時間序列進行深度科研的一個開始。前端時間經歷了深度學習從入門到放棄的漫長過程,在成長也在蛻變,經歷了滴滴實習期間做圖像相關工作再到最近摸索的自然語言處理,最后為了完成畢業(yè)論文而做的時序分析,所有的一切都在漫不經心的變化著。如果大家對我近期的NLP相關工作感興趣可以star一下我近期開源的幾個項目,其中有個作詩機器人大家應該會喜歡: GitHub 傳送門.
閑話不多說,讓我們直接開始這篇文章的正題。
Time Series
時間序列預測是一個很常見的問題,不同于傳統(tǒng)方法,深度學習在時間序列預測上的有效性一直沒有得到認可,我最近的工作就是要證明它,用深度學習的方法比傳統(tǒng)方法好上千倍。
首先我們還是用上一篇文章使用的passenger數據來進行操作把。
上前后對比照先:
這次依舊是處理passenger數據,數據可以在我的原來的github repo中找到,新版本的額代碼可能在稍后開源,開源設置自定義補長,你幾乎不需要考慮輸入數據問題,只要把原始數據喂入模型,新的代碼可以自動處理,包括步長操作,分batch,甚至可以自定義是否歸一化,分分鐘可以對比歸一化前后的差別。
貼個訓練圖片:
River Flow data
實際上我這次打算用這個數據集來說明問題:
"Month","Monthly riverflow in cms"
"1923-01",10.251
"1923-02",11.129
"1923-03",11.582
"1923-04",11.327
"1923-05",10.760
"1923-06",10.477
"1923-07",11.610
"1923-08",19.284
"1923-09",22.002
"1923-10",14.243
"1923-11",12.176
"1923-12",11.440
"1924-01",10.902
"1924-02",10.392
"1924-03",11.836
"1924-04",9.996
"1924-05",9.401
"1924-06",11.242
"1924-07",13.989
"1924-08",17.160
"1924-09",12.318
"1924-10",11.185
這是河流水流量隨時間變化的序列,很明顯這個跟時間有關,大家可以看看這個震蕩多厲害:
但同時也可以看到,預測值也就是橙色的值,預測的非常好,因為這里我使用了深層的LSTM的進行預測。接下來會有更多模型調優(yōu)的過程。
Future Work
由于整個項目還在進行之中,所以大家想一起交流時間序列研究的可以添加我的微信 : jintianiloveu
,我們有個討論群,大家可以交流模型,看法,甚至可以延伸到文本領域進行擴展。
接下來我要做的工作將要對標幾個數據集的精確度,做benchmark, 文本生成領域的VAE非監(jiān)督模型我也將繼承進來,論文完成之后所有代碼都將開源給大家參考。