卷積神經網絡的條件時間序列預測
摘要
我們提出了一種基于最新深度卷積WaveNet架構的條件時間序列預測方法。擬議的網絡包含堆疊的卷積堆棧,使它們可以在預測時訪問廣泛的歷史記錄,ReLU激活函數和條件是通過將多個卷積濾波器并行應用于單獨的時間序列來執行的,從而可以快速處理數據和利用多元時間序列之間的相關結構。我們使用S&P500,波動率指數,CBOE利率和幾種匯率來無條件和有條件地對卷積網絡的性能進行測試和分析,并將其與眾所周知的自回歸的性能進行廣泛比較模型和長期記憶網絡。我們表明,卷積網絡非常適合回歸類型的問題,并且能夠有效地學習序列中以及序列之間的依賴關系,而無需較長的歷史時間序列,它是一種省時且易于實現的替代遞歸類型的方法網絡,并且往往優于線性模型和遞歸模型。關鍵字:卷積神經網絡,金融時間序列,預測,深度學習,多元時間序列
簡介
由于明顯的原因,使用過去的觀察來預測財務時間序列已成為人們非常感興趣的話題。眾所周知,盡管數據中存在時間關系,但由于序列中存在非線性趨勢,粗尾和噪聲,它們很難準確分析和預測[6]。在開發用于預測財務數據的模型時,希望它們既能夠學習數據中的非線性依存關系,又具有很高的抗噪性。傳統的自回歸模型(例如VAR和ARMA [9])無法捕獲非線性模式。前饋神經網絡是一種學習數據中依存關系的流行方法,因為前饋神經網絡無需使用預先指定特定的模型形式,參見[28]或[4]。Hybrid還提出了使用神經網絡和計量經濟學模型的混合方法,傳統前饋神經網絡的一個缺點是需要大量的數據樣本才能獲得穩定的預測結果。
本文的主要重點是多元時間序列預測,特別是金融時間序列。特別是,我們預測以其他相關序列為條件的時間序列。眾所周知,金融時間序列既具有高噪聲成分,又具有有限的持續時間–即使可用,由于金融環境的變化,使用長期股價歷史記錄也可能很困難。同時,存在許多不同但密切相關的財務時間序列。在這里,我們旨在利用條件的概念來開發多變量預測,以減少短時序列中的噪聲。實際上,我們將多個財務時間序列用作神經網絡的輸入,從而根據其自身的歷史以及多個其他時間序列的歷史來對時間序列的預測進行調整。在多個股票系列上訓練模型可以使網絡利用這些系列之間的相關結構,以便網絡可以在較短的數據序列中了解市場動態。如圖所示[30]對于分類,使用多個條件時間序列作為輸入可以通過學習序列之間的長期時間依賴性來提高模型的魯棒性和預測質量。
卷積神經網絡(CNN),參見[18],是一種生物啟發型的深度神經網絡(DNN),由于其在分類問題(例如圖像識別[16]或時間序列分類[ 26])。 CNN由一系列卷積層組成,其輸出僅連接到輸入中的局部區域。這是通過在輸入上滑動濾波器或權重矩陣并在每個點計算兩者之間的點積(即輸入和濾波器之間的卷積)來實現的。這種結構允許模型學習能夠識別輸入數據中特定模式的過濾器。 CNN用于時間序列預測的最新進展包括[20],其中作者提出了基于未抽取小波變換的時間序列建模的未抽取卷積網絡,[3]作者建議使用自回歸型加權系統來預測金融時間序列,其中權重通過通過CNN進行學習而被允許與數據相關。在一般的文獻中,關于卷積架構的金融時間序列預測的文獻仍然很少,因為這些類型的網絡更常用于分類問題。直觀地,將CNN應用于時間序列預測的想法是學習表示代表該序列中某些重復模式的過濾器,并使用它們來預測未來值。由于CNN的分層結構,它們可以在嘈雜序列上很好地工作,通過在每個后續層中丟棄噪聲并僅提取有意義的模式,從而與使用小波變換時間序列的神經網絡(即,高頻和低頻分量)作為輸入,請參見例如[1],[17]。
當前,遞歸神經網絡(RNN),尤其是長期短期記憶單元(LSTM)[12],[5]是時間序列預測的最新技術,另請參見[14]和特別是[7]的財務預測結果。這些網絡的效率可以通過循環連接來解釋,循環連接允許網絡訪問以前時間序列值的整個歷史記錄。另一種選擇是采用多層卷積的卷積神經網絡[27]。通過跳過輸入中的某些元素來應用濾波器的擴張卷積允許網絡的接收場呈指數增長,從而允許網絡類似于RNN,訪問范圍廣泛的歷史記錄。 CNN相對于遞歸型網絡的優勢在于,由于網絡的卷積結構,可訓練權重的數量很少,從而可以更有效地進行訓練和預測。
受[25]的影響,作者將PixelCNN與用于圖像生成的網絡PixelRNN [24]的性能進行了比較。在本文中,我們旨在研究卷積神經網絡與自回歸算法和自回歸算法相比的性能。預測嘈雜的財務時間序列的遞歸模型。我們使用的CNN是受最早為音頻預測而開發的[23]的卷積WaveNet模型啟發的網絡,我們對其結構進行了簡化和優化以進行多元時間序列預測。我們的網絡專注于學習多元,嘈雜的時間序列內以及之間的長期關系。與[23]相似,它使用膨脹卷積,但是這些卷積與輸入時間序列以及我們所依據的時間序列中的參數化跳過連接[11]一起應用,從而學習了長和短術語相互依存關系的有效方式。此外,原始WaveNet模型的門控激活功能被整流線性單元(ReLU)取代,簡化了模型并減少了訓練時間。
本文包括幾個主要的貢獻。首先,我們介紹了受WaveNet模型啟發的CNN,其結構經過簡化和優化以用于時間序列預測,即使用ReLU激活以及通過參數化跳過連接進行新穎,更優化的調節方式。其次,據我們所知,知道CNN在分類問題上的出色表現,我們的工作是(據我們所知)第一個表明它們可以成功地用于預測有限長度的金融時間序列。通過對WaveNet模型進行廣泛的分析并將性能與LSTM,當前最新的預測技術以及計量經濟學中流行的自回歸模型進行比較,我們證明WaveNet模型是一種高效的方法且易于實施以替代遞歸型網絡,并且往往優于線性模型和遞歸模型。最后,我們使用人工時間序列以及S&P500,VIX,CBOE利率和五種匯率的示例表明,WaveNet模型中有效的條件調節方式使人們能夠提取時間序列之間的時間關系,從而改善預測,而同時限制了長期歷史價格序列的需求并降低了噪音,因為它允許人們利用相關時間序列之間的相關性。總體而言,我們表明卷積網絡可以更簡單,更容易地訓練循環網絡的替代方法,同時在非線性,嘈雜的預測任務上至少達到相同或更高的準確性。
模型
在這一節中,我們首先回顧一下神經網絡和卷積神經網絡。然后,我們介紹了將用于時間序列預測的特定卷積網絡結構。
前饋神經網絡
略
Convolutions(卷積)
兩個一維信號f和g的離散卷積被定義為f?g
根據卷積的定義,可以將輸入中不存在的樣本定義為0,通常稱為補零,或者僅在樣本同時存在于兩個信號中的點處計算乘積。請注意,卷積是可交換的,即(f?g) = (g?f)如果信號是有限的,那么無限的卷積可能會被截斷。換句話說,假設f = [f(0),…, f(N - 1)]和g = [g(0),…, g(M?1)],兩者的卷積由下面公式給出
卷積輸出的大小取決于處理未定義樣本的方式。如果將一定數量的未定義樣本設置為0,這稱為零填充。如果我們不應用0填充,則輸出的大小為N - M + 1(因為i = 0..N-M)當在輸入信號f的兩邊填充p個0時,輸出的大小為N - M + 2p+ 1。因此,零填充允許一個人控制卷積的輸出大小,調整它或減少,或相同,或增加相對于輸入大小。因此,通過將信號g在輸入f上沿j移動并計算兩者的加權和,可以計算出在點i處的卷積。
Convolutional neural networks
卷積神經網絡是在局部連通的思想下發展起來的。每個節點只連接到輸入中的一個局部區域,參見圖2.1。這種連接的空間范圍被稱為節點的接受域。局部連通是通過卷積代替神經網絡的加權和來實現的。在卷積神經網絡的每一層,輸入與權矩陣(也稱為過濾器)進行卷積,以創建一個特征映射。換句話說,權重矩陣在輸入上滑動并計算輸入和權重矩陣之間的點積。注意,與常規的神經網絡不同,輸出特征圖中的所有值共享相同的權值。這意味著輸出中的所有節點都檢測到完全相同的模式。CNNs的局部連通性和共享權值方面減少了可學習參數的總數,從而提高了訓練的效率。因此,卷積神經網絡背后的直覺是,在每一層中學習一個權重矩陣,該矩陣將能夠從輸入中提取必要的、平移不變的特征。
卷積層的輸入通常是三維的:高度、重量和通道數。在第一層,這個輸入與一組應用于所有輸入通道的m1三維過濾器進行卷積(換句話說,過濾器映射的第三維總是等于輸入中的通道數),以創建特征輸出映射。現在考慮一個沒有填充0的一維輸入:
x =
然后通過卷積每個過濾器: for h=1,....,
得到第一層的輸出特征圖,…, m1,輸入:
= ()(i)=
where ?
注意,由于在本例中輸入通道的數量為1,因此權重矩陣也只有一個通道。與前饋神經網絡相似,輸出通過非線性h(·)得到= h()。
在每個后續層l = 2,...,L中,輸入特征圖∈,其中是輸出濾波器圖的大小從先前的 = 的卷積中,與一組filters ∈,h = 1,...,進行卷積以創建特征圖∈:=
然后將其輸出通過非線性傳遞,得出。濾波器尺寸參數k因此控制每個輸出節點的接收場。如果沒有零填充,則對于l = 1,..,L,每層卷積輸出的寬度。由于特征圖中的所有元素共享相同的權重,因此可以將特征以時不變的方式進行檢測,同時減少了可訓練參數的數量。經過L個卷積層后,網絡的輸出將為矩陣,其大小取決于濾波器大小和最終層中使用的濾波器數量。根據我們希望模型學習的內容,對模型中的權重進行訓練,以最小化網絡的輸出與我們感興趣的真實輸出之間的誤差。
圖2.1:具有三層(L)的前饋神經網絡與具有兩層且過濾器大小為1×2的卷積神經網絡,因此每個節點的感受野都包含來自上一層的兩個輸入神經元,并且權重是共享的跨層,用相同的顏色(R)表示。
Structure
考慮一維時間序列。給定一個具有參數值θ的模型,預測變量的任務是根據序列的歷史記錄輸出下一個值。這可以通過最大化似然函數來完成
其中d是擴張因子,M是通道數。換句話說,在膨脹卷積中,將濾波器應用于輸入向量中的第d個輸入向量中,從而使模型可以有效地學習相距甚遠的數據點之間的連接。我們使用類似于[27]和[23]的架構,其中L層膨脹的卷積l = 1,...,L,并且膨脹增加了兩倍:。選擇濾波器w的大小為1×k:= 1×2。圖2.2給出了一個三層膨脹卷積網絡的示例。使用膨脹卷積代替常規卷積可以使輸出y受到輸入中更多節點的影響。網絡的輸入由時間序列給出。在隨后的每個層中,我們應用膨脹的卷積,然后進行非線性處理,得到輸出特征圖fl,l = 1,...,L。然后,這L層膨脹的卷積層之后是1×1卷積將通道數減少回一,因此模型輸出一維向量。由于我們對預測時間序列的后續值感興趣,因此我們將對模型進行訓練,以使該輸出為預測的時間序列。
神經元的感受野被定義為其輸入中修改該神經元輸出值的一組元素。現在,我們將模型的接收場r定義為第一層輸入中的神經元數量(即時間序列),它可以修改最后一層中的輸出(即預測時間序列)。然后,這取決于層數L和濾波器大小k,由下式給出
???????????????????????r:=
在圖2.2中,接收場由r = 8給出。一個輸出值受八個輸入神經元的影響
如前所述,有時在邊界周圍用零填充輸入很方便。然后,此零填充的大小將控制輸出的大小。在我們的案例中,為了不違反對x的適應性約束,我們要確保預測時網絡的接收場僅包含。為此,我們使用因果卷積,其中因果一詞表示卷積輸出不應依賴于將來的輸入。在時間序列中,這等效于用接受域大小的零向量填充輸入,因此輸入由下式給出:
?????????
L層Wavenet的輸出是:
?????????
因此,在訓練時,通過將輸入與每一層中的內核l = 1,...,L卷積,然后進行1×1卷積,可以計算出的預測。在測試時,通過在訓練中輸入給出(t + 1)≥r的單步提前預測prediction 模型。通過在下一個時間步將每個預測反饋回網絡,依次進行n步提前預測。使用進行兩步提前的樣本外預測?。
因此,網絡的思想是使用卷積神經網絡的功能作為自回歸預測模型。在簡單的p階自回歸模型中,的預測值由給出,其中,i = 1,... ,p是可學習的權重,是白噪聲。使用上面定義的WaveNet模型,每個t∈{0,...,N}的預測條件期望為
其中函數βi,i = 1,...,r與數據相關,并通過卷積網絡進行了優化。我們指出,即使權重取決于基礎數據,由于網絡的卷積結構,權重也會在輸出的過濾器映射圖之間共享,從而導致權重矩陣平移不變。
目標函數:訓練網絡權重(濾波器wl h)以使平均絕對誤差(MAE)最小化;為了避免過度擬合,即權重過大,我們使用帶有正則項γ的L2正則化,因此成本函數為
其中? x(t +1)表示使用x(0),...,x(t)的x(t +1)預測。最小化E(w)會導致權重的選擇,從而在擬合訓練數據與減小訓練數據之間進行權衡。權重過大通常會導致網絡過度擬合訓練數據,因此L2正則化(通過強制權重不要太大)使模型可以更好地針對看不見的數據進行泛化。
備注1(與貝葉斯框架有關):在貝葉斯框架中,使此成本函數最小化等效于最大化Laplace分布似然函數下的后驗分布,該函數的中心為由模型^輸出的值,具有固定比例參數β= 1/2
并在模型參數上具有高斯先驗。
通過運行通過網絡的前向通行獲得輸出,最佳權重是來自后驗分布的點估計。由于MAE是依賴于比例尺的精度度量,因此應該對輸入數據進行歸一化處理,以使誤差在不同的時間序列中具有可比性。
Weight optimization
訓練模型的目的是要找到使(1)中的成本函數最小的權重。一種標準的權重優化基于梯度下降,其中,根據誤差函數的梯度來增量更新權重,
對于τ= 1,...,T,其中T是訓練迭代的次數,η是學習率。因此,每次迭代τ都由一個正向運行和一個向后遍歷組成,前者在其中計算預測矢量? x和相應的誤差E(w(τ)),后者由梯度矢量?E(w(τ))計算。根據(2)計算關于每個權重的權重,并更新權重。梯度矢量是通過反向傳播計算的,相當于從最終層中計算出的誤差函數迭代應用鏈規則,直到獲得所需層權重的梯度為止:
在這里我們對感興趣權重發生的所有節點求和。選擇訓練迭代的次數T以實現誤差的收斂。在這里,我們使用亞當梯度下降法[15],對權重進行了稍微修改。該方法通過保持過去梯度和平方梯度的指數衰減平均值,并使用這些參數來更新參數,從而為每個參數計算自適應學習率。自適應學習率允許梯度下降更準確地找到最小值。
Activation functions
在每一層中,我們使用非線性或激活函數來轉換卷積的輸出,從而允許模型學習數據的非線性表示。在我們的模型中,非線性采用定義為ReLU(x):= max(x,0)的整流線性單位(ReLU)的形式,因此層l的輸出為
其中b∈R表示將輸入轉換為非線性的偏差,* d照常表示具有膨脹d的卷積,而表示具有濾波器,h=1,...的卷積的輸出。層l中的M1。與[23]中用于音頻生成的門控激活函數不同,在這里我們建議使用ReLU,因為當將其應用于非平穩,嘈雜的時間序列的預測時,它是最有效的。同時使用ReLU減少了訓練時間,從而簡化了模型。最后一層l = L,具有線性激活函數,隨后是1×1卷積,然后輸出時間序列的預測值? x = [? x(0),...,? x(N) ]。
當訓練一個深度神經網絡時,使網絡無法學習最佳權重的問題之一就是消失/爆炸梯度[2] [8]。當反向傳播通過鏈式規則計算梯度時,當激活函數的導數取小值或大值時,這些數字的乘積可導致初始層中權重的梯度分別消失或爆炸。這導致權重由于梯度太小而更新得太慢,或者由于梯度下降步幅太大而無法收斂到最小值。該問題的一種解決方案是以這種方式初始化卷積層的權重,使得無論是在網絡的正向傳播還是在反向傳播中,權重都不會分別減小或放大輸入信號和梯度的幅度。權重的正確初始化將使信號和梯度在整個層中的值范圍內保持合理,從而在訓練網絡時不會丟失任何信息。如[10]中所推導的,為了確保輸入的方差與輸出的方差相似,充分條件是
這導致零均值高斯分布,其標準偏差為,其中z是層中可訓練參數的總數。換句話說,將ReLU單元的權重初始化為(對于τ= 0)為
當時,層l中的濾波器數量乘以濾波器大小1×k
Residual learning
當向網絡添加更多層時,標準反向傳播將無法找到最佳權重,從而導致更高的訓練誤差。因此,這個問題稱為退化問題[11],它不是由過度擬合引起的。考慮一個具有少量層的淺層網絡,以及更深的對應層。更深層次的模型不應導致更高的訓練誤差,因為存在一種構造上的解決方案:將添加的層中的所有權重設置為標識映射。然而,在實踐中,梯度下降算法在學習身份映射時往往會遇到問題。解決此問題的建議方法是使用殘差連接[11],該殘差迫使網絡逼近所需映射H(x)-x,而不是H(x),以便可以通過驅動所有權重來學習身份映射。歸零。通過將權重驅動為零來優化殘差映射往往比學習身份更容易。殘余連接的實現方式是使用快捷連接,該連接跳過一個或多個層,因此可以不修改地添加到跳過層的輸出中。盡管實際上,最佳權重不太可能完全是身份映射,但是如果最佳功能比零映射更接近身份,則建議的殘差連接仍將幫助網絡學習更好的最佳權重。
類似于[23],在我們的網絡中,我們在從輸入到卷積再到輸出的每個膨脹卷積之后添加一個殘差連接。在> 1的情況下,來自非線性的輸出在添加剩余連接之前經過1×1卷積。這樣做是為了確保殘留連接和膨脹卷積的輸出都具有相同數量的通道。這使我們可以堆疊多個層,同時保留網絡正確映射初始層中學習到的依賴項的能力
Relation to discrete wavelet transform
網絡的結構與離散小波變換(DWT)密切相關。小波分析可用于通過將具有不同比例(寬度)和位置的小波函數與該函數匹配,來了解給定函數如何從一個周期到下一個周期變化。 DWT是且的線性變換,通過將信號與高通和低通濾波器進行卷積,將信號分解為高頻和低頻分量。特別是,在變換的每個級別j,輸入信號都被分解為小波,并且縮放系數和(也稱為近似值和細節),其中k = 0,... ,? 1,同時將輸入x與濾波器h和g進行卷積
其中ψ(·)是小波,而φ(·)是縮放函數。在隨后的每個級別中,我們都將變換應用于近似系數,以這種方式丟棄高頻分量(細節)并最終得到輸入信號的平滑版本。這與CNN的結構非常相似,在CNN的每個后續層中,我們使用可學習的濾波器對來自上一層的輸入進行卷積。在每一層中,過濾器用于識別數據中的局部依存關系,隨后將其組合以表示更多的全局特征,直到在最后一層中我們計算出感興趣的輸出為止。與DWT中的固定á優先級相反,通過允許濾波器是可學習的,我們的目標是通過以這種方式識別數據中的某些模式,從而找到使目標函數(1)最小的濾波器權重。時間序列的準確預測。
Conditioning
當以另一個序列預測一個時間序列時,我們的目標是最大化條件似然,
時間序列y的條件是通過計算卷積的激活函數來完成的,其中第一層的濾波器and 為
對于每個濾波器h = 1,...,。預測x(t + 1)時,網絡的接收場必須僅包含x(0),...,x(t)和y(0),...,y(t)。因此,類似于輸入,為保持因果關系,條件后會附加一個零值的矢量,大小為接收場的大小。在[23]中,作者建議采用具有1×1的濾波器。給定較短的輸入窗口,這種類型的條件并不總是能夠捕獲時間序列之間的所有依賴關系。因此,我們使用1×k卷積,以較少的層數增加了學習正確依賴項的可能性。因此,網絡的接收域包含輸入和條件的k個元素
代替第一層中的剩余連接,我們從輸入以及條件到膨脹卷積的結果中添加由1×1卷積參數化的跳過連接。通過使用來自每個單獨條件的M個擴張卷積并將它們與輸入相加,可以輕松地將條件擴展為多元M×N時間序列。跳過連接的參數化確保我們的模型能夠正確提取預測與輸入和條件之間的必要關系。具體而言,如果特定條件不能改善預測,則模型可以簡單地通過將參數化跳過連接(即1×1卷積)中的權重設置為零來簡單地學習舍棄該條件。這使條件能夠以區分方式增強預測。如果濾波器的數量filers大于1,則參數化的跳過連接將使用與filers的1×1卷積,從而使跳過連接與原始卷積之和有效。網絡結構如圖2.3所示。
圖2.3:網絡結構。在第一層(L)中,對輸入和條件(具有零填充)進行卷積,通過非線性傳遞并與參數化的跳過連接求和。來自該第一層的結果是后續擴張的卷積層中的輸入,并且從卷積的輸入到輸出都有剩余連接。對其他層重復此操作,直到獲得層L(M)的輸出。該輸出通過1×1卷積傳遞,得到最終輸出:預測的時間序列(R)。
備注2(學習非線性依賴性的能力)。我們在這里對模型學習時間序列內部和之間的非線性相關性的能力進行評論。前饋神經網絡需要至少一個具有足夠大量隱藏單元的隱藏層,以便近似非線性函數[13]。如果在CNN中將濾波器寬度設置為1,則模型學習非線性相關性的必要條件將是> 1,因為在這種情況下,濾波器的作用類似于隱藏單元的作用。替代地,在CNN中學習非線性要求同時使用濾波器寬度和大于一層的層數。每一層實質上是計算一個點積和前一層中幾個輸出的非線性變換之和。該輸出又是輸入和條件的組合,并且隱藏單元的作用通過濾波器寬度上的總和來發揮,從而允許在時間序列中和時間序列之間學習非線性關系。
討論與結論在本文中,我們介紹并分析了基于卷積神經網絡WaveNet架構[23]的條件時間序列預測方法的性能。該網絡利用了應用于輸入和多種條件的膨脹卷積層,從而了解了數據中以及數據之間的趨勢和關系。我們分析了WaveNet模型在各種時間序列上的性能,并將其與時間序列預測的最新技術,LSTM模型和線性自回歸模型進行了比較。我們得出結論,即使時間序列預測仍然是一項復雜的任務,并且很難找到一個適合所有人的模型,但我們已經證明,WaveNet是一個簡單,高效且易于解釋的網絡,可以作為預測的強大基準。盡管如此,仍有改進的空間。提高CNN學習非線性依賴性的能力的一種方法是使用大量的層和濾波器。從圖3.3中我們可以看到,在學習非線性(需要大量的層和濾波器)的能力與過度擬合之間存在權衡的問題,因為大量的層會導致較大的接受度字段和許多參數。通過使用自回歸模型和CNN的組合,在[3]中也解決了內存需求和非線性之間不平衡的問題。解決此問題的另一種方法可能是將參數化的跳過連接與自適應濾波器結合使用,并將在我們的進一步工作中進行研究。此外,WaveNet模型被證明是LSTM模型的強大競爭者,尤其是在考慮訓練時間時。盡管在相對較短的時間序列上,與訓練時間相比,預測時間可以忽略不計,但對于較長的時間序列,可以通過實施利用網絡存儲結構的最新變體來加快自回歸模型的預測,請參見[21]。 ]或通過在頻域中進行傅里葉變換來加快卷積,如[19],[22]中所述。最后,眾所周知,數據點之間的相關性在日內基礎上更強。因此,可能有必要在日間數據上測試模型,以查看該模型學習長期依賴項的能力在這種情況下是否更有價值
文獻綜述
[1] A. Aussem and F. Murtagh, Combining neural network forecasts on wavelet-transformed time series,Connection Science, 9 (1997), pp. 113–122.
[1] A. Aussem和F. Murtagh,結合小波變換時間序列的神經網絡預測,Connection Science,9(1997),第113-122頁。
[2] Y. Bengio, P. Simard, and P. Frasconi, Learning Long-Term Dependencies with Gradient Descent is Difficult, IEEE Transactions on Neural Networks, 5 (1994).
[3] M. Binkowski, G. Marti, and P. Donnat, Autoregressive convolutional neural networks for asyn-chronous time series, ICML 2017 Time Series Workshop, (2017).
[4] K. Chakraborty, K. Mehrotra, C. K. Mohan, and S. Ranka, Forecasting the Behavior of Multivariate Time Series using Neural Networks, Neural networks, 5 (1992), pp. 961–970.
[5] J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, Empirical evaluation of gated recurrent neural networks on sequence modeling, arXiv preprint arXiv:1412.3555, (2014).
[6] R. Cont, Empirical properties of asset returns: Stylized facts and statistical issues, (2001).
[7] T. Fisher and C. Krauss, Deep learning with Long Short-Term Memory networks for financial market predictions, F AU Discussion papers in Economics, (2017).
[8] X. Glorot and Y. Bengio, Understanding the Difficulty of Training Deep Feedforward Neural Net-works, Proceedings of the 13th International Conference on Artificial Intelligence and Statistics, (2010).
[9] J. D. Hamilton, Time series analysis, vol. 2, Princeton university press Princeton, 1994.
[10] K. He, X. Zhang, S. Ren, and J. Sun, Delving deep into rectifiers: Surpassing human-level per-formance on imagenet classification, in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1026–1034.
[11] , Deep residual learning for image recognition, in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.
[12] S. Hochreiter and J. Schmidhuber, Long Short-Term Memory, Neural computation, 9 (1997),pp. 1735–1780.
[13] K. Hornik, Approximation capabilities of multilayer feedforward networks, Neural networks, 4 (1991),pp. 251–257.
[14] D. Hsu, Time series forecasting based on augmented Long Short-Term Memory, arXiv preprint arXiv:1707.00666, (2017).
[15] D. Kingma and J. Ba, Adam: A method for stochastic optimization, arXiv preprint arXiv:1412.6980,(2014).
[16] A. Krizhevsky, I. Sutskever, and G. E. Hinton, ImageNet Classification with Deep Convolutional Neural Networks, Advances in Neural Information Processing Systems 25, (2012), pp. 1097–1105.
[17] S. Lahmiri, Wavelet low- and high- frequency components as features for predicting stock prices with backpropagation neural networks, Journal of King Saud University - Computer and Information Sciences,26 (2014), pp. 218–227.
[2] Y. Bengio,P。Simard和P. Frasconi,用梯度下降學習長期依賴性很困難,IEEE Transactions on Neural Networks,5(1994)。
[3] M. Binkowski,G。Marti和P. Donnat,異步時間序列的自回歸卷積神經網絡,ICML 2017時間序列研討會,(2017年)。
[4] K. Chakraborty,K。Mehrotra,C。K. Mohan和S. Ranka,《使用神經網絡預測多元時間序列的行為》,《神經網絡》,第5期(1992年),第961–970頁。
[5] J. Chung,C。Gulcehre,K。Cho和Y. Bengio,門控循環神經網絡在序列建模上的經驗評估,arXiv預印本arXiv:1412.3555,(2014年)。
[6] R. Cont,資產收益的經驗性質:程式化的事實和統計問題,(2001年)。
[7] T. Fisher和C. Krauss,《用長短期記憶網絡進行深度學習進行金融市場預測》,《非盟經濟學討論》,(2017年)。
[8] X. Glorot和Y. Bengio,“理解深度前饋神經網絡的訓練難度”,第13屆人工智能與統計國際會議論文集,(2010年)。
[9] J. D. Hamilton,時間序列分析,第一卷。 2,普林斯頓大學出版社,普林斯頓,1994年。
[10] K. He,X。Zhang,S。Ren和J. Sun,深入研究整流器:在IEEE國際會議論文集上超越了人類在圖像網絡分類方面的性能。計算機視覺,2015年,第1026至1034頁。
[11],用于圖像識別的深度殘差學習,在IEEE計算機視覺和模式識別會議論文集,2016年,第770–778頁。
[12] S. Hochreiter和J. Schmidhuber,《長短期記憶,神經計算》,第9期,1997年,第1735-1780頁。
[13] K. Hornik,多層前饋網絡的逼近能力,神經網絡,第4期(1991),第251-257頁。
[14] D. Hsu,基于增強的長期短期記憶的時間序列預測,arXiv預印本arXiv:1707.00666,(2017年)。
[15] D. Kingma和J. Ba,亞當:一種隨機優化方法,arXiv預印本arXiv:1412.6980,(2014年)。
[16] A. Krizhevsky,I。Sutskever和G. E. Hinton,《深度卷積神經網絡的ImageNet分類》,神經信息處理系統進展25,(2012年),第1097-1105頁。
[17] S. Lahmiri,“小波低頻和高頻分量作為利用反向傳播神經網絡預測股票價格的特征”,《沙特國王大學學報-計算機與信息科學》,第26卷(2014年),第218-227頁。
[18] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner, Gradient-based learning applied to document recognition, Proceedings of the IEEE, 86 (1998), pp. 2278–2324.
[19] M. Mathieu, M. Henaff, and Y. LeCun, Fast training of convolutional networks through FFTs,ArXiv e-prints, (2013).
[20] R. Mittelman, Time-series modeling with undecimated fully convolutional neural networks, arXiv preprint arXiv:1508.00317, (2015).
[21] P. Ramachandran, T. L. Paine, P. Khorrami, M. Babaeizadeh, S. Chang, Y. Zhang, M. A.Hasegawa-Johnson, R. H. Campbell, and T. S. Huang, Fast generation for convolutional autore-gressive models, arXiv preprint arXiv:1704.06001, (2017).
[22] O. Rippel, J. Snoek, and R. P. Adams, Spectral representations for convolutional neural networks,NIPS15 Proceedings of the 28th International Conference on Neural Information Processing Systems,(2015), pp. 2449–2457.
[23] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalch-brenner, A. Senior, and K. Kavukcuoglu, WaveNet: A Generative Model for Raw Audio, ArXiv e-prints, (2016).
[24] A. van den Oord, N. Kalchbrenner, and K. Kavukcuoglu, Pixel Recurrent Neural Networks,CoRR, abs/1601.06759 (2016).
[25] A. van den Oord, N. Kalchbrenner, O. Vinyals, L. Espeholt, A. Graves, and
K. Kavukcuoglu, Conditional Image Generation with PixelCNN Decoders, CoRR, abs/1606.05328 (2016).
[26] Z. W ang, W. Yan, and T. Oates, Time Series Classification from Scratch with Deep Neural Net-works: A Strong Baseline, CoRR, abs/1611.06455 (2016).
[27] F. Yu and V. Koltun, Multi-Scale Context Aggregation by Dilated Convolutions, ArXiv e-prints,(2015).
[28] G. Zhang, B. E. Patuwo, and M. Y. Hu, Forecasting with artificial neural networks: The state of the art, International journal of forecasting, 14 (1998), pp. 35–62.
[29] G. P. Zhang, Time series forecasting using a hybrid ARIMA and neural network model, Neurocom-puting, 50 (2003), pp. 159–175.
[30] Y. Zheng, Q. Liu, E. Chen, Y. Ge, and J. Zhao, Exploiting Multi-Channels Deep Convolutional Neural Networks for Multivariate Time Series Classification, Front. Comput. Sci., 10 (2016), pp. 96–112.
[18] Y. LeCun,L。Bottou,Y。Bengio和P. Haffner,基于梯度的學習應用于文檔識別,IEEE,86(1998),pp。2278-2324。
[19] M. Mathieu,M。Henaff和Y. LeCun,通過FFT快速訓練卷積網絡,ArXiv電子版,(2013年)。
[20] R. Mittelman,使用未抽取的全卷積神經網絡進行時間序列建模,arXiv預印本arXiv:1508.00317,(2015年)。
[21] P. Ramachandran,TL Paine,P。Khorrami,M。Babaeizadeh,S。Chang,Y。Zhang,MA Hasegawa-Johnson,RH Campbell和TS Huang,卷積自回歸模型的快速生成,arXiv預印本arXiv:1704.06001 ,(2017年)。
[22] O. Rippel,J。Snoek和R. P. Adams,卷積神經網絡的頻譜表示,第28屆國際神經信息處理系統會議NIPS15論文集,(2015年),第2449-2457頁。
[23] A. van den Oord,S。Dieleman,H。Zen,K。Simonyan,O。Vinyals,A。Graves,N。Kalchbrenner,A。Senior和K. Kavukcuoglu,WaveNet:原始音頻的生成模型,ArXiv電子版,(2016年)。
[24] A. van den Oord,N。Kalchbrenner和K. Kavukcuoglu,像素遞歸神經網絡,CoRR,abs / 1601.06759(2016)。
[25] A. van den Oord,N。Kalchbrenner,O。Vinyals,L。Espeholt,A。Graves和K. Kavukcuoglu,《使用PixelCNN解碼器的條件圖像生成》,CoRR,abs / 1606.05328(2016年)。
[26] Z. Wang,W。Yan和T. Oates,《使用深度神經網絡從頭開始的時間序列分類:強大的基線》,CoRR,abs / 1611.06455(2016)。
[27] F. Yu和V. Koltun,通過膨脹卷積進行多尺度上下文聚合,ArXiv電子版,(2015年)。
[28] G. Zhang,B。E. Patuwo和M. Y. Hu,《使用人工神經網絡進行預測:最新技術》,國際預測雜志,第14期(1998年),第35-62頁。
[29] G. P. Zhang,使用混合ARIMA和神經網絡模型進行時間序列預測,Neurocomputing,50(2003年),第159-175頁。
[30]鄭Y,劉Q,陳鄂,葛Y,趙J,為多變量時間序列分類開發多通道深度卷積神經網絡,前面。計算Sci。,10(2016),第96–112頁。
下面就是我閱讀論文后對論文的理解