一、基本概念
1.隨機時序分析的基本概念
1)隨機變量:簡單的隨機現(xiàn)象,如某班一天學生出勤人數(shù),是靜態(tài)的。
2)隨機過程:隨機現(xiàn)象的動態(tài)變化過程。動態(tài)的。如某一時期各個時刻的狀態(tài)。
所謂隨機過程,就是說現(xiàn)象的變化沒有確定形式,沒有必然的變化規(guī)律。用數(shù)學語言來說,就是事物變化的過程不能用一個(或幾個)時間t的確定的函數(shù)來描述。
如果對于每一特定的t屬于T(T是時間集合),X(t)是一個隨機變量,則稱這一族無窮多個隨機變量{X(t),t屬于T}是一個隨機過程。
2.白噪聲序列
1)純隨機過程:隨機變量X(t)(t=1,2,3……),如果是由一個不相關的隨機變量的序列構成的,即對于所有s不等于k,隨機變量Xs和Xk的協(xié)方差為零,則稱其為純隨機過程。
2)白噪聲過程:如果一個純隨機過程的期望和方差均為常數(shù),則稱之為白噪聲過程。白噪聲過程的樣本實稱成為白噪聲序列,簡稱白噪聲。
3)高斯白噪聲序列:如果白噪聲具體是服從均值為0、方差為常數(shù)的正態(tài)分布,那就是高斯白噪聲序列。
3.平穩(wěn)性序列
1)平穩(wěn)性可以說是時間序列分析的基礎。平穩(wěn)的通俗理解就是時間序列的一些行為不隨時間改變, 所謂平穩(wěn)過程就是其統(tǒng)計特性不隨時間的平移而變化的過程。
2)即時間序列內含的規(guī)律和邏輯,要在被預測的未來時間段內能夠延續(xù)下去。這樣我們才能用歷史信息去預測未來信息,類似機器學習中的訓練集和測試集同分布。
3)如果時間序列的變化是沒有規(guī)律的、完全隨機的,那么預測模型也就沒有用。
4)平穩(wěn)性的數(shù)學表達:如果時間序列在某一常數(shù)附近波動且波動范圍有限,即有常數(shù)均值和常數(shù)方差,并且延遲k期的序列變量的自協(xié)方差和自相關系數(shù)是相等的或者說延遲k期的序列變量之間的影響程度是一樣的,則稱該序列為平穩(wěn)序列。簡單說就是沒有明顯趨勢且波動范圍有限。
4.嚴平穩(wěn)/強平穩(wěn)
1)通俗來說,就是時間序列的聯(lián)合分布隨著時間變化嚴格保持不變。
2)數(shù)學表達:如果對所有的時刻 t, (yt1,yt2,…ytm)的聯(lián)合分布與(y(t1+k),(yt2+k),…y(tm+k))的聯(lián)合分布相同,我們稱時間序列 {yt} 是嚴平穩(wěn)的。也就是時間序列的聯(lián)合分布在時間的平移變換下保持不變。
5.弱平穩(wěn)
1)數(shù)學表達:均值不變,協(xié)方差Cov(yt,y(t-k))=γk,γk依賴于k。
2)即協(xié)方差也不隨時間改變,而僅與時間差k相關。
3)可以根據(jù)根據(jù)時間序列的折線圖等大致觀察數(shù)據(jù)的(弱)平穩(wěn)性:*所有數(shù)據(jù)點在一個常數(shù)水平上下以相同幅度波動。
4)弱平穩(wěn)的線性時間序列具有短期相關性(證明見參考書),即通常只有近期的序列值對現(xiàn)時值得影響比較明顯,間隔越遠的過去值對現(xiàn)時值得影響越小。至于這個間隔,也就是下面要提到的模型的階數(shù)。
6.嚴平穩(wěn)和弱平穩(wěn)的關系
1)嚴平穩(wěn)是一個很強的條件,難以用經(jīng)驗的方法驗證,所以一般將弱平穩(wěn)性作為模型的假設條件。
2)兩者并不是嚴格的包含與被包含關系,但當時間序列是正態(tài)分布時,二者等價。
7.單位根非平穩(wěn)序列(可轉換為平穩(wěn)序列的非平穩(wěn)序列)
在金融數(shù)據(jù)中,通常假定資產收益率序列是弱平穩(wěn)的。但還有一些研究對象,比如利率、匯率、資產的價格序列,往往不是平穩(wěn)的。對于資產的價格序列,其非平穩(wěn)性往往由于價格沒有固定的水平,這樣的非平穩(wěn)序列叫做單位根(unit-root)非平穩(wěn)序列。
1)最著名的單位根非平穩(wěn)序列的例子是隨機游走(random walk)模型:
pt=μ+p(t-1)+εt
μ是常數(shù)項(漂移:drift)。εt是白噪聲序列,則pt就是一個隨機游走。它的形式和AR模型很像,但不同之處在于,AR模型中,系數(shù)的模需要小于1,這是AR的平穩(wěn)性條件,而隨機游走相當于系數(shù)為1的AR公式,不滿足AR模型的平穩(wěn)性條件。
隨機游走模型可作為(對數(shù))股價運動的統(tǒng)計模型,在這樣的模型下,股價是不可預測的。因為εt關于常數(shù)對稱,所以在已知p(t-1)的條件下,pt上升或下降的概率都是50%,無從預測。
2)帶趨勢項的時間序列
pt=β0+β1*t+yt,yt是一個平穩(wěn)時間序列。
帶漂移的隨機游走模型,其均值和方差都隨時間變化;而帶趨勢項的時間序列,其均值隨時間變化,但方差則是不變的常數(shù)。
單位根非平穩(wěn)序列可以進行平穩(wěn)化處理轉換為平穩(wěn)序列。比如用差分法處理隨機游走序列,用用簡單的回歸分析移除時間趨勢處理帶趨勢項的時間序列。
二、線性時間序列
時間序列模型根據(jù)研究對象是否隨機分為確定性模型和隨機性模型兩大類。對于確定性的模型,經(jīng)常采用滑動平均法和指數(shù)平滑法進行分析,而對于隨機性的時間序列,常用租模型進行分析。另外,對于某些特殊的金融時間序列,有時還要結合模型及其多種形式來刻畫其條件異方差性。
隨機時間序列模型即是指僅用它的過去值及隨機擾動項所建立起來的模型,其一般形式為:
建立具體的模型,需解決如下三個問題模型的具體形式、時序變量的滯后期以及隨機擾動項的結構。
μ是yt的均值;ψ是系數(shù),決定了時間序列的線性動態(tài)結構,也被稱為權重,其中ψ0=1;{εt}為高斯白噪聲序列,它表示時間序列{yt}在t時刻出現(xiàn)了新的信息,所以εt稱為時刻t的innovation(新信息)或shock(擾動)。
線性時間序列模型,就是描述線性時間序列的權重ψ的計量經(jīng)濟模型或統(tǒng)計模型,比如ARIMA。因為并非所有金融數(shù)據(jù)都是線性的,所以不是所有金融數(shù)據(jù)都適合ARIMA等模型。
三、非線性時間序列
1、ARIMA模型家族
①自回歸模型(AR)
用變量自身的歷史時間數(shù)據(jù)對變量進行回歸,從而預測變量未來的時間數(shù)據(jù)。
p階(滯后值,可暫理解為每個移動窗口有p期)自回歸公式即AR(p):
c是常數(shù)(與序列的均值有關),γ是自相關系數(shù)(大于0.5才有意義)(系數(shù)γi的模必須小于1),ε是誤差,{εt}是高斯白噪聲序列。
如果p=1,那么有AR(1):yt=c+γ1y(t-1)+εt,因為εt是高斯白噪聲,所以yt的期望E(yt)=c+γ1y(t-1),即yt的值將以c+γ1y(t-1)為中心取值,其擾動(方差)就是{εt}的方差。
并且結合前面提到弱平穩(wěn)線性時間序列的短期相關性,這說明yt只與yt-1相關,而與yt-i(i>1)都無關,這是AR(1)的馬爾可夫性質(類比一階馬爾可夫假設)。
②移動平均模型(MA)
移動平均模型關注的是誤差項的累加,能夠有效消除預測中的隨機波動。
可以看作是白噪聲序列的簡單推廣,是白噪聲序列的有限線性組合。也可以看作是參數(shù)受到限制的無窮階AR模型。
c是常數(shù)(yt序列的均值),{εt}是高斯白噪聲序列。
③自回歸移動平均模型(ARMA)
有時候,要用很多階數(shù)的AR和MA模型(見后面的定階問題),為解決這個問題提出ARMA模型。
對于金融中的收益率序列,直接使用ARMA模型的時候較少,但其概念與波動率建模很相關,GARCH模型可以認為是對{εt}的ARMA模型。
④自回歸差分移動平均模型(ARIMA)
ARIMA比ARMA僅多了個"I",代表的含義可理解為差分。
一些非平穩(wěn)序列經(jīng)過d次差分后,可以轉化為平穩(wěn)時間序列。我們對差分1次后的序列進行平穩(wěn)性檢驗,若果是非平穩(wěn)的,則繼續(xù)差分。直到d次后檢驗為平穩(wěn)序列。
⑤一般分析過程
1、 平穩(wěn)性檢驗
ADF檢驗(單位根檢驗):這是一種檢查數(shù)據(jù)穩(wěn)定性的統(tǒng)計測試。
原假設(無效假設):時間序列是不穩(wěn)定的。
2、 平穩(wěn)化處理
平穩(wěn)化的基本思路是:通過建模并估計趨勢和季節(jié)性這些因素,并從時間序列中移除,來獲得一個穩(wěn)定的時間序列,然后再使用統(tǒng)計預測技術來處理時間序列,最后將預測得到的數(shù)據(jù),通過加入趨勢和季節(jié)性等約束,來還原到原始時間序列數(shù)據(jù)。
2.0 對數(shù)變換
對某些時間序列需要取對數(shù)處理,一是可以將一些指數(shù)增長的時間序列變成線性增長,二是可以穩(wěn)定序列的波動性。對數(shù)變換在經(jīng)濟金融類時間序列中常用。
2.1 差分法
如果是單位根非平穩(wěn)的(比如隨機游走模型),可以對其進行差分化。它能讓數(shù)據(jù)呈現(xiàn)一種更加平穩(wěn)的趨勢。差分階數(shù)的選擇通常越小越好,只要能夠使得序列穩(wěn)定就行。
2.2 平滑法
移動平均、指數(shù)加權移動平均
注:經(jīng)差分或平滑后的數(shù)據(jù)可能因包含缺失值而不能使用檢驗,需要將缺失值去除
2.3 分解法
建立有關趨勢和季節(jié)性的模型,并從模型中刪除它們。
3 、建立模型:模型選擇和模型的定階
模型的選擇即在AR、MA、ARMA、ARIMA中間如何選擇。
模型的定階即指定上面過程中產生的超參數(shù)p、q和d(差分的階數(shù))。
(1)用ACF和PACF圖判斷使用哪種線性時間序列模型
AR模型:ACF拖尾,PACF截尾,看PACF定階。
MA模型:ACF截尾,PACF拖尾,看ACF定階。
ARMA模型:都拖尾。(EACF定階)
截尾:在某階后迅速趨于0(后面大部分階的對應值在二倍標準差以內);
拖尾:按指數(shù)衰減或震蕩,值到后面還有增大的情況。
ARIMA模型:適用于差分后平穩(wěn)的序列。
(2)利用 信息準則 函數(shù)選擇合適的階
對于個數(shù)不多的時序數(shù)據(jù),可以通過觀察自相關圖和偏相關圖來進行模型識別,倘若要分析的時序數(shù)據(jù)量較多,例如要預測每只股票的走勢,就不可能逐個去調參了。這時可以依據(jù)AIC或BIC準則識別模型的p, q值,通常認為AIC或BIC值越小的模型相對更優(yōu)。
AIC或BIC準則綜合考慮了殘差大小和自變量的個數(shù),殘差越小AIC或BIC值越小,自變量個數(shù)越多AIC或BIC值越大。AIC或BIC準則可以說是對模型過擬合設定了一個標準。
AIC (Akaike information criterion,赤池信息度量準則)
AIC=2k-2ln(L)
· BIC (Bayesian information criterion,貝葉斯信息度量準則)
BIC=kln(n)-2ln(L)
k為模型的超參數(shù)個數(shù),n為樣本數(shù)量,L為似然函數(shù)。
類比機器學習中的損失函數(shù)=經(jīng)驗損失函數(shù)+正則化項。
模型選擇標準:AIC和BIC越小越好(在保證精度的情況下模型越簡單越好)
4 、模型檢驗和評估(之前應切分訓練集和驗證集)
檢驗殘差是否符合標準(QQ圖):是否服從均值為0,方差是常數(shù)的正態(tài)分布(εt是否是高斯白噪聲序列)。
擬合優(yōu)度檢驗(模型的評估):R2和調整后的R2(R^2只適用于平穩(wěn)序列)。
5 、預測
如果之前進行了標準化、差分化等,需要進行還原:
標準化的還原要注意是log(x+1)還是log(x)。
2、條件異方差模型
1 、基礎概念
波動率
在期權交易中,波動率是標的資產的收益率的條件標準差。之前的平穩(wěn)序列假設方差為常數(shù),但當序列的方差不是常數(shù)時,我們需要用波動率對其變化進行描述。
對于金融時間序列,波動率往往具有以下特征:
存在波動率聚集(volatility cluster)現(xiàn)象。 即波動率在一些時間段上高,一些時間段上低。
波動率以連續(xù)時間變化,很少發(fā)生跳躍。
波動率不會發(fā)散到無窮,而是在固定的范圍內變化(統(tǒng)計學角度上說,其是平穩(wěn)的)
杠桿效應:波動率對價格大幅上升和大幅下降的反應是不同的。
波動率模型/條件異方差模型
給資產收益率的波動率進行建模的模型叫做條件異方差模型。這些波動率模型試圖刻畫的數(shù)據(jù)有這樣的特性:它們是序列不相關或低階序列相關的(比如股票的日收益率可能相關,但月收益率則無關),但又不是獨立的。波動率模型就是試圖刻畫序列的這種非獨立性。
定義信息集F(t-1)是包含過去收益率的一切線性函數(shù),假定F(t-1)給定,那么在此條件下時間序列yt的條件均值和條件方差分別表示為:
條件異方差模型就是描述σt2的演變的,σt2隨時間變化的方式可以用不同的波動率模型來表示。其建模方式就是對時間序列增加一個動態(tài)方程,來刻畫資產收益率的條件方差隨時間演變的規(guī)律。
2 、ARCH(AutoRegressive Conditional Heteroskedasticity,自回歸條件異方差)
ARCH模型將當前一切可利用信息作為條件,并采用某種自回歸形式來刻劃方差的變異。對于一個時間序列而言,在不同時刻可利用的信息不同,而相應的條件方差也不同,利用ARCH 模型,可以刻劃出隨時間而變異的條件方差。
模型的基本假設
資產收益率序列的擾動 {εt} 序列不相關,但又不獨立。
{εt}的不獨立性可以用其延遲值的簡單二次函數(shù)來描述。
數(shù)學形式:
{ηt}是均值為0方差為1的獨立同分布隨機變量序列,通常假定其服從標準正態(tài)分布或標準化學生-t分布 ;α0>0、αi(i>0)≥0,且能夠保證εt的無條件方差是有限的。
ARCH 效應
從上面模型的結構看,大的過去的平方“擾動”會導致信息εt大的條件異方差。從而εt有取絕對值較大的值的傾向。這意味著:在ARCH的框架下,大的"擾動"會傾向于緊接著出現(xiàn)另一個大的"擾動"。這與波動率聚集的現(xiàn)象相似。
所謂ARCH模型效應,也就是條件異方差序列既是序列無關、但又不是獨立的。
不相關只是說二者沒有線形關系,但是不排除其它關系存在,獨立就是互不相干沒有關聯(lián)。
ARCH 效應檢驗(結合ARIMA模型的第4步)
用混成檢驗(Ljung-Box)來對前面創(chuàng)建的均值模型(如ARMA或ARIMA)的殘差進行檢驗,判斷是否具有ARCH效應,如果具有ARCH效應,對殘差建立條件異方差模型。
ARCH 的缺點
無法表現(xiàn)金融資產的價格對正的擾動和負的擾動反應是不同的這一特性;
對參數(shù)的限制很強;
只是表現(xiàn)了條件方差的變化,但不能解釋為何發(fā)生這種變化。
3 、GARCH(Generalized AutoRegressive Conditional Heteroskedasticity,廣義ARCH)
雖然ARCH模型簡單,但為了充分刻畫收益率的波動率過程,往往需要很多參數(shù),有時會需要很高的ARCH(m)模型。因此,Bollerslev(1986)年提出了一個推廣形式,稱為廣義的ARCH模型(GARCH)。
α0>0,?i>0:αi?0,βi?0,(αi+βi)<1。對αi+βi的限定保證擾動序列的無條件方差是有限的。αi和βi分別叫做ARCH參數(shù)和GARCH參數(shù)。
與之前的ARCH模型建立過程類似,不過GARCH(m,s)的定階較難,一般使用低階模型如GARCH(1,1)、GARCH(2,1)、GARCH(1,2)等。
4 、更多條件異方差模型
求和GARCH、GARCH-M模型、指數(shù)GARCH、EGARCH模型等。還有另外一類波動率模型,比如隨機波動率模型。