狀態空間模型為時間序列分析提供了一種靈活的方法,尤其是在簡化最大似然估計和處理缺失值方面。
結構時間序列模型(structural time series model)
最基本的一元不可觀測項模型,具有形式
其中,μt,γt和ωt分別表示不可觀測的趨勢項、季節項、循環項。et表示不可觀測的不規則項。在文獻中,通常用非平穩(可能帶二重單位根)模型來描述趨勢項:
以下內容2016.5.8更新
·關于季節效應(seasonal effect)
在時間序列分析中,重復出現的模式被稱為季節效應。當時間序列由每小時、每天、每月或每季度的觀測值構成,則其重復周期為24(小時)、7(天)、12(月)或者4(季度),這就需要注意時間序列所存在的季節效應。
在狀態空間框架下,季節效應可應用在局部水平模型或者局部線性趨勢模型中增加季節成分來建模。
·關于診斷檢驗
線性高斯模型的所有顯著性檢驗都基于對三個殘差假設的分析。這些殘差應當滿足如下三個特性,按重要性依次列出:
(1)獨立性(independence)
(2)同方差(homoscedasticity)
(3)正態分布(normality)
先從第一個也是最重要的假設開始:獨立性。殘差的獨立性假設可以被Ljung-Box Q統計量查證。
摘錄一段解釋:
什么是LBQ統計量?
Ljung-Box q 統計量用于檢驗某個時間段內的一系列觀測值是不是隨機的獨立觀測值。如果觀測值并非彼此獨立,一個觀測值可能會在 k 個時間單位后與另一個觀測值相關,形成一種稱為自相關的關系。自相關會削減基于時間的預測模型(例如時間序列圖)的準確性,并導致數據的錯誤解釋。
例如,一家電子公司對電池的月銷售量跟蹤記錄五年。他們想使用這些數據來設計一個時間序列模型,以幫助預測未來的銷售額。但是,月銷售額可能會受季節趨勢影響。例如,當人們為圣誕玩具購買電池時,每年這個時候的銷售額都會提升。因此某一年的月銷售額觀測值可能會與 12 個月后(滯后為 12)的月銷售額觀測值相關。
在選擇時間序列模型之前,他們可以評估月銷售額差異的自相關。Ljung-Box Q (LBQ) 統計量將檢驗最多滯后 k 的自相關等于零的原假設(即,數據值在某一滯后數 — 在本例中為 12 — 之前是隨機和獨立的)。如果 LBQ 大于特定臨界值,則一個或多個滯后的自相關可能顯著不同于零,說明在這段時間內各個值并不是獨立和隨機的。
LBQ 還用于在擬合時間序列模型(例如 ARIMA)后評估假設,以確保殘差彼此獨立。
Ljung-Box 是一種 Portmanteau 檢驗,同時也是 Box-Pierce 卡方統計量的修訂版。
Q統計量是一般性總括檢驗,自相關分析圖中,用來檢查K階聯合自相關系數是否偏離零值。臨界值為K階的卡方分布臨界值χ2(K;0.05)。若 Q統計量值大于臨界值,則整個前K階自相關系數估計值偏離于零,意味著獨立性的零假設被拒絕。若觀測值的Q統計量小于臨界值,則獨立性的零假設未被拒絕,即沒有理由假設殘差存在序列相關。
獨立性還可以用殘差的滯后1階自相關系數r(1)的值來檢驗。其臨界值為95%的置信區間±2/sqrt(n)。當r(1)值在這個區間內時,則假設成立,反之被拒絕。
第二個重要的假設是殘差的同方差假設。
在STAMP中,該假設是由H統計量來檢驗的。我找了好久資料也沒有找到這個所謂的H統計量的來源,可能是自己定義的。姑且先不追根溯源,這個H統計量檢驗殘差的兩個相同部分的連續方差是否相等。H(h)的值與F(h,h;0.025)進行比較,若H(h)>1,則當其小于F值時,假設成立,反之被拒絕;若H(h)<1,則利用1/H(h)與F值進行比較。
P.S. F分布臨界值可以用EXCEL函數FINV(probability, deg_freedom1, deg_freedom2)計算。
第三個重要的假設是殘差為正態分布。
在STAMP中,N統計量檢驗殘差分布的偏度和峰度是否符合正態分布。使用自由度為2的卡方分布來檢驗。χ2(2;0.05)=5.99,若N小于這個值,則零假設沒有被拒絕,反之被拒絕。