Chapter 3 計量經濟學導讀(Econometrics, a guided tour)
數據收集
· 能夠運用到計量經濟模型中去的經濟數據來源很多,主要有以下三種:
橫截面數據(cross-section data)
通常是關于n個個體(廣義上理解,可以是企業或國家之類的實體單位)的觀測值。重復觀測的橫截面數據(repeated cross-section data)
即隨時間變化而觀測到的各個個體行為。若時間序列所涉及到的都是同一橫截面的個體,則所得到的數據稱為面板數據(panel data)。考慮使用面板數據的主要原因是,時間序列中的各個不同個體具有共同的性質,沒有必要考察幾個獨立的回歸模型。縮并的面板數據(condensed panel data)
該類型的數據涉及的個體數目只有一個或者由n個個體求平均后縮并而成的單一的變量,前者如騰訊公司每日股票收益率(時間序列數據),后者如港交所股票平均收益率。
· 一般而言,如果觀測數據都十分可靠,數據越多,得到的結果就可能越準確。然而,更多的數據也意味著更加宏大的模型,模型會變得更加復雜,相應的參數估計量也會變得更加困難(more involved)。
· 對于數據收集,有一點可以肯定,如果能夠收集到非匯總數據(disaggregated data),則應首先考慮采集此種數據,原因很簡單,非匯總數據可以匯總為匯總數據(aggregated data),而反之,則通常不可為。
· 數據中存在的問題有很多種,最為常見的情況是缺失數據(missing data)以及收集到的數據可能非隨機(collected data are not random)。缺失數據可能是①遺漏了相關變量的一些觀測值②遺漏變量(omitted variables)。對于遺漏變量,彌補的方法之一是把這些所謂的不可觀測異質性(unobserved heterogeneity)轉變為一些變化的參數(varying parameters)。
·關于數據的“終極三問”:在進行數據分析時,應該弄清楚如下問題:“數據是從哪里得來的?”“這些數據又是如何收集的?”“是否存在并非所有相關數據都可以得到,因而樣本并不是隨機的可能性?”只有能確信這些問題都不存在,才能進一步地利用適當的模型繼續研究,否則就應該首先收集更多或更好的數據,或根據實際情況修正估計量。(評:私以為很多情況下數據的獲取難度是非常大的,可能對于普通的研究人員來說,根據情況修正估計量才是現實的選擇。)
模型選擇
· 選擇一個適當的計量經濟模型主要取決于被解釋變量yi的性質,而與解釋變量xi的關聯性相對要小一些。
實證分析(Empirical analysis)
· 參數估計方法
OLS(ordinary least squares)、廣義最小二乘法(generalized least squares)、非線性最小二乘法(nonlinear least squares)
最大似然法(ML, Maximum Likelihood)
貝葉斯方法(Bayesian method)
· 自由度(degrees of freedom):等于樣本觀測數據個數與需要估計的未知參數個數之差。如果沒有不確定性情況存在,自由度就為零。擁有較多的自由度可以使我們所作出的結論更有可信度,而沒有自由度則使數據得到完全擬合。盡可能多地擁有自由度,也就是說盡量使模型包含的變量不太多,因而不必估計太多的參數。
· 杜賓-瓦爾森檢驗(Dubin-Watson test),曾是最早出現的檢驗方法之一,標志著檢驗計量經濟模型時代的開始,但現在看來,該檢驗只有在極其特殊的情形下方能有用。
· 模型和數據擬合的度量通常可以用判定系數(coeffcient of determination)或R^2(R-squared)來表示。值總是居于0和1之間,值為1時表示擬合的相當好,為0時表示擬合的很差。