Kosorok MR (2008) Introduction to empirical processes and semiparametric inference, 1st edn. Springer
3.1半參數模型和效率
統計模型是在樣本空間X上的概率測量{P∈P}的集合。這樣的模型可以以P = {Pθ:θ∈Θ}的形式表示,其中θ是一些參數空間。 半參數模型是其中Θ具有一個或多個無限維分量的統計模型。 例如,線性回歸模型的參數空間(1.1),其中
Y = β'Z + e
由兩個分量組成,即p維歐氏空間的子集(對于回歸參數β)和(e,Z)的所有聯合分布函數的無限維空間。半參數推理的目的是建立用于評估半參數模型參數的最佳估計量和測試統計量。
[學習資料] 參數、非參、半參模型
參數回歸是我們最長用的模型。與參數回歸相對的非參數回歸,這種模型對變量分布等假定并不是很嚴等,因此可以說擴展了參數回歸的應用范圍。但是非參數回歸的局限性在于,在存在較多的解釋變量時,很容易出現所謂的“維度災難”,像方差的急劇增大等現象。這類模型包括實例回歸,局部加權回歸(LOESS)和樣條回歸。非參數方法一般適用于低維空間(較少的解釋變量)。該局部加權回歸曲線是利用點附近的點信息,使用的點信息越多,曲線與擬合直線越接近;使用的點信息越少,與散點越吻合。在變量間非線性關聯較強的情況下,相比普通回歸,通常更穩健一些。
介于參數回歸與非參回歸之間的就是半參數模型,這種模型結合了前面兩種參數模型的諸多優點,例如使用的連接函數、分析形式多樣化,而且光滑參數值的確認均可以使用廣義交叉驗證技術。其應用情景首先是因變量在不符合正態分布時,該模型的結果仍然很穩定,我們可以選擇不同的分布形式等。非參數模型的另一個典型應用是可以對具有截尾數據的資料進行生存預測。例如,普通生存分析,并沒有很好的解決多解釋變量的情況,并且對分布有特定的需求,而且當相關假定違反時,往往會對模型產生很大的影響,半參數生存分析回歸模型克服了上述參數法的諸多局限,可以靈活地處理許多未知分布與不服從參數分布類型的資料。
另外,一個比較容易混淆的是廣義可加模型(使用連接函數的可加模型),與廣義線性模型很相似,主要使用非參估計的方法。