如何看待數據和模型(模型為大,數據次之)
模型是對現實世界的抽象,抓住主要矛盾/反饋環/邏輯,來解釋和預測現實世界的運行,相當于對真相的抽絲剝繭,降維處理。
數據可以評價模型對現實世界的擬合功效,是現實世界投射到一個維度的客觀反饋。
如果模型和數據可以復制或刻畫現實世界的話,那現實世界一定是從一個高維的復雜系統投射到數據和模型中的。可以想象,至少疊加時間之后,一個四維(長、寬、高、時間)的客觀事物就出現了,一個側面的照片可以給我們部分反映客觀世界。
數據和模型是否足夠刻畫現實世界?當然不能,主要的差異在人心。現實世界由客觀和主觀部分構成,經濟中的參與者也會通過本身的買賣行為對可換世界產生影響,從而影響時間軸的走向。從這個方面講,這個四維世界中的時間維度,可以說是主觀部分的影響占主要因素。牛頓曾說過,他能夠測算天體運行的軌跡,卻不能計算人心瘋狂的程度。
數據是模型的影子,模型是數據的容器。雜亂地拿出幾條時間序列去分析相關性、趨勢是很難產生統一、自恰的認識的,反而經常在第一級推論上互相矛盾,給人一種不知所措的迷茫,這時,需要把數據放進一個模型或者邏輯鏈條中去理解,在邏輯中加入預期的因素,有時候往往發現問題變得容易理解。
因此,尊重數據和模型,但不迷信,不直接把數據和模型作為交易的依據,通過數據和模型構建的策略有足夠的容錯空間,虧錢了也不要全把責任賴在數據上,是一種理性的態度。
數據存在的問題
數據是對現實世界一個側面的刻畫,用量化的手段記錄真實世界(reality)的運行情況,但在宏觀數據上,通常具備以下弱點:一是時效性不強,很難依據數據有效轉換投資策略,往往被價格是市場走勢領先;二是存在統計誤差;三是統計口徑差異導致比較困難;四是數據頻率不夠高。每一項弱點都會影響數據質量,進而影響數據分析的結果。
因此,在使用數據分析的時候,首要就是看數據的出處、定義、范圍、統計頻率、單位等細節,避免出現使用謬誤。
數據處理的方法
常見的數據處理方法有:單位化(CPI)、同比、環比、取log(分析價格走勢)、移動平均、極值、波動率、相關性、情境分析、敏感度分析等,針對不同的數據類型,使用合理的方法進行處理。(例子)
數據分析的目標(宏觀多為時間序列數據)
一是數據之間的歷史分位水平、走勢情況(單時間序列數據)、相關性、因果關系(格蘭杰因果關系)、領先滯后關系等都是需要觀察檢驗的地方。
二是分析數據可以證明or證偽相應的關于經濟走勢、市場走勢的原因,并針對目前情況對未來進行合理的線性外延推測。
三是通過對一到兩個季度宏觀環境的預測,找出在相應參數下最優的資產配置策略,挖掘不同大類資產的相關性,找出風險收益比最佳的交易。