因為教書,所以,在講解相關的概念和技術的時候,總是習慣首先從大處著眼
,然后在小處入手
。所謂從大處著眼
,就是梳理下概念和技術的源流和歷史;在小處入手
就是總是使用具體的例子來講解。這樣,才能既有對相關專題的宏觀把握,又能直觀地領會背后的數學。
統計學
了解統計學思想更為有趣,其實也更為重要
統計學,想來理工科的人都學習過。不過,可能也都有頭疼的感覺:似乎學習統計學就必須先學習概率論,可概率論就向一座山,想要弄懂并不容易(我要承認,我是沒有深入體會的)。
因為自己學習某一理論總是習慣了解其后的歷史,所以,也了解到統計學早期的一些有趣的軼事。知道,最早使用統計學
來認知社會現象的時候,并不是學會了概率論才行的。更像是,先做了,然后才是夯實理論基礎 - 這在數學發展的過程中是屢見不鮮的。
約翰 · 格朗特(1620-1674)。他以 1604 年倫敦教會每周一次發表的 “死亡公報” 為研究資料,在 1662 年發表了《關于死亡公報的自然和政治觀察》的論著。書中分析了 60 年來倫敦居民死亡的原因及人口變動的關系,首次提出通過大量觀察,可以發現新生兒性別比例具有穩定性和不同死因的比例等人口規律;并且第一次編制了“生命表”,對死亡率與人口壽命作了分析,從而引起了普遍的關注。他的研究清楚地表明了統計學作為國家管理工具的重要作用。
1654年,兩位法國數學家帕斯卡和費馬通過通信討論解決了由賭徒分配賭金引起的"點數問題",才標志著概率論的誕生,因此公認的概率論創始人是帕斯卡與費馬。
比利時的阿道夫 · 凱特勒(1796-1874)在19 世紀中葉正式把古典概率論引進統計學,使統計學進入一個新的發展階段,其主要著作有:《論人類》、《概率論書簡》、《社會制度》和《社會物理學》等。他主張用研究自然科學的方法研究社會現象。
所以,了解統計學的思想,并不需要嚴格的概率論的知識。不過,現在的書籍大多秉承了倒敘
的方式,總是將后來的解釋- 也就是理論基礎
先說一大堆,然后才是嚴謹地
將鮮活的
統計學思想妥善地隱藏在紛繁復雜的各個章節中。很多時候,學習統計學的人在概率論就已經死去了
:smile:
其實,統計學的很新內容是很簡潔明了的,也就是基于分布的小概率邏輯推斷而已。
核心就是基于分布的小概率邏輯推薦
我們都有這樣的經歷,當你習慣了每天某一時刻會發生某件事時(如日出日落),突然有一天此事不再發生,你必然會覺得很奇怪,會推測是不是因為什么原因導致了此事在今天沒有發生。
其實,將此種現象在數學(統計學)中提煉出來就是小概率事件(Small Probability Event)。為了量化這樣的概念,統計學中做了嚴謹的理論構建,也就是概率論等的價值所在。
為此,統計學理論的基本任務就是:
- 某一事件發生的分布(Distribution)。
- 所謂的分布,簡單地講就是事件發生的頻率。如果事件有多種取值,每一值也就有對應的頻率。這也是早期概率的定義。常見的有四種分布 - 也就是后面正態,學生,卡方和費舍爾
- 這里有個問題,那就是如何獲得分布。除了一些理論可以推定的,很多現實中的問題都是通過樣本來推定總體的分布的。那么,這種推定是否正確?這就是學者要證明的 - 很多時候就需要數學家了。概率論便是這類學者要用到的工具。
- 基于小概率事件(SPE)進行推斷
- 有了前面的分布,在指定事件取值的主要區間(按照設定的規則,可以建立取值區間與可能程度 - 也就是概率 - 的對應關系,即給定98%的可能程度,就有對應的取值范疇),那么,剩下的取值范疇就是所謂的小概率事件的范疇,每一個被小概率事件的范疇覆蓋的取值就是小概率事件了。
- 所謂小概率事件的意義就在于,按照事件取值的可能程度,小概率事件發生的可能性是很低的。如果有一次抽查就遇到了小概率事件,也就是"不應該發生的發生了",這就意味著有兩種推斷:
- 原來的分布是有問題的
- 此次事件是有特殊的原因導致的
常見統計學書籍的章節雖然很多,其實都是可以從上面衍生出來的。
基本的四個分布 - 正態,學生,卡方和費舍爾
以正態分布為例
下圖即為標準正態分布(Standard Normal Distribution)的示意。橫坐標上就是隨機變量(與事件是綁定的)的取值;那個鐘型曲線覆蓋下的面積就是對應于相應取值范疇的可能程度(概率)。例如,變量取值在[0, 0.5]時,概率是19.1%。
對于像正態分布這類的對稱形狀,如果指定以0點所在的位置對稱向左右等距擴展作為規則,得到的區間和概率是一一對應的。如,[-1,1]對應的概率就是2*(15+19.1) = 30+38.2 = 68.2%。此時,-1和1就是概率68.2%所對應的的關鍵值(Critical Value)。
而按照慣例,我們通常會指定比較大的概率(常用的多是大于或等于95% - 如95%, 96%, 98%等)作為事件可能取值的極大可能程度,在統計學中稱為置信度(Confidence Level)。如下圖所示:95.4%是很大的概率了,對應的關鍵值是-2和2,[-2,2]也就是統計學書籍中對應95.4%置信度的置信區間(Confidence Interval)。
對應的,排除在置信區間之外的可能取值范疇就是我們所感興趣的小概率事件區間(SPE Interval)。如下圖示。如果再一次抽樣中得到的統計變量的值落入此小概率事件區間中,那么,按照核心就是基于分布的小概率邏輯推薦中的敘述,我們就有理由做兩種推斷了。
剩下的就是如何計算給定置信度下的置信區間。這也是統計學書籍的主要內容。感謝前人的艱苦付出,他們完成了很多分布的計算表格,如果你遇到計算給定置信度下的置信區間
的問題,去查表即可。
說起來,統計學的基本內容也就是圍繞著兩個計算問題展開的:
- 如何基于樣本計算分布的參數
- 計算給定置信度下的置信區間
正態分布下求解雙尾置信區間的例子
下面給出一個求解置信度95%的雙尾(2 Tails,也就是要求對稱的置信區間。與之對應的是單尾,即對應置信度95%的單尾置信區間是從-∞到關鍵值)置信區間的例子。想要完成計算,就必須了解如何使用計算表(Table of Normal Distribution)。
想要準確使用計算表,就要注意與表格對應的示意圖(Indicator)。上面圖中左側就是對應的示意圖,表示對應[0,0.45]的概率是0.1736,即計算表格中深藍色箭頭所示意的。
如果想要求解置信度95%的雙尾置信區間,也就是要求找到某個x值,[-x,x]區間上的概率恰好就是95%。想要使用上面的計算表格完成x的查找,就要做一點小小的轉換。
因為正態分布是對稱的,那么,[-x,x]區間上的高綠要保證是95%,也就意味著[0,x]區間上的概率必須是95%的二分之一,即47.5%=0.4750。查表得到x=1.96。即置信區間是[-1.96,1.96]。
注意:此處的示例是對應標準正態分布的計算。不過,實際正態分布變量的置信區間計算也很簡單,就是借助正態分布到標準正態分布的轉換公即可,也就是上圖中左側示意圖下面所標識的公式,其中z對應標準正態分布變量,x是實際的變量(當然要要確保x是正態分布),μ和σ是正態分布的兩個參數 - 均值和標準方差。
Example: Your business – Quality Control:
Your company is majoring to produce some products, whose size is firmly required: μ=21 mm, and the variance should be smaller than σ≤0.1 5 mm.
Today, you pick 9 products from that collection, and measure the average length of those 9 products is 21.4 mm.
Are you confident (95%-2 tail) with the quality of your products?
Solution:
其他分布
前面提到,統計學的基本內容是依賴于分布的,一般教科書中提到的主要就是四種分布 - 前面的正態分布,學生分布,卡方分布,以及費舍爾分布。
如下圖所示,針對不同的統計變量,就會有已經證明了的統計分布與之相對應;而剩下的計算也仍然是前面介紹的套路:或者估計相應分部的參數;或者計算給定置信度的置信區間,然后進行推斷。
其中比較有趣的是所謂的ANOVA - ANalysis Of VAriance (方差估計)。雖然名字里有方差一次,實際的應用跟方差沒啥關系。有興趣的請自行檢索。
統計學章節概覽
在有了前面的儲備后,看看常見的統計學的書籍,也就沒那么障礙了。
[概率論與數理統計]
https://book.douban.com/subject/2201479/
作者: 陳希孺
出版社: 中國科學技術大學出版社
出版年: 2009-2
頁數: 385
定價: 38.00元
叢書: 陳希孺文集
ISBN: 9787312018381
章節目錄 | 備注 |
---|---|
總序 序 第1章 事件的概率 第2章 隨機變量及概率分布 第3章 隨機變量的數字特征 |
概率論的東西 |
第4章 參數估計 4.1 數理統計學的基本概念 4.2 矩估計、極大似然估計和貝葉斯估計 4.3 點估計的優良性準則 4.4 區間估計 |
對應分布的估計,顯然包括區間估計的計算 |
第5章 假設檢驗 |
其實是基于小概率事件邏輯推斷的一種描述而已,核心的計算仍然是小概率區間。 當基于樣本得到的值落在小概率區間,則推翻零假設;否則不能推翻 切記:不能推翻零假設,并不意味著就證明零假設是對的! |
第6章 回歸、相關與方差分析 6.1 回歸分析的基本概念 6.2 一元線性回歸 6.3 多元線性回歸 6.4 相關分析 6.5 方差分析 |
這里的內容都會發現完成復雜的運算,而基于分布的計算部分仍然是類似的 例如線性回歸后估計預測的可信度;相關分析是否可信;ANOVA 能否否定產品不同設計與銷售沒有關系,等 |
附錄 習題 習題提示與解答 附表 |
其實,還有一些統計學書籍也會講因子分析、PCA等內容納入。不贅述 |
多元統計分析章節概覽
[應用多元統計分析]
https://book.douban.com/subject/1239695/
作者: 高惠璇
出版社: 北京大學出版社
出版年: 2005-1
頁數: 419
定價: 28.00元
裝幀: 簡裝本
叢書: 北京大學數學教學系列叢書
ISBN: 9787301078587
目錄 | 備注 |
---|---|
第一章 緒論 第二章 多元正態分布及參數的估計 第三章 多元正態總體參數的假設檢驗 第四章 回歸分析 |
嗯,雖則內容肯定不同;但套路應該還是類似的 |
第五章 判別分析 §5.1 距離判別 §5.2 貝葉斯(Bayes)判別法及廣義平方距離判別法 §5.3 費希爾(Fisher)判別 §5.4 判別效果的檢驗及各變量判別能力的檢驗 §5.5 逐步判別 習題五 |
這在數據挖掘(Data Mining)里會歸入分類,在機器學習(Machine Learning)里歸入指導下的學習算法(Suppersized Learning) |
第六章 聚類分析 §6.1 聚類分析的方法 §6.2 距離與相似系數 §6.3 系統聚類法 §6.4 系統聚類法的性質及類的確定 §6.5 動態聚類法 §6.6 有序樣品聚類法(最優分割法) §6.7 變量聚類方法 |
這在數據挖掘(Data Mining)里會歸入聚類,在機器學習(Machine Learning)里歸入無指導下的學習算法(Unsuppersized Learning) |
第七章 主成分分析 §7.1 總體的主成分 §7.2 樣本的主成分 §7.3 主成分分析的應用 |
就是PCA了,不依賴分布了 |
第八章 因子分析 §8.1 引言 §8.2 因子模型 …… |
不要跟基于回歸的影響因子分析相混淆。 |
第九章 對應分析方法 |
以后再了解吧 |
第十章 典型相關分析 |
相關呀 |
第十一章 偏最小二乘回歸分析 |
這是從優化論的角度計算回歸問題 |
附錄 矩陣代數 部分習題參考解答或提示 參考文獻 主要符號說明 索引 |
個人覺得,多元統計分析,很多內容已經跟后來的數據挖掘和機器學習相重合了。已經不是嚴重依賴分布的統計學傳統套路了。不過,這類方法也仍然稱之為統計學習(Statistical Learning)
[統計學習方法(第2版)]
https://book.douban.com/subject/33437381/
統計學習方法
[統計學習方法(第2版)]
https://book.douban.com/subject/33437381/
作者: 李航
出版社: 清華大學出版社
出版年: 2019-5-1
頁數: 464
定價: 98.00元
裝幀: 平裝
ISBN: 9787302517276
目錄
第一篇 監督學習
第二篇 無監督學習
第13章 無監督學習概論
13.1.1 無監督學習基本原理
13.1.2 基本問題
13.1.3 機器學習三要素
13.1.4 無監督學習方法
第14章 聚類方法
14.1 聚類的基本概念
14.1.1 相似度或距離
14.1.2 類或簇
14.1.3 類與類之間的距離
14.2 層次聚類
14.3 k均值聚類
14.3.1 模型
14.3.2 策略
14.3.3 算法
14.3.4 算法特點
本章概要
第15章 奇異值分解
15.1 奇異值分解的定義與性質
15.1.1 定義與定理
15.1.2 緊奇異值分解與截斷奇異值分解
15.1.3 幾何解釋
15.1.4 主要性質
15.2 奇異值分解的計算
15.3 奇異值分解與矩陣近似
15.3.1 弗羅貝尼烏斯范數
15.3.2 矩陣的優近似
15.3.3 矩陣的外積展開式
本章概要
第16章 主成分分析
16.1 總體主成分分析
16.1.1 基本想法
16.1.2 定義和導出
16.1.3 主要性質
16.1.4 主成分的個數
16.1.5 規范化變量的總體主成分
16.2 樣本主成分分析
16.2.1 樣本主成分的定義和性質
16.2.2 相關矩陣的特征值分解算法
16.2.3 數據局正的奇異值分解算法
本章概要
繼續閱讀
習題
參考文獻
第17章 潛在語義分析
17.1 單詞向量空間與話題向量空間
17.1.1 單詞向量空間
17.1.2 話題向量空間
17.2 潛在語義分析算法
17.2.1 矩陣奇異值分解算法
17.2.2 例子
17.3 非負矩陣分解算法
17.3.1 非負矩陣分解
17.3.2 潛在語義分析模型
17.3.3 非負矩陣分解的形式化
17.3.4 算法
本章概要
第18章 概率潛在語義分析
18.1 概率潛在語義分析模型
18.1.1 基本想法
18.1.2 生成模型
18.1.3 共現模型
18.1.4 模型性質
18.2 概率潛在語義分析的算法
本章概要
第19章 馬爾可夫鏈蒙特卡羅法
19.1 蒙特卡羅法
19.1.1 隨機抽樣
19.1.2 數學期望估計
19.1.3 積分計算
19.2 馬爾可夫鏈
19.2.1 基本定義
19.2.2 離散狀態馬爾可夫鏈
19.2.3 連續狀態馬爾可夫鏈
19.2.4 馬爾可夫鏈的性質
19.3 馬爾可夫鏈蒙特卡羅法
19.3.1 基本想法
19.3.2 基本步驟
19.3.3 馬爾可夫鏈蒙特卡羅法與統計學習
19.4 Metropolis-Hastings算法
19.4.1 基本原理
19.4.2 Metropolis-Hastings算法
19.4.3 單分量Metropolis-Hastings算法
19.5 吉布斯抽樣
19.5.1 基本原理
19.5.2 吉布斯抽樣算法
19.5.3 抽樣計算
本章概要
第20章 潛在狄利克雷分配
20.1 狄利克雷分布
20.1.1 分布定義
20.1.2 共軛先驗
20.2 潛在狄利克雷分配模型
20.2.1 基本想法
20.2.2 模型定義
20.2.3 概率圖模型
20.2.4 隨機變量序列的可交換性
20.2.5 概率公式
20.3 LDA的吉布斯抽樣算法
20.3.1 基本想法
20.3.2 算法的主要部分
20.3.3 算法的后處理
20.3.4 算法
20.4 LDA的變分EM算法
20.4.1 變分推理
20.4.2 變分EM算法
20.4.3 算法推導
20.4.4 算法總結
本章概要
第21章 PageRank算法
21.1 PageRank的定義
21.1.1 基本想法
21.1.2 有向圖和隨機游走模型
21.1.3 PageRank的基本定義
21.1.4 PageRank的一般定義
21.2 PageRank的計算
21.2.1 迭代算法
21.2.2 冪法
21.3.3 代數算法
本章概要
第22章 無監督學習方法總結
22.1 無監督學習方法的關系和特點
22.1.1 各種方法之間的關系
22.1.2 無監督學習方法
22.1.3 基礎及其學習方法
22.2 話題模型之間的關系和特點
參考文獻
附錄A 梯度下降法
附錄B 牛頓法和擬牛頓法
附錄C 拉格朗日對偶性
附錄D 矩陣的基本子空間
附錄E KL散度的定義和狄利克雷分布的性質
索引
題外話
仍然是:證明才難!不過,先體會整體框架也同樣重要!!
那些分布函數的由來
了解一下分布的由來也很有趣
- [正態分布的前世今生]
- [數理統計學簡史]
https://book.douban.com/subject/1522839/
涉及經濟民生的那些指數
CPI,GDP之類
還有股票市場的那些指數
一些有趣的視頻
BBC拍了幾部有關數據分析的視頻,值得看看
- 2010.BBC.樂在其中統計學.The.Joy.of.Stats
- 2013.BBC.地平線.大數據時代.horizon.the.age.of.big.data
- 2016.BBC.The.Joy.of.Data
最后是幾本專業書
- [Statistical Methods for the Social Sciences, 4/E]
https://book.douban.com/subject/3868520/
- [應用多元統計分析]
https://book.douban.com/subject/1239695/
- [實用多元統計分析]
https://book.douban.com/subject/3519805/