《深入淺出統(tǒng)計(jì)學(xué)》
大綱
1.統(tǒng)計(jì)學(xué)的作用
2.集中趨勢(shì)的量度
3.分散性與變異性的量度
4.概率計(jì)算
5.離散概率分布的運(yùn)用
6.排列與組合
7.幾何分布、二項(xiàng)分布和泊松分布
8.正態(tài)分布的應(yīng)用
9.超越正態(tài)分布的應(yīng)用
10.統(tǒng)計(jì)抽樣的應(yīng)用
11.總體和樣本的估計(jì)
12.置信區(qū)間的構(gòu)建
統(tǒng)計(jì)學(xué)的作用
1.統(tǒng)計(jì)學(xué)可以幫助企業(yè)做出客觀的決策,能夠進(jìn)行精準(zhǔn)地預(yù)測(cè)
2.統(tǒng)計(jì)學(xué)能夠使我們個(gè)人避免遭人愚弄
- 信息與數(shù)據(jù)的區(qū)別:
- “數(shù)據(jù)”是指所收集的原始事實(shí)與數(shù)字。
- “信息”是指加入了某種意義的數(shù)據(jù)
例如 ,數(shù)字5、6、7 只是數(shù)字,并不知道有何含義——數(shù)據(jù)
告訴這幾個(gè)數(shù)代表三個(gè)孩子的年齡,數(shù)據(jù)有意義了——信息
集中趨勢(shì)的量度
- 均值
容易受異常值和偏斜數(shù)據(jù)的影響 - 中位數(shù)
- 眾數(shù)
分散性和變異性的量度
1.極差
區(qū)分?jǐn)?shù)據(jù)集分散程度,最大值-最小值
2.四分位數(shù)
- 將數(shù)據(jù)一分為四,最小的四分位數(shù)為下四分位數(shù),最大的四分位數(shù)為上四分位數(shù)。
- 四分位距:中間的四分位數(shù)即中位數(shù)。
- 四分位的優(yōu)點(diǎn)是:與全距相比,較少受到異常值的影響。只關(guān)注居于數(shù)據(jù)中央的50%的數(shù)據(jù),這樣才能排除異常值的干擾。
3.十分位數(shù),百分位數(shù)
第K百分?jǐn)?shù)數(shù)即位于數(shù)據(jù)范圍K%處的數(shù)值
4.可用箱線圖繪制各種“距”
5.方差
方差是衡量數(shù)據(jù)分散性的一種方法,是數(shù)值與均值的距離的平方數(shù)的平均值
6.標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差是描述典型值與均值距離的一種方法,標(biāo)準(zhǔn)差越小,數(shù)值離均值越近。
度量數(shù)據(jù)的分散性
7.標(biāo)準(zhǔn)分
對(duì)不同數(shù)據(jù)集中的數(shù)值進(jìn)行比較的一種方法,這些數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差互不相同。
概率統(tǒng)計(jì)
- 眾數(shù)
- 概率
3.條件概率
4.全概率公式
5.貝葉斯公式
離散概率分布的應(yīng)用
1.期望:描述的是概率分布
2.方差和標(biāo)準(zhǔn)差——度量一些特定數(shù)值的概率的分散情況的方法
方差越高,表示你的整體收益變化越大,整體的贏錢數(shù)額更不可預(yù)期,整體收益的可靠性越低。方差越小,每一局的平均收益就越接近期望值。
3.線性變換
如果成本+1,獎(jiǎng)賞變?yōu)?倍,期望和方差成線性變化
4.獨(dú)立觀測(cè)的期望和方差
排列與組合
- 排位方式
2.按類型排序
3.排列
從N個(gè)對(duì)象中取出R個(gè)對(duì)象進(jìn)行排序,并得出排序方式總數(shù)目
4.組合
從N個(gè)對(duì)象中選取r 個(gè)對(duì)象,不必知道所選對(duì)象的確切順序
幾何分布、二項(xiàng)分布、泊松分布
- 概率的幾何分布
幾何分布的應(yīng)用條件:進(jìn)行多次互相獨(dú)立的試驗(yàn),每一次試驗(yàn)都存在失敗或成功的可能性。
2.二項(xiàng)分布
二項(xiàng)分布使用的條件:進(jìn)行一系列獨(dú)立試驗(yàn),每一次試驗(yàn)成功的概率都相同,且試驗(yàn)次數(shù)有限。
3.泊松分布
使用條件:
在遇到獨(dú)立事件時(shí),若已知 r 且你感興趣的是一個(gè)特定時(shí)間區(qū)間內(nèi)的發(fā)生次數(shù),使用泊松分布
描述了事件在特定區(qū)間內(nèi)的發(fā)生次數(shù)
在特定條件下可以用來(lái)近似代替二項(xiàng)分布
正態(tài)分布的應(yīng)用
- 對(duì)于離散概率分布來(lái)說(shuō),我們關(guān)心的是取得一個(gè)特定數(shù)值的概率;而對(duì)于連續(xù)概率分布來(lái)說(shuō),我們關(guān)心的是取得一個(gè)特定范圍的概率
2.概率密度函數(shù)的總面積必須是1
3.正態(tài)分布函數(shù)
4.概率密度計(jì)算的方法:
- 確定分布和范圍(計(jì)算標(biāo)準(zhǔn)差和方差)
- 使其標(biāo)準(zhǔn)化
- 查找范圍
超級(jí)正態(tài)
- 知道x和y 的概率分布,就能算出x+y的概率分布
2.x屬于正態(tài)分布,ax+b屬于整天分布,則ax+b的概率分布
3.如果X1, X2, ....Xn為X的獨(dú)立觀測(cè)結(jié)果,且X符合正態(tài)分布,則:
4.正態(tài)分布代替二項(xiàng)分布
如果用正態(tài)分布近似代替二項(xiàng)分布,則需要進(jìn)行連續(xù)性修正,這樣才能得到較為準(zhǔn)確的結(jié)果。因?yàn)槎?xiàng)分布是離散型而正態(tài)分布是連續(xù)型
- 計(jì)算p(x>=a)時(shí),離散數(shù)字x是a-0.5
- 計(jì)算p(x<=a)時(shí)。離散數(shù)字x是a+0.5
5.正態(tài)分布代替泊松分布
用正態(tài)分布近似代替泊松分布,要進(jìn)行連續(xù)型修正
6.總結(jié)
抽取樣本
1.樣本
- 無(wú)偏樣本
- 偏倚樣本
- 抽樣空間中條目補(bǔ)全
- 抽樣單位不正確
- 抽樣單位未出現(xiàn)在實(shí)際樣本中
- 樣本缺乏隨機(jī)性
2.如何選擇樣本
- 簡(jiǎn)單隨機(jī)抽樣
- 分成抽樣
- 整群抽樣
- 系統(tǒng)抽樣
- 重復(fù)抽樣
- 不重復(fù)抽樣
總體和樣本的估計(jì)
1.均值
-
總體均值:
總體均值 - 樣本均值
- 點(diǎn)估計(jì)量:根據(jù)樣本數(shù)據(jù)得出的對(duì)你所認(rèn)為的總體均值的最佳猜測(cè)值
2.總體方差:比樣本方差偏大
3.預(yù)測(cè)總體比例:比例算法用于解決二項(xiàng)分布問題
4.抽樣分布的概率
- 例如:Z個(gè)球,紅球的比例為40%, 現(xiàn)在取出100個(gè)球, 里面有40個(gè)紅球的概率
解 - 隨機(jī)變量X代替樣本中紅球的個(gè)數(shù),則樣本中紅球的比例為Ps = X/n,n為取出的球數(shù)
- 每個(gè)樣本中,紅色球的數(shù)量符合B(n,p), 成功比例為Ps=X/n
-
期望:
期望
- 方差:
- 比例標(biāo)準(zhǔn)誤差:
n越大,比例標(biāo)準(zhǔn)誤差越小
- 連續(xù)性修正
5.中心極限定理:如果從一個(gè)非正態(tài)總體X中取出一個(gè)樣本,且樣本很大,則抽取n個(gè)樣品的分布也近似為正態(tài)分布
-
中心極限定理的作用
對(duì)于二項(xiàng)分布,總體均值為np,方差為npq, 如果帶入抽樣分布,則
image.png
對(duì)于泊松分布,均值和方差都為r,則得:
image.png
置信區(qū)間的構(gòu)建
1.求解置信區(qū)間步驟
- 選擇總體統(tǒng)計(jì)量
- 求出其抽樣分布
- 決定置信水平
- 求出置信上下限
2.置信區(qū)間計(jì)算的簡(jiǎn)單算法
3.置信區(qū)間簡(jiǎn)明算法——t分布
當(dāng)n很小時(shí),t分布給出的置信區(qū)間比正態(tài)分布的置信區(qū)間更寬,著使它更適合小樣本
《漫話統(tǒng)計(jì)學(xué)》
我們調(diào)查一件事,調(diào)查總體與樣本
數(shù)據(jù)分為
不可測(cè)量的數(shù)據(jù)——分類數(shù)據(jù)(因人而異)
可測(cè)量的數(shù)據(jù)——數(shù)值數(shù)據(jù) ( 有具體可衡量的數(shù)值)
組、組中值、次數(shù)、相對(duì)次數(shù)、次數(shù)分布表、直方圖、變量、組距、組中值
算數(shù)平均數(shù)、arithmetic mean 幾何平均數(shù)、 geometric mean 調(diào)和平均數(shù)harmonic mean
中位數(shù)median
標(biāo)準(zhǔn)差 :表示一組數(shù)據(jù)“平均離散程度”的指標(biāo) standard Deviation
描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)
第三章:掌握數(shù)據(jù)整體的狀態(tài)
將問卷調(diào)查轉(zhuǎn)變成次數(shù)分布表
第四章:標(biāo)準(zhǔn)計(jì)分和離差
離差;Deviation Score
標(biāo)準(zhǔn)差: Standard deviation
標(biāo)準(zhǔn)化: Standardization
標(biāo)準(zhǔn)計(jì)分:standard score (數(shù)據(jù)-平均數(shù))/標(biāo)注差
第五章:求機(jī)率
機(jī)率密度函數(shù):Probability Density Function 簡(jiǎn)稱:pdf
正態(tài)分布函數(shù)
以平均值為中心呈左右對(duì)稱
受到平均值和標(biāo)準(zhǔn)差的影響
面積=比例=機(jī)率
標(biāo)準(zhǔn)正態(tài)分布表記錄對(duì)應(yīng)橫軸的可讀之機(jī)率的表
卡方分布
卡方分布表則記錄對(duì)應(yīng)機(jī)率之橫軸刻度的表 x^2
t分布
f分布
excel 中的分布與對(duì)應(yīng)的函數(shù)
雙變量的相關(guān)分析
相關(guān)系數(shù) :correlation coefficient
共變異數(shù):covariance
變異數(shù):variance
相關(guān)比:correlation Ratio
數(shù)值數(shù)據(jù)和分類數(shù)據(jù)是用“相關(guān)比” 其值 介于0和1之間
克萊姆相關(guān)系數(shù) (獨(dú)立系數(shù))
分類數(shù)據(jù)和分類數(shù)據(jù)之間的相關(guān)程度,介于0和1之間
第八章:深入理解獨(dú)立性檢驗(yàn) (卡方檢驗(yàn))
P值和“檢驗(yàn)”的順序
獨(dú)立性檢驗(yàn)和齊性檢驗(yàn)