統(tǒng)計(jì)學(xué)學(xué)習(xí)筆記

《深入淺出統(tǒng)計(jì)學(xué)》

大綱

1.統(tǒng)計(jì)學(xué)的作用
2.集中趨勢(shì)的量度
3.分散性與變異性的量度
4.概率計(jì)算
5.離散概率分布的運(yùn)用
6.排列與組合
7.幾何分布、二項(xiàng)分布和泊松分布
8.正態(tài)分布的應(yīng)用
9.超越正態(tài)分布的應(yīng)用
10.統(tǒng)計(jì)抽樣的應(yīng)用
11.總體和樣本的估計(jì)
12.置信區(qū)間的構(gòu)建

統(tǒng)計(jì)學(xué)的作用

1.統(tǒng)計(jì)學(xué)可以幫助企業(yè)做出客觀的決策,能夠進(jìn)行精準(zhǔn)地預(yù)測(cè)
2.統(tǒng)計(jì)學(xué)能夠使我們個(gè)人避免遭人愚弄

  1. 信息與數(shù)據(jù)的區(qū)別:
    • “數(shù)據(jù)”是指所收集的原始事實(shí)與數(shù)字。
    • “信息”是指加入了某種意義的數(shù)據(jù)
      例如 ,數(shù)字5、6、7 只是數(shù)字,并不知道有何含義——數(shù)據(jù)
      告訴這幾個(gè)數(shù)代表三個(gè)孩子的年齡,數(shù)據(jù)有意義了——信息
集中趨勢(shì)的量度
  1. 均值
    容易受異常值和偏斜數(shù)據(jù)的影響
  2. 中位數(shù)
  3. 眾數(shù)
分散性和變異性的量度

1.極差
區(qū)分?jǐn)?shù)據(jù)集分散程度,最大值-最小值

2.四分位數(shù)

  • 將數(shù)據(jù)一分為四,最小的四分位數(shù)為下四分位數(shù),最大的四分位數(shù)為上四分位數(shù)。
  • 四分位距:中間的四分位數(shù)即中位數(shù)。
  • 四分位的優(yōu)點(diǎn)是:與全距相比,較少受到異常值的影響。只關(guān)注居于數(shù)據(jù)中央的50%的數(shù)據(jù),這樣才能排除異常值的干擾。

3.十分位數(shù),百分位數(shù)
第K百分?jǐn)?shù)數(shù)即位于數(shù)據(jù)范圍K%處的數(shù)值

4.可用箱線圖繪制各種“距”

5.方差
方差是衡量數(shù)據(jù)分散性的一種方法,是數(shù)值與均值的距離的平方數(shù)的平均值

計(jì)算方差常用公式

6.標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差是描述典型值與均值距離的一種方法,標(biāo)準(zhǔn)差越小,數(shù)值離均值越近。
度量數(shù)據(jù)的分散性

7.標(biāo)準(zhǔn)分
對(duì)不同數(shù)據(jù)集中的數(shù)值進(jìn)行比較的一種方法,這些數(shù)據(jù)集的均值和標(biāo)準(zhǔn)差互不相同。

標(biāo)準(zhǔn)分求解
概率統(tǒng)計(jì)
  1. 眾數(shù)
  2. 概率
概率計(jì)算公式

3.條件概率

條件概率

4.全概率公式

與A一起發(fā)生,不與A一起發(fā)生

5.貝葉斯公式

貝葉斯公式
樹軸法
離散概率分布的應(yīng)用

1.期望:描述的是概率分布

期望

2.方差和標(biāo)準(zhǔn)差——度量一些特定數(shù)值的概率的分散情況的方法

方差越高,表示你的整體收益變化越大,整體的贏錢數(shù)額更不可預(yù)期,整體收益的可靠性越低。方差越小,每一局的平均收益就越接近期望值。

方差

3.線性變換
如果成本+1,獎(jiǎng)賞變?yōu)?倍,期望和方差成線性變化

線性變換

4.獨(dú)立觀測(cè)的期望和方差

獨(dú)立觀測(cè)
排列與組合
  1. 排位方式
image.png

2.按類型排序

image.png

3.排列
從N個(gè)對(duì)象中取出R個(gè)對(duì)象進(jìn)行排序,并得出排序方式總數(shù)目

排列

4.組合
從N個(gè)對(duì)象中選取r 個(gè)對(duì)象,不必知道所選對(duì)象的確切順序

組合
幾何分布、二項(xiàng)分布、泊松分布
  1. 概率的幾何分布
    幾何分布的應(yīng)用條件:進(jìn)行多次互相獨(dú)立的試驗(yàn),每一次試驗(yàn)都存在失敗或成功的可能性。
幾何分布
需要試驗(yàn)r次以上
需要試驗(yàn)r次或不到r次
期望值
方差

2.二項(xiàng)分布
二項(xiàng)分布使用的條件:進(jìn)行一系列獨(dú)立試驗(yàn),每一次試驗(yàn)成功的概率都相同,且試驗(yàn)次數(shù)有限。

二項(xiàng)分布
image.png
期望值
方差

3.泊松分布
使用條件
在遇到獨(dú)立事件時(shí),若已知 r 且你感興趣的是一個(gè)特定時(shí)間區(qū)間內(nèi)的發(fā)生次數(shù),使用泊松分布
描述了事件在特定區(qū)間內(nèi)的發(fā)生次數(shù)
在特定條件下可以用來(lái)近似代替二項(xiàng)分布

泊松分布
期望與方差
代替二項(xiàng)分布
正態(tài)分布的應(yīng)用
  1. 對(duì)于離散概率分布來(lái)說(shuō),我們關(guān)心的是取得一個(gè)特定數(shù)值的概率;而對(duì)于連續(xù)概率分布來(lái)說(shuō),我們關(guān)心的是取得一個(gè)特定范圍的概率

2.概率密度函數(shù)的總面積必須是1
3.正態(tài)分布函數(shù)

image.png

4.概率密度計(jì)算的方法:

  • 確定分布和范圍(計(jì)算標(biāo)準(zhǔn)差和方差)
  • 使其標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化
  • 查找范圍
超級(jí)正態(tài)
  1. 知道x和y 的概率分布,就能算出x+y的概率分布
x+y的概率分布
x+y的均值
x+y的方差

2.x屬于正態(tài)分布,ax+b屬于整天分布,則ax+b的概率分布

image.png

3.如果X1, X2, ....Xn為X的獨(dú)立觀測(cè)結(jié)果,且X符合正態(tài)分布,則:

獨(dú)立觀測(cè)的期望值

4.正態(tài)分布代替二項(xiàng)分布

image.png

如果用正態(tài)分布近似代替二項(xiàng)分布,則需要進(jìn)行連續(xù)性修正,這樣才能得到較為準(zhǔn)確的結(jié)果。因?yàn)槎?xiàng)分布是離散型而正態(tài)分布是連續(xù)型

  • 計(jì)算p(x>=a)時(shí),離散數(shù)字x是a-0.5
  • 計(jì)算p(x<=a)時(shí)。離散數(shù)字x是a+0.5

5.正態(tài)分布代替泊松分布

image.png

用正態(tài)分布近似代替泊松分布,要進(jìn)行連續(xù)型修正
6.總結(jié)

image.png
抽取樣本

1.樣本

  • 無(wú)偏樣本
  • 偏倚樣本
  • 抽樣空間中條目補(bǔ)全
  • 抽樣單位不正確
  • 抽樣單位未出現(xiàn)在實(shí)際樣本中
  • 樣本缺乏隨機(jī)性

2.如何選擇樣本

  • 簡(jiǎn)單隨機(jī)抽樣
  • 分成抽樣
  • 整群抽樣
  • 系統(tǒng)抽樣
  • 重復(fù)抽樣
  • 不重復(fù)抽樣
總體和樣本的估計(jì)

1.均值

  • 總體均值:


    總體均值
  • 樣本均值
樣本均值
  • 點(diǎn)估計(jì)量:根據(jù)樣本數(shù)據(jù)得出的對(duì)你所認(rèn)為的總體均值的最佳猜測(cè)值
點(diǎn)估計(jì)量

2.總體方差:比樣本方差偏大

總體方差

3.預(yù)測(cè)總體比例:比例算法用于解決二項(xiàng)分布問題

總體成功比例的點(diǎn)估計(jì)量
樣本成功比例

4.抽樣分布的概率

  • 例如:Z個(gè)球,紅球的比例為40%, 現(xiàn)在取出100個(gè)球, 里面有40個(gè)紅球的概率
  • 隨機(jī)變量X代替樣本中紅球的個(gè)數(shù),則樣本中紅球的比例為Ps = X/n,n為取出的球數(shù)
  • 每個(gè)樣本中,紅色球的數(shù)量符合B(n,p), 成功比例為Ps=X/n
  • 期望:


    期望
image.png
  • 方差:
image.png
image.png
  • 比例標(biāo)準(zhǔn)誤差:
image.png

n越大,比例標(biāo)準(zhǔn)誤差越小

image.png
  • 連續(xù)性修正
image.png

5.中心極限定理:如果從一個(gè)非正態(tài)總體X中取出一個(gè)樣本,且樣本很大,則抽取n個(gè)樣品的分布也近似為正態(tài)分布

image.png
image.png
  • 中心極限定理的作用
    對(duì)于二項(xiàng)分布,總體均值為np,方差為npq, 如果帶入抽樣分布,則


    image.png

    對(duì)于泊松分布,均值和方差都為r,則得:


    image.png
置信區(qū)間的構(gòu)建

1.求解置信區(qū)間步驟

  • 選擇總體統(tǒng)計(jì)量
  • 求出其抽樣分布
  • 決定置信水平
  • 求出置信上下限

2.置信區(qū)間計(jì)算的簡(jiǎn)單算法

image.png

3.置信區(qū)間簡(jiǎn)明算法——t分布
當(dāng)n很小時(shí),t分布給出的置信區(qū)間比正態(tài)分布的置信區(qū)間更寬,著使它更適合小樣本


image.png

《漫話統(tǒng)計(jì)學(xué)》
我們調(diào)查一件事,調(diào)查總體與樣本

數(shù)據(jù)分為
不可測(cè)量的數(shù)據(jù)——分類數(shù)據(jù)(因人而異)

可測(cè)量的數(shù)據(jù)——數(shù)值數(shù)據(jù) ( 有具體可衡量的數(shù)值)

組、組中值、次數(shù)、相對(duì)次數(shù)、次數(shù)分布表、直方圖、變量、組距、組中值

算數(shù)平均數(shù)、arithmetic mean 幾何平均數(shù)、 geometric mean 調(diào)和平均數(shù)harmonic mean

中位數(shù)median

標(biāo)準(zhǔn)差 :表示一組數(shù)據(jù)“平均離散程度”的指標(biāo) standard Deviation

描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)
第三章:掌握數(shù)據(jù)整體的狀態(tài)

將問卷調(diào)查轉(zhuǎn)變成次數(shù)分布表
第四章:標(biāo)準(zhǔn)計(jì)分和離差

離差;Deviation Score

標(biāo)準(zhǔn)差: Standard deviation

標(biāo)準(zhǔn)化: Standardization

標(biāo)準(zhǔn)計(jì)分:standard score (數(shù)據(jù)-平均數(shù))/標(biāo)注差
第五章:求機(jī)率

機(jī)率密度函數(shù):Probability Density Function 簡(jiǎn)稱:pdf
正態(tài)分布函數(shù)
以平均值為中心呈左右對(duì)稱

受到平均值和標(biāo)準(zhǔn)差的影響

面積=比例=機(jī)率

標(biāo)準(zhǔn)正態(tài)分布表記錄對(duì)應(yīng)橫軸的可讀之機(jī)率的表

卡方分布
卡方分布表則記錄對(duì)應(yīng)機(jī)率之橫軸刻度的表 x^2

t分布

f分布

excel 中的分布與對(duì)應(yīng)的函數(shù)


雙變量的相關(guān)分析

相關(guān)系數(shù) :correlation coefficient

共變異數(shù):covariance

變異數(shù):variance

相關(guān)比:correlation Ratio
數(shù)值數(shù)據(jù)和分類數(shù)據(jù)是用“相關(guān)比” 其值 介于0和1之間

克萊姆相關(guān)系數(shù) (獨(dú)立系數(shù))
分類數(shù)據(jù)和分類數(shù)據(jù)之間的相關(guān)程度,介于0和1之間
第八章:深入理解獨(dú)立性檢驗(yàn) (卡方檢驗(yàn))

20170527154429.png

P值和“檢驗(yàn)”的順序

獨(dú)立性檢驗(yàn)和齊性檢驗(yàn)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容