統(tǒng)計(jì)學(xué)入門(mén)級(jí):常見(jiàn)概率分布+python繪制分布圖

基本概念

離散型隨機(jī)變量

如果隨機(jī)變量X的所有取值都可以逐個(gè)列舉出來(lái),則稱(chēng)X為離散型隨機(jī)變量。相應(yīng)的概率分布有二項(xiàng)分布,泊松分布。

連續(xù)型隨機(jī)變量

如果隨機(jī)變量X的所有取值無(wú)法逐個(gè)列舉出來(lái),而是取數(shù)軸上某一區(qū)間內(nèi)的任一點(diǎn),則稱(chēng)X為連續(xù)型隨機(jī)變量。相應(yīng)的概率分布有正態(tài)分布,均勻分布,指數(shù)分布,伽馬分布,偏態(tài)分布,卡方分布,beta分布等。(真多分布,好恐怖~~)

期望值

在離散型隨機(jī)變量X的一切可能值中,各可能值與其對(duì)應(yīng)概率的乘積之和稱(chēng)為該隨機(jī)變量X的期望值,記作E(X) 。比如有隨機(jī)變量,取值依次為:2,2,2,4,5。求其平均值:(2+2+2+4+5)/5 = 3。

期望值也就是該隨機(jī)變量總體的均值。推導(dǎo)過(guò)程如下:
= (2+2+2+4+5)/5
= 1/523 + 4/5 + 5/5
= 3/52 + 1/54 + 1/55
= 0.6
2 + 0.24 + 0.25
= 60%2 + 20%4 + 20%*5
= 1.2 + 0.8 + 1
= 3

倒數(shù)第三步可以解釋為值為2的數(shù)字出現(xiàn)的概率為60%,4的概率為20%,5的概率為20%。 所以E(X) = 60%2 + 20%4 + 20%*5 = μ = 3。

01 兩點(diǎn)分布

0-1分布(兩點(diǎn)分布),它的隨機(jī)變量的取值為1或0。即離散型隨機(jī)變量X的概率分布為:P{X=0} = 1-p, P{X=1} = p,即:

則稱(chēng)隨機(jī)變量X服從參數(shù)為p的0-1分布,記作X~B(1,p)。

在生活中有很多例子服從兩點(diǎn)分布,比如投資是否中標(biāo),新生嬰兒是男孩還是女孩,檢查產(chǎn)品是否合格等等。

02 二項(xiàng)分布

二項(xiàng)分布 Binomial distribution

大家非常熟悉的拋硬幣試驗(yàn)對(duì)應(yīng)的分布就是二項(xiàng)分布。拋硬幣試驗(yàn)要么出現(xiàn)正面,要么就是反面,只包含這兩個(gè)結(jié)果。出現(xiàn)正面的次數(shù)是一個(gè)隨機(jī)變量,這種隨機(jī)變量所服從的概率分布通常稱(chēng)為二項(xiàng)分布

像拋硬幣這類(lèi)試驗(yàn)所具有的共同性質(zhì)總結(jié)如下:(以?huà)佊矌艦槔?/p>

  • 包含n個(gè)相同的試驗(yàn)
  • 每次試驗(yàn)只有兩個(gè)可能的結(jié)果
  • 出現(xiàn)“正面”的概率對(duì)于每一次試驗(yàn)都是相同的
  • 試驗(yàn)是互相獨(dú)立的
  • 試驗(yàn)“出現(xiàn)正面”或“出現(xiàn)反面”可以計(jì)數(shù),即試驗(yàn)結(jié)果對(duì)應(yīng)于一個(gè)離散型隨機(jī)變量

通常稱(chēng)具有上述特征的n次重復(fù)獨(dú)立試驗(yàn)為n重伯努利試驗(yàn)。簡(jiǎn)稱(chēng)伯努利試驗(yàn)或伯努利試驗(yàn)概型。特別地,當(dāng)試驗(yàn)次數(shù)為1時(shí),二項(xiàng)分布服從0-1分布(兩點(diǎn)分布)。

設(shè)在一次試驗(yàn)中,事件A發(fā)生的概率為>p(0<p<1),則在n重伯努利試驗(yàn)中,事件A恰好發(fā)生 k 次的概率為:

其中
表示從n個(gè)元素中抽取k個(gè)元素的組合,計(jì)算公式為:

舉個(gè)栗子:拋3次均勻的硬幣,求結(jié)果出現(xiàn)有2個(gè)正面的概率
已知p = 0.5 (出現(xiàn)正面的概率) ,n = 3 ,k = 2

所以?huà)?次均勻的硬幣,求結(jié)果出現(xiàn)有2個(gè)正面的概率為3/8。

二項(xiàng)分布的期望值和方差分別為:

E(X) = np
D(X) = np(1-p)

最后使用Python繪制二項(xiàng)分布的概率分布圖
%matplotlib  inline
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(color_codes=True)
sns.set(rc={'figure.figsize':(5,5)})
from scipy.stats import binom
data_binom = binom.rvs(n = 10, p = 0.8, size = 10000)

ax = sns.distplot(data_binom,
                        kde = False,
                        color = 'skyblue',
                        hist_kws = {'linewidth': 0.1, 'alpha': 1})

ax.set(xlabel ='Binomial Distribution', ylabel = 'Frequency')

03 泊松分布

泊松分布 Poisson distribution

泊松分布是用來(lái)描述在一指定時(shí)間范圍內(nèi)或在指定的面積或體積之內(nèi)某一事件出現(xiàn)的次數(shù)的分布。生活中服從泊松分布的例子比如有每天房產(chǎn)中介接待的客戶(hù)數(shù),某微博每月出現(xiàn)服務(wù)器癱瘓的次數(shù)等等。 泊松分布的公式為

其中 λ 為給定的時(shí)間間隔內(nèi)事件的平均數(shù),λ = np。e為一個(gè)數(shù)學(xué)常數(shù),一個(gè)無(wú)限不循環(huán)小數(shù),其值約為2.71828。

泊松分布的期望值和方差分別為:

E(X) = λ
D(X) = λ

使用Python繪制泊松分布的概率分布圖:

from scipy.stats import poisson
data_poisson = poisson.rvs(mu = 3, size = 10000)

ax = sns.distplot(data_poisson,
                        bins = 30,
                        kde = False,
                        color = 'lightgreen',
                        hist_kws = {'linewidth': 1, 'alpha': 1})
ax.set(xlabel = 'Poisson Distribution', ylabel = 'Frequency')

04 正態(tài)分布

概率密度函數(shù)

因?yàn)檫B續(xù)型隨機(jī)變量可以取某一區(qū)間或整個(gè)實(shí)數(shù)軸上的任意一個(gè)值,所以通常用一個(gè)函數(shù)f(x)來(lái)表示連續(xù)型隨機(jī)變量,而f(x)就稱(chēng)為概率密度函數(shù)

概率密度函數(shù)f(x)具有如下性質(zhì)

  • f(x) ≥ 0, -∞<x<+∞

需要注意的是,f(x)不是一個(gè)概率,即f(x) ≠ P(X = x) 。在連續(xù)分布的情況下,隨機(jī)變量X在a與b之間的概率可以寫(xiě)成:

正態(tài)分布 Normal Distribution

正態(tài)分布(或高斯分布)是連續(xù)型隨機(jī)變量的最重要也是最常見(jiàn)的分布,比如學(xué)生的考試成績(jī)就呈現(xiàn)出正態(tài)分布的特征,大部分成績(jī)集中在某個(gè)范圍(比如60-80分),很小一部分往兩端傾斜(比如50分以下和90多分以上)。還有人的身高等等。

正態(tài)分布的定義

如果隨機(jī)變量X的概率密度為( -∞<x<+∞):

則稱(chēng)X服從正態(tài)分布,記作X~N(μ,σ2)。其中-∞<μ<+∞,σ>0, μ為隨機(jī)變量X的均值,σ為隨機(jī)變量X的標(biāo)準(zhǔn)差。正態(tài)分布的分布函數(shù)

正態(tài)分布的圖形特點(diǎn)

  • f(x) ≥ 0,所以整個(gè)概率密度曲線(xiàn)都在x軸的上方

  • 正態(tài)分布的概率密度曲線(xiàn)是一條關(guān)于x = μ對(duì)稱(chēng)的鐘形曲線(xiàn),表現(xiàn)為“兩頭小,中間大,左右對(duì)稱(chēng)”的特點(diǎn)。所以正態(tài)分布的期望、均值、中位數(shù)和眾數(shù)相同,都等于μ。

  • 當(dāng)x = μ時(shí),概率密度f(wàn)(x)達(dá)到最大值,此時(shí)

  • 當(dāng)x趨于無(wú)窮時(shí),曲線(xiàn)以x軸為漸近線(xiàn)。

  • μ決定了曲線(xiàn)的中心位置,固定σ的值,改變?chǔ)痰闹担€(xiàn)沿x軸平行移動(dòng)而不會(huì)改變其形狀。

  • 而σ則決定了曲線(xiàn)的陡峭程度,固定μ的值,改變?chǔ)业闹担以酱笄€(xiàn)越平緩,σ越小曲線(xiàn)越陡峭。

使用Python繪制正態(tài)分布的概率分布圖:

from scipy.stats import norm
data_norm = norm.rvs(size = 10000, loc = 0, scale = 1)
ax = sns.distplot(data_norm,
                        bins = 30,
                        kde = True,
                        color = 'orange',
                        hist_kws = {'linewidth': 1, 'alpha': 1})
ax.set(xlabel = 'Normal Distribution', ylabel = 'Frequency')

3σ準(zhǔn)則

正態(tài)分布有一個(gè)3σ準(zhǔn)則,即數(shù)值分布在(μ-σ,μ+σ)中的概率為0.6827,分布在(μ-2σ,μ+2σ)中的概率為0.9545,分布在(μ-3σ,μ+3σ)中的概率為0.9973,也就是說(shuō)大部分?jǐn)?shù)值是分布在(μ-3σ,μ+3σ)區(qū)間內(nèi),超出這個(gè)范圍的可能性很小很小,僅占不到0.3%,屬于極個(gè)別的小概率事件,所以3σ準(zhǔn)則可以用來(lái)檢測(cè)異常值。

標(biāo)準(zhǔn)正態(tài)分布

當(dāng)μ=0,σ=1時(shí),有

此時(shí)的正態(tài)分布N(0,1) 稱(chēng)為標(biāo)準(zhǔn)正態(tài)分布。因?yàn)棣蹋叶际谴_定的取值,所以其對(duì)應(yīng)的概率密度曲線(xiàn)是一條形態(tài)固定的曲線(xiàn)。

對(duì)標(biāo)準(zhǔn)正態(tài)分布,通常用φ(x)表示概率密度函數(shù),用Φ(x)表示分布函數(shù):


Z-Score(標(biāo)準(zhǔn)分?jǐn)?shù))

假設(shè)有一次物理考試特別難,滿(mǎn)分100分,全班只有大概20個(gè)人及格。與此同時(shí)語(yǔ)文考試很簡(jiǎn)單,全班絕大部分都考了90分以上。小明的物理和語(yǔ)文分別考了60分和80分,他回家后告訴家長(zhǎng),這時(shí)家長(zhǎng)能僅僅從兩科科目的分值直接判斷出這次小明的語(yǔ)文成績(jī)要比物理好很多嗎?如果不能,應(yīng)該如何判斷呢?此時(shí)Z-score就派上用場(chǎng)了。Z-Score的計(jì)算定義

將隨機(jī)變量X先減去總體樣本均值,再除以總體樣本標(biāo)準(zhǔn)差就得到標(biāo)準(zhǔn)分?jǐn)?shù)啦。如果X低于平均值,則Z為負(fù)數(shù),反之為正數(shù)。通過(guò)計(jì)算標(biāo)準(zhǔn)分?jǐn)?shù),可以將任何一個(gè)一般的正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布。

小明家長(zhǎng)從老師那得知物理的全班平均成績(jī)?yōu)?0分,標(biāo)準(zhǔn)差為10,而語(yǔ)文的平均成績(jī)?yōu)?2分,標(biāo)準(zhǔn)差為4。分別計(jì)算兩科成績(jī)的標(biāo)準(zhǔn)分?jǐn)?shù):
物理:標(biāo)準(zhǔn)分?jǐn)?shù) = (60-40)/10 = 2
語(yǔ)文:標(biāo)準(zhǔn)分?jǐn)?shù) = (85-95)/4 = -2.5

從計(jì)算結(jié)果來(lái)看,說(shuō)明這次考試小明的物理成績(jī)?cè)谌客瑢W(xué)中算是考得很不錯(cuò)的,而語(yǔ)文考得很差。

05 指數(shù)分布

指數(shù)分布Exponential Distribution

指數(shù)分布可能容易和前面的泊松分布混淆,泊松分布強(qiáng)調(diào)的是某段時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布,而指數(shù)分布說(shuō)的是隨機(jī)事件發(fā)生的時(shí)間間隔的概率分布。比如一班地鐵進(jìn)站的間隔時(shí)間。如果隨機(jī)變量X的概率密度為:

則稱(chēng)X服從指數(shù)分布,其中的參數(shù)λ>0。對(duì)應(yīng)的分布函數(shù)為:

均勻分布的期望值和方差分別為:


使用Python繪制指數(shù)分布的概率分布圖:

from scipy.stats import expon
data_expon = expon.rvs(scale = 1, loc = 0, size = 1000)

ax = sns.distplot(data_expon,
                        kde = True,
                        bins = 30,
                        color = 'pink',
                        hist_kws = {'linewidth': 1, 'alpha':1})

ax.set(xlabel = 'Exponential Distribution', ylabel = 'Frequency')

均勻分布

均勻分布 Uniform distribution

均勻分布有兩種,分為離散型均勻分布和連續(xù)型均勻分布。其中離散型均勻分布最常見(jiàn)的例子就是拋擲骰子啦。拋擲骰子出現(xiàn)的點(diǎn)數(shù)就是一個(gè)離散型隨機(jī)變量,點(diǎn)數(shù)可能有1,2,3,4,5,6。每個(gè)數(shù)出現(xiàn)的概率都是1/6。

設(shè)連續(xù)型隨機(jī)變量X具有概率密度函數(shù):

則稱(chēng)X服從區(qū)間(a,b)上的均勻分布。X在等長(zhǎng)度的子區(qū)間內(nèi)取值的概率相同。對(duì)應(yīng)的分布函數(shù)為:

f(x)和F(x)的圖形分別如下圖所示:


均勻分布的期望值和方差分別為:


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,546評(píng)論 6 533
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,570評(píng)論 3 418
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 176,505評(píng)論 0 376
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 63,017評(píng)論 1 313
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,786評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,219評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,287評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,438評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,971評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,796評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,995評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,540評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,230評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,662評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,918評(píng)論 1 286
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,697評(píng)論 3 392
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,991評(píng)論 2 374

推薦閱讀更多精彩內(nèi)容