概率和信息論。
概率論,表示不確定性聲明數學框架。提供量化不確定性方法,提供導出新不確定性聲明(statement)公理。人工智能領域,概率法則,AI系統推理,設計算法計算概率論導出表達式。概率和統計理論分析AI系統行為。概率論提出不確定聲明,在不確定性存在情況下推理。信息論量化概率分布不確定性總量。Jaynes(2003)。
機器學習經常處理不確定量,有時處理隨機(非確定性)量。20世紀80年代,研究人員對概率論量化不確定性提出信服論據。Pearl(1998)。
不確定性來源。被建模系統內存的隨機性。不完全觀測,確定系統不能觀測到所有驅動系統行為變量,也呈隨機性。不完全建模,模型舍棄觀測信息,導致預測不確定性。簡單而不確定規則比復雜而確定規則更實用,即使真正規則是確定的并且建模型系統足夠精確容納復雜規則。
概率論分析事件發生頻率。事件可以重復。結果發生概率p,反復無限次,有p比例會導致某個結果。概率表示信任度(degree of belief)。直接與事件發生的頻率相聯系,頻率派概率(frequentist probability)。涉及到確定性水平,貝葉斯概率(Bayesian probability)。不確定性常識推理,列出若干條期望性質,滿足唯一方法是貝葉斯概率和頻率概率等同。Ramsey(1926)。概率,處理不確定性邏輯擴展。邏輯提供形式化規則,給定命題真假,判斷另一些命題真假。概率論提供形式化規則,給定命題似然,計算其他命題為真似然。
隨機變量(random variable)。
隨機取不同值變量。無格式字體(plain typeface)小寫字母表示隨機變量,手寫體小寫字母表示隨機變量取值。隨機變量對可能狀態描述。伴隨概率分布批定每個狀態可能性。隨機變量可以離散或連續。離散隨機變量有限或可數無限多狀態。可能沒有數值。連續隨機變量伴隨實數值。
概率分布(probability distribution)。
隨機變量或一簇隨機變量每個狀態可能性大小。描述概率分布方式取決隨機變量離散還是連續。
離散型變量和概率質量函數。離散弄變量概率分布用概率質量函數(probability mass function,PMF)描述。大寫字母P表示概率質量函數。每個隨機變量有一個不同概率質量函數,根據隨機變量推斷所用PMF。概率質量函數將隨機變量每個狀態映射到隨機變量取該狀態概率。x=x概率用P(x)表示,概率1表示x=x確定,概率0表示x=x不可能發生。明確寫出隨機變量名稱,P(x=x)。定義隨機變量,用符號說明遵循分布,xP(x)。概率質量同時作用多個隨機變量。多個變量概率分布為聯合概率分布(joint probability distribution)。P(x=x,y=y)表示x=x和y=y同時發生概率。簡寫P(x,y)。函數P是隨機變量x的PMF,P定義域必須是x所有可能狀態集合。FORALL(x) ELEMENT(X),0<=P(x)<=1。不可能發生事件概率為0,不存在概率更低狀態。確保一定發生事件概率為1,不存在概率更高狀態。SUM(x ELEMENT(X),P(x))=1。歸一化(normalized)。
離散型隨機變量x有k個不同狀態,x均勻分布(uniform distribution),每個狀態均等可能。PMF,P(x=x i)=1/k。所有i成立。k是一個正整數,1/k是正的。SUM(i, P(x=x i))=SUM(i, 1/k)=k/k=1。分布滿足歸一化條件。
連續型變量和概率密度函數。連續型隨機變量,概率密度函數(probability density function,PDF)描述概率分布。函數p是概率密度函數。p定義域是x所有可能狀態集合。FORALL(x) ELEMENT(X),P(x)>=0,不要求p(x)<=1。INTEGRAL(p(x)dx)=1 。概率密度函數p(x)給出落在面積為DELTA(x)無限小區域內概率為p(x)DELTA(x)。概率密度函數求積分,獲得點集真實概率質量。x落在集合S中的概率,p(x)對集合求積分得到。單變量,x落在區間[a,b]概率是INTEGRAL([a,b],p(x)dx) 。
實數區間均勻分布。函數u(x;a,b),a和b 是區間端點,滿足b>a。符號";"表示以什么為參數。x作函數自變量,a和b作定義函數參數。確保區間外沒有概率,所有x NOTELEMENT([a,b]),令u(x;a,b)=0。在[a,b]內,u(x;a,b)=1/(b-a)。任何一點都非負。積分為1。x~U(a,b)表示x在[a,b]上均勻分布。
邊緣概率。
定義在子集上的概率分布為邊緣概率分布(marginal probability distribution)。離散型隨機變量x和y,知道P(x,y),求和法則(sum rule)計算FORALL(x) ELEMENT(X),P(x=x)=SUM(y,P(x=x,y=y)) 。邊緣概率名稱來源手算邊緣概率計算過程。P(x,y)每個值被寫在每行表示不同x值、每列表示不同y值網格中,對網絡中每行求和,求和結果P(x)寫在每行右邊紙邊緣處。連續型變量,用積分替代求和,p(x)=INTEGRAL(p(x,y)dy。
條件概率。
某個事件上在給定其他事件發生時出現概率。給定x=x,y=y發生條件概率記P(y=y|x=x)。P(y=y|x=x)=P(y=y,x=x)/P(x=x)。條件概率只在P(x=x)>0有定義。不能計算給定在永遠不會發生事件上上的條件概率。不要把條件概率和計算當采用某個動作后會發生什么相混淆。
條件概率鏈式法則。
任何多維隨機變量聯合概率分布,都可以分解成只有一個變量的條件概率相乘形式。P(x (1) ,…,x (n) )=P(x (1) )PRODUCT(i=2,n,P(x (i) |x (i) ,…,x (i-1) ))。概率鏈式法則(chain rule)或乘法法則(product rule)。從條件概率定義得到,使用兩次定義得到,P(a,b,c)=P(a|b,c)P(b,c)。P(b,c)=P(b|c)P(c)。P(a,b,c)=P(a|b,c)P(b|c)P(c)。
獨立性和條件獨立性。
兩個隨機變量x和y,概率分布表示成兩個因子乘積形式,一個因子只包含x,另一個因子只包含y,兩個隨機變量相互獨立(independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y)=p(x=x)p(y=y)。x和y的條件概率分布對于z的每一個值都寫成乘積形式,隨機變量x和y在給定隨機變量z時條件獨立(conditionally independent)。FORALL(x) ELEMENT(x),y ELEMENT(y),z ELEMENT(z),p(x=x,y=y|z=z)=p(x=x|z=z)p(y=y|z=z)。簡化形式表示獨立笥和條件獨立性,x UPTACK(y)表示x和y相互獨立,x UPTACK(y)|z表示x和y在給定z時條件獨立。
期望、方差和協方差。
函數f(x)關于某分布P(x)的期望(expectation)或期望值(expected value),當x由P產生,f作用于x,f(x)的平均值。對于離散型隨機變量,求和得到,E x~P [f(x)]=SUM(x,P(x)f(x))。連續型隨機變量,求積分得到,E x~p [f(x)]=INTEGRAL(p(x)f(x)dx) 。概率分布在上下文指明,只寫出期望作用隨機變量名稱簡化,Ex[f(x)]。期望作用隨機變量明確,不寫腳標,E[f(x)]。默認,假設E[.]表示對方括號內所有隨機變量值求平均。沒有歧義時,可以省略方括號。期望線性,E x [af(x)+bg(x)]=aEx[f(x)]+bE x [g(x)]。a和b不依賴x。
方差(variance)衡量,x依據概率分布采樣時,隨機變量x函數值差異。Var(f(x))=E[(f(x)-E[f(x)]) 2 ]。方差很小時,f(x)值形成簇比較接近期望值。方差的平方根為標準差(standard deviation)。
協方差(covariance),給出兩個變量線性相關性強度及變量尺度。Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E[g(y)])]。協方差絕對值很大,變量值變化很大,距離各自的均值很遠。協方差為正,兩個變量傾向于同時取得相對較大值。協方差為負,一個變量傾向于取較大值,另一個變量傾向于取較小值。其他衡量指標,相關系數(correlation),每個變量貢獻歸一化,只衡量變量相關性,不受各個變量尺度大小影響。
協方差和相關性有聯系,是不同概念。聯系。兩個變量互相獨立,協方差為零。兩個變量協義差不為零,一定相關。獨立性和協方差性質完全不同。兩個變量協方差為零,一定沒有相互依賴,但具有零協方差可能。從區間[-1,1]均勻分布采樣一個實數x,對一個隨機變量s采樣。s以1/2概率值為1,否則為-1。令y-sx生成一個隨機變量y。x和y不相互獨立,x完全決定y尺度.Cov(x,y)=0。
隨機向量x ELEMENT(R n )協方差矩陣(convariance matrix)是n*n矩陣,滿足,Cov(x) i,j =Cov(x i ,x j )。協方差矩陣對角元是方差,Cov(x i ,x i )=Var(x i )。
參考資料:
《深度學習》
歡迎推薦上海機器學習工作機會,我的微信:qingxingfengzi
我有一個微信群,歡迎一起學深度學習。