《R語言與統計分析》的讀書筆記

《R語言與統計分析》的讀書筆記

本書的重點內容及感悟:

第三章 概率與分布

1、隨機抽樣

通過sample()來實現。

1)等可能的不放回的隨機抽樣。sample(x,n)其中x為要抽取的向量,n為樣本量。例如從52張撲克牌抽取4張對應的R命令為:sample(1:52,4)

2)等可能的有放回的隨機抽樣。sample(x,n,replace=TRUE)如:sample(c("H","T"),10,replace=TRUE)

3)不等可能的隨機抽樣。sample(x,n,replace=TRUE,prob=y) 如:sample(c("成功","失敗"),10,replace=T,prob=c(0.9,0.1))或sample(c(1,0),10,replace=T,prob=c(0.9,0.1))

2、排列組合與概率的計算

1)從一副完全打亂的52張撲克中取4張,求以下事件的概率:第一、抽取的4張依次為紅心A,方塊A,黑桃A和梅花A的概率;1/prod(52:49) 第二、抽取的4張為紅心A,方塊A,黑桃A和梅花A的概率,1/choose(52,4)。

3、概率分布

離散頒布的分布律:

1)貝努里分布:binom(1,p)。意義:一試驗中有二個事件:成功(記為1)與失敗(記為0),出現的概率是分別為p和1-p。則一次試驗(稱為貝努里試驗)成功的次數服從一個參數為p的貝努里分布。

2)二項分布:binom(n,p)。意義:貝努里試驗獨立地重復n次,則試驗成功的次數服從一個參數為(n,p)的二項分布。特例:n=1時分布為貝努里分布。

3)多項分布:multinom(n,p1,...,pk)。意義:一試驗中有k個事件。將此試驗獨立地重復n次,則事件出現的次數服從一個參數為(n,p)的多項分布。其中p=(p1,p2,...,pk)。特例:k=2時分布為二項分布。

4)負二項分布:nbinom(k,p)。意義:貝努里試驗獨立地重復進行,一直到出現k次成功時停止試驗,則試驗失敗的次數服從一個參數為(k,p)的負二項分布。特例:k=1時的分布為幾何分布。

5)幾何分布:geom(p)。意義:努由試驗獨立地重復進行,一直到有成功出現時停止試驗,則試驗失敗的次數服從一個參數為p的幾何分布。

6)超幾何分布:hyper(N,M,n)。意義:從裝有N個白球和M個黑球的罐子中不放回地取出k個球,則其中的白球數服從超幾何分布。

7)泊松分布:pois(λ)。意義:單位時間、單位長度、單位面積、單位體積中發生某一事件的次數常可以用泊松分布來刻劃。例如某段高速公路上一年內的交通事故數和某辦公室一天收到的電話數可以認為近似服從泊松分布。

連續分布的密度函數:

1)貝塔分布:Beta(a,b)。意義:在貝葉斯分布中,貝塔分布常作為二項分布的共軛先驗分布。特例:a=1,b=1時的分布為[0,1]上的均勻分布。

2)均勻分布:unif(a,b)。意義:區間[a,b]上隨機投點對應的坐標服從[a,b]上的均勻分布。

3)柯西分布:cauchy[a,b]。意義:用于描述共振行為,以一隨機的角度投向X軸的水平距離服從柯西分布。

4)威布爾分布:weibull(a,b)。意義:最為常用的壽命分布,用來刻劃滾珠軸承,電子元器件等產品的壽命。特例:b=1時的分布為指數分布。

5)指數分布:exp(λ)。意義:泊松過程的等待時間服從指數分布。

6)瑞利分布:rayl(b)。意義:瑞利分布為weibull分布的又一個特例。

7)正態分布/高斯分布:norm(μ,σ2)。意義:高斯分布是概率論與數理統計中最重要的一個分布,中心極限定理表明,一個變量如果是由大量微小的,獨立的隨機因素的疊加結果,那么這個變量一定是正態變量。因此許多隨機變量可以用高斯分布表述或近似描述。

8)對數正態分布:lnorm(μ,σ2)。意義:ln(X)服從參數為(μ,σ2)的正態分布,則X服從參數(μ,σ2)的對數正態分布。

9)逆正態分布:inorm(μ,λ)。意義:正態隨機變量的倒數服從的分布。

10)珈瑪分布:gamma(a,b)。意義:k個相互獨立的參數為1/b的指數分布的和服從參數為(k,b)的珈瑪分布。

11)逆珈瑪分布:igamma(a,b)。意義:珈瑪分布隨機變量的倒數服從逆珈瑪分布。

12)卡方(χ2)分布:chisq(n)。意義:n個獨立正態隨機變量的平方和服從自由度為n的卡方分布。

13)逆卡方(χ2)分布:ichisq(n)。意義:卡方分布隨機變量的倒數服從逆卡方分布。

14)t分布:t(n)。意義:隨機變量X與Y獨立,X服從標準正態分布,Y服從自由度為n卡方分布,由T=X/根號Y/N服從自由度為n的t分布。

15)F分布:f(n,m)。意義:隨機變量X與Y獨立,X服從自由度為n卡方分布,Y服從自由度為m卡方分布。則T=X/n/Y/n服從自由度為(n,m)的F分布。

16)logistic分布:logis(a,b)。意義:生物學中的增長模型常用logistic分布來刻劃,它也常用于logistic回歸中。

17)Dirichlet分布:dirichlet()。意義:

18)Pareto分布:pd(a,b)。意義:財富的分配規則是大部分的財富(80%)被少數人(20%)的人擁有。就可以較好的用Pareto分布來刻劃。

19)非中心分布,與前面卡方分布,t分布和F分布相對應還有三個非中心分布。

若無特別申明,通常所說的卡方分布、t分布和F分布都是中心的卡方分布、t分布和F分布。

4 R中內嵌的分布

R提供了四類有關統計分布函數:密度函數、累積分布函數、分位數函數、隨機數函數。對于所給的分布名稱,加前綴“d”就得到R的密度函數;加前綴“p”就得到R的分布函數;加前綴“r”就得到R的隨機數發生函數

1)查找分布的分位數。用于計算假設檢驗中分布的臨界值或置信限。>qnorm()

2)計算假設檢驗的P值。這些函數將在以后的章節中發揮極大的作用。

5、中心極限定理:中心極限定理是概率論中討論隨機變量序列部分和分布漸近于正態分布的一類定理。

第四章 探索性數據分析

數據的統計分析分為描述性統計分析和統計推斷兩部分,前者又稱為探索性統計分析,它是通過繪制統計圖形,編制統計表格、計算統計量等方法來探索數據的主要分布特征,提示其中存在的規律。探索性數據分析是進行后期統計推斷的基礎。

1、常用分布的概率函數圖

二項分布、泊松分布、幾何分布、超幾何分布、負二項分布、正態分布、t分布、χ2分布、F分布、對數正態分布、柯西分布、威布爾分布、珈瑪分布、貝塔分布

2、直方圖與密度函數的估計

1)直方圖是探索性數據分析的基本工具,它給出了數據的頻率分布圖形,在組距相等場合下常用寬度相等的長條矩形表示,矩形的高低表示頻率的大小。R用函數hist()來畫直方圖。

2)核密度估計用函數density()

3、單組數據的描述性統計分析

1)單組數據的圖形描述:直方圖、莖葉圖、框須圖、正態性檢驗

2)單組數據的描述性統計:樣本來自總體,樣本的觀測值中含有總體各方面的信息,但這些信息較為分散,有時顯得雜亂無章,為將這些分散在樣本中的有關總體的信息集中起來以反映總體的各種特征,需要對樣本進行加工得到統計量,均值、標準差、五數(最小值、第三4分位數、中位數、第一4分位數、最大值)是數據的主要的統計量,他們對數據的進一步分析很有幫助。總體描述summary()、均值mean()、五數fivenum()及樣本分位數quantile()。

3、多組數據的描述性統計分析

1)兩組數據的圖形概括:

散點圖:speed和dist基本呈現線性相依關系。所以,散點圖在描述二維數據的關系方面很重要。我們用一條非線笥的特殊曲線來按擬和這種關系,調用了函數lowess()。在R中,有兩個函數可以實現這個功能,一個是lowess(),另一個是loess(),前者只適用于二維的情況,而loess()可能處理多維的情況。

等高線圖:有時候太多太集中,散點圖上的信息不容易看出來。

數據的變換:當直接用原數據得不到有意義的圖形時,可以對數值進行變換以得到有意義的圖形,最常用是對數變量,指數變換,倒數變換和更為一般的box-cox變換。

2)多組數據的圖形描述:分組數據比較特殊,它既含有定性的變量,又含有數值變量,而上面所說的多組數據,我們僅局限于數值型的觀測。

3)多組數據的描述性統計:多組數據的概述、標準差與協方差陣的計算、相關系統的計算

4 分組數據的圖形概括:分組數據可視為特殊的多組數據,他們的區別是:大多組數據中各數值型變更的觀測值指向不同的對象,而分組數據是指向一個數值型變量的觀測值按另一個分類變量分成若干個子集。因此,這些子集指向同一個變量。

由原始數據構造列聯表。

第五章 參數估計

根據樣本推斷總體的分布和分布的數字特征稱為統計推斷。這一章我們介紹統計推斷的一個基本問題---參數估計問題。在很多實際問題中,總體的分布類型已知但它包含了一個或多個參數,總體的分布完全由所含的參數決定,這樣就需要對參數作出估計。參數估計有兩類,一類是點估計,就是以某個統計量的樣本觀測值作為未知參數的估計值;另一類是區間估計,就是用兩個統計量所構成的區間來估計未知參數。

1、矩法估計和極似然估計

如果總體X的k階矩存在,則樣本的K階以概率收斂到總體的K階矩,樣本矩的連續函數收斂到總體矩的連續函數,這就啟發我們可以用樣本矩陣作為總體矩的估計量,這種用相應的樣本矩去估計總體矩的估計方法就稀爛為矩估計法。

結論:λ的一階矩估計為1.87,二階矩估計為1.13,實際上上面的數據是模擬參數為2的指數分布,可見低階矩陣更精確。在總體分布未知的情況下也可以用樣本均值估計總體均值,用樣本方差估計總體方差。

2、單正態總體參數的區間估計

上一節我們討論了點估計,由于點估計值只是估計量的一個近似值,因而點估計本身既沒有反映出這種近似值的精度,即指出用估計值去估計的誤差范轉有多大,而且也沒有指出這個誤差范圍以多大的概率包括未知參數,這些問題正是區間估計要討論的問題,區間估計解決了這二個問題,它給出了估計的可信程度,是一種重要的統計推斷形式。

均值μ的區間估計;方差σ2已知時的置信區間;方差σ2未知時的置信區間;方差σ2的置信區間.

方差σ2的置信區間:此時雖然也可以就均值是否已知分兩種情況討論σ2的置信區間,但在實際中μ已知的情況是極為罕見的。所以,我們只在μ求知的條件下討論σ2的置信區間。

3、兩正態總體參數的區間估計

1)均值差μ1-μ2的置信區間。

兩方差都已知時兩均值差的置信區間。兩方差都未知時兩均值差的置信敬意。

2)雙方差比σ12/σ22的置信區間.

4、單總體比率p的區間估計

在許多實際問題中,我們經常要去估計在總體中某種特性的個體占總體的比例(率),設為p。

5、兩總體比率差p1-p2的區間估計

設有兩總體X與Y相互獨立(總體容量都較大),從中分別抽取n1,n2個(n1,n2也較大)觀察,結果發現其中各有x1和x2個具有某種特征。

6、樣本容量的確定

確定樣本容量n是抽樣中的一個重要問題,樣本容量抽取過少會丟失樣本信息,會導致太大而不滿足要求。若樣本抽取太多,雖然各種信息都包含了,誤差也降低了。但同時會增加所需要的人力,物力和費用開銷。所以權衡兩者,我們要抽取適當數量的樣本。

分為總體方差已經和總體方差未知兩種情況。估計比例p時樣本容量的確定。

第六章 參數的假設檢驗

統計推斷的另一重要內容是假設檢驗,先對總體的某個未知參數或總體的分布形式作某種假設,然后由抽取的樣本提供的信息,構造合適的統計量,對所提供的假設進行檢驗,以做出統計判斷是接受假設還是拒絕假設。這類統計推斷問題稱為假設檢驗問題,前者稱為參數假設檢驗,后者稱為非參數假設檢驗。

假設檢驗的主要步驟:第一、提出原假設H0與備擇假設H1;第二、選擇檢驗統計量W并確定其分布;第三、在給定的顯著性水平下,確定H0關于統計量W的拒絕域;第四、算出樣本點對應的檢驗統計量的值;第五、判斷:若統計量的值落在拒絕域內,則拒絕H0,否則接受H0。

1、單正態總體參數的檢驗

1)方差σ2已知時μ的檢驗:Z檢驗;

2)方差σ2未知時μ的檢驗:t檢驗;

3)方差σ2的檢驗:x2檢驗;

2、兩正態總體參數的檢驗

1)均值的比較:t檢驗

2)方差的比較:F檢驗

3、成對數據的t檢驗

成對數據,是指兩個樣本的樣本容量相等,且兩個樣本之間除均值之個沒有另的差異。例如:比較某一個班同一單元內容的第二次考試是否比第一次的高?同一個人在服用某種維生素后是否比未服用之前不易感冒?

4、單樣本比率的檢驗

1)比率p的精確檢驗

2)比率p的近似檢驗:當樣本容量較小而做近似檢驗時,R輸出的結果會有警告信息。在R中,當樣本容量大于20時不會出現這樣的警告,通常,我們一般在樣本容量大于30時做大樣本近似。

5、兩樣本比率的檢驗

第七章 非參數的假設檢驗

上章講的參數假設檢驗是在假設總體分布已知的情況下進行的,但在實際生活中,那種對總體的分布的假定不是能隨便做出的。數據并不是來自所假定分布的總體,或者,數據根本不是來自一個總體;還有可能數據因為種種原因被嚴重污染。這樣,在假定總體分布已知的情況下進行推斷的做法就可能產生錯誤甚至災難性的結論。于是,人們希望在不對總體分布作出假定的情況下,盡量從數據本身獲得所需要的信息,這就是非參數推斷的宗旨。

1、單總體位置參數的檢驗

2、兩總體的比較與檢驗:在單體問題中,人們想要檢驗的是總體的中心是先于一個已知的值。但在實際問題中,更受注意的往往是比較兩個總體的位置參數,比如,兩種訓練方法中哪一種更出成績,兩種汽油中哪一種污染中更少, 兩種市場營銷策略中哪種更有效等。

1)x2獨立性檢驗;2)fisher精確檢驗;3)Wilcoxon秩和檢驗法和mann-whitney U檢驗;4)Mood檢驗;注意:因為mood檢驗需要的假定之一是兩樣本的中位數相同,故在檢驗時要先消除兩樣本之間中位數的差異,接著才可以做mood檢驗。

3、多總體的比較與檢驗

第八章 方差分析

方差分析的主要工作就是將觀測數據的總變異(波動)。按照變異的原因的不同分解為因子效應和試驗誤差,并對其作出數量分析。比較各種原因在總變異中所占的重要程度,以此作為進一步統計推斷的依據。

1、單因子方差分析,均值的多重比較。進行方差分析后發現各效應的均值之間有顯著差異,此時只能知道有某些均值彼此不同,但無法知道哪些均值不同。下面的方法幫助我們找出在進行方差分析時哪些均值是不同的。多重t檢驗方法;

2、雙因子方差分析。對于兩因素的方差分析,基本思想和方法與單因素的方差分析相似,前提條件仍然是要滿足獨立、正態、方差齊性。所不同的是在雙因素方差分析中,有時會出現交互作用,即二因素的不同水平水平搭配對指標產生影響。

無交互作用的方差分析;有交互作用的方差分析;

3、協方差分析:前面的方差分析中兩組或多組均值間比較的假設檢驗,其處理因素一般是可以控制的。但在實際工作中,有時有些因素無法加以控制,如何在比較兩組或多組均數間差別的同時扣除或均衡這些不可控因素的影響,可考慮采用協方差分析的方法。

協方差分析是將線性回歸分析與方差分析結合起來的一種統計分析方法,其基本思想就是:將一些對應變量Y有影響的變量(指未知或難以控制的因素)看作協變量,建立響應變量Y隨協變量X變化的線性回歸關系,并利用這種回歸關系把X值化為相等后再對各種處理組Y的修正均值間差別進行假設檢驗,其實質就是從Y的總的平方和中扣除X對Y的回歸平方各,對殘差平方各作進一步分解后再進行方差分析,以更好地評價這種處理的效應。

第九章 回歸分析與相關分析

相關分析和回歸分析是研究變量間相互關系,測定它們聯系的緊密程度,揭示其變化的具體形式和規律性的統計方法,是構造各種經濟模型、進行結構分析、政策評價、預測和控制的重要工具。

1、相關性及其度量:散點圖是一種最為有效最為簡單的相關性分析工具。

2、一元線性回歸分析:相關分析只能得到兩個變量之間是否相關,但卻不能回答在兩個變量之間存在相關關系時,它們之間是如何聯系的,即無法找出刻畫它們之間因果關系的函數關系。回歸分析就可以解決這一問題,先從一元線性回歸講起。回歸方程的顯著性檢驗。

3、多元線性回歸分析:許多實際問題中,影響響應變量的因素往往不只是一個而是多個,我們稱這類回歸分析為多元回歸分析。計算過程:第一、建立數據集;第二、建立多元線性回歸方程;第三、變量選擇與最優回歸。

4、回歸診斷:前面介紹得到回歸模型,但沒有對回歸模型的一些特性作進一步的研究,并且沒有研究對回歸模型產生較大影響的異常值問題。異常值的存在往往會給回歸模型帶來不穩定,為此,人們提出了所謂回歸診斷的問題,其主要內容有:殘差分析、影響分析、共線性診斷等。

5、Logistic回歸:線性回歸模型是定量分析中最常用的統計分析方法,但線性回歸分析要求響應變量是連續型變量。在實際研究中,尤其是在生物、醫學、經濟和社會數據的統計分析中,研究遇到非連續型的響應變量,即分類響應變量。

第十章 多元統計分析介紹

多元統計分析也稱為多變量統計分析,多因素統計分析或多元分析,是研究客觀事物中多變量之間的相互關系和多樣品對象之間差異以及多個變量為代表的多元隨機變量之間的依賴和差異的現代統計分析理論和方法。

1、主成份分析與因子分析

standard deviation:表示主成份的標準差,即主成分的方差平方根,即相應特征值的開方;

proportion of variance:表示方差的貢獻率;

comulative proportion:表示方差的累計貢獻率;

由于前兩個主成份的累計貢獻率已經達到96.36%,所以取前兩個主成分來降維。

主成份分析是把多維空間的相關多變量的數據集,通過降維化簡為少量而且相互獨立的新綜合指標,同時又使簡化后的新綜合指標盡可能多的包括原指標群中的主要信息,或是盡可能不損失原有指標的主要信息的一種多元統計分析方法。

2、判別分析: 判別分析是用于判斷樣品所屬類型的一種統計分析方法,判別分析的目的是對已知歸類的數據建立由數值指標構成的歸類規則。然后把這樣的規則應用到未知歸類的樣品去歸類。

3、聚類分析

第十一章 貝葉斯統計分析

1、貝葉斯統計分析與經典統計分析的比較

貝葉斯統計分析有著經典統計分析所無可比擬的優勢。第一、它結合了數據的信息與參數的先驗信息,不斷通過本數據更新先前的認知;第二、與經典統計分析相比,它的理論框架相對簡單,且不需要繁雜的假設及數學推導。第三、它不但能缺失數據、截尾數據等進行簡明處理,還能對模型進行全面而穩健的估計。

2、貝葉斯統計分析與先驗分布的選取。

3、單參數貝葉斯統計分析;

4、多參數貝葉斯統計分析;

5、分層貝葉斯統計分析;

6、貝葉斯統計分析。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容