探索性數(shù)據(jù)分析(整理)

探索性數(shù)據(jù)分析(EDA),也稱描述統(tǒng)計分析,是通過分析數(shù)據(jù)集已決定選擇哪種方法適合統(tǒng)計推斷的過程。
~工具包括圖形表示和解釋。
條形圖:用于分類數(shù)據(jù)。
直方圖、點圖、莖葉圖:觀察數(shù)值型分布的形狀。
箱線圖:給出數(shù)值型分布的匯總數(shù)據(jù),適用于不同分布的比較和拖尾、截尾分布的識別。
正態(tài)概率圖:觀察數(shù)據(jù)是否近似服從正態(tài)分布。
R中作圖函數(shù)
散點圖:plot(),添加趨勢線abline().
矩式散點圖:pairs(),同時考察三個或三個以上的數(shù)值變量間的關(guān)系
莖葉圖:stem()
條形圖:barplot(),作圖前需對數(shù)據(jù)進行分組。main參數(shù)為圖像添加標(biāo)題,sub參數(shù)添加副標(biāo)題,beside參數(shù)設(shè)置為FALSE時,圖為分段式,否則為并列式,默認為FALSE。legend.text參數(shù)為添加圖例說明。
直方圖:hist(),將probability參數(shù)設(shè)置為T,可做頻率直方圖,默認為F。
箱線圖:boxplot(),作圖時默認為垂直型,將參數(shù)horizontal設(shè)置為T,則可做水平型。此圖注重于勾勒統(tǒng)計的主要信息,便于對多個連續(xù)變量同時考察,或者對一個變量分組考察。
點帶圖:stripchart(),對于雙變量的用法,stripchart(z~t),z變量在t變量上的分布情況,z變量在X軸上,t在Y軸上。
離群值探索
離群值常出現(xiàn)在具有測量誤差的數(shù)據(jù)或總體厚尾分布的數(shù)據(jù)中。
離群值檢驗主要有箱線圖檢驗、Grubbs檢驗,Dixon's Q檢驗。
1.箱線圖檢驗:觀測值距箱底Q1或頂線Q3過遠,則可視為離群值。
boxplot.stats()可以返回箱線圖的有關(guān)統(tǒng)計量,用法bosplot.stats(x,coef=1.5,do.conf=TRUE,do.out=TRUE)
其中$stats五個值為,箱線圖下虛線,Q1,中位數(shù),Q3,上虛線。$n返回樣本量,$conf返回置信區(qū)間,默認是95的置信區(qū)間。$out返回離群值。
2.Grubbs檢驗:用來探索來自正態(tài)總體的單變量數(shù)據(jù)的離群值。
Grubbs檢驗在做檢驗前需要先檢驗數(shù)據(jù)的正態(tài)性。Grubbs檢驗每次只能檢測一個離群值。
R中的outliers包專門做離群值檢測。grubbs.test()可以警醒Grubbs檢驗,用法grubbs.test(x,type=10,opposite=FALSE,two.sided=FALSE),type表示檢驗類型,10表示檢驗一個離群值(默認值),11表示檢驗兩個尾部上的兩個離群值,20表示在一個尾部檢驗兩個離群值。oppsite表示檢驗反方向的離群值,two.sided是否進行雙邊檢驗。
3.Dixon's Q檢驗
R中的outliers包里的dixon.test()用作Dixon's Q檢驗,用法dixon.test(x,type=0,oppsite=FALSE,two.sided=TRUE),type:根據(jù)樣本量大小選擇不同類型,10(37),11(810),21(11~13),22(14及以上)。
各種函數(shù)使用
cor():求相關(guān)系數(shù)
rank():求秩
attach(),detach()
均值、中位數(shù)、方差、標(biāo)準(zhǔn)差、五等分、分位數(shù):mean(),median(),var(),sd(),fivenum(),summary()
cut():對數(shù)值數(shù)據(jù)分組。
table():將數(shù)據(jù)整理成頻數(shù)表。
rug():此命令可將各個數(shù)據(jù)豎線描繪在x軸上。
density():可以畫密度函數(shù)線。
prop.table():prop.table(x,margin),當(dāng)margin=1時,各個數(shù)據(jù)占行匯總數(shù)的比例,margin=2時,占列匯總數(shù)的總比例,省略時,表示占總和的比例。
apply():求邊緣概率。
t():轉(zhuǎn)置函數(shù)。
多維列聯(lián)表:table(x,y,z)生成每個z值關(guān)于x,y的二維表

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容