先這樣吧,回家用電腦修改格式。以下全是在soton學(xué)習(xí)統(tǒng)計(jì)概率第七章做的筆記。記錄了主要的文字內(nèi)容
?0001統(tǒng)計(jì)概率
1-統(tǒng)計(jì)概率與數(shù)據(jù)挖掘的關(guān)系?
統(tǒng)計(jì)概率是數(shù)據(jù)挖掘的基礎(chǔ),任何學(xué)數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)或者更高深的學(xué)習(xí)的時(shí)候都必須掌握統(tǒng)計(jì)學(xué)以及概率論的知識(shí)
2-統(tǒng)計(jì)學(xué)作用
統(tǒng)計(jì)更多的是教會(huì)我們?nèi)绾问褂靡环N統(tǒng)計(jì)的思維面對(duì)數(shù)據(jù)或者分析數(shù)據(jù)。統(tǒng)計(jì)學(xué)讓我們學(xué)習(xí)一些基礎(chǔ)的工具和方法讓我們?nèi)シ治鰯?shù)據(jù)
3-概率
概率是描述一種不確定性
4-描述性統(tǒng)計(jì)
面對(duì)一份數(shù)據(jù)如何分析、用哪些方法、從哪些角度去切入
5-統(tǒng)計(jì)數(shù)據(jù)分類
(主要記住第一種統(tǒng)計(jì)數(shù)據(jù)分類方法:分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值型數(shù)據(jù))
(1)按照所采用的計(jì)量尺度不同,可以將統(tǒng)計(jì)數(shù)據(jù)分為分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)。分類數(shù)據(jù)是指只能歸于某一類別的非數(shù)字型數(shù)據(jù),比如性別中的男女就是分類數(shù)據(jù)。順序數(shù)據(jù)是只能歸于某一有序類別的非數(shù)字型數(shù)據(jù),比如產(chǎn)品的等級(jí)。數(shù)值型數(shù)據(jù)是按數(shù)字尺度測(cè)量的觀察值,它是自然或度量衡單位對(duì)事物進(jìn)行測(cè)量的結(jié)果。
(2)按照統(tǒng)計(jì)數(shù)據(jù)的收集方法,可以將其分為觀測(cè)數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)。觀測(cè)數(shù)據(jù)是通過(guò)調(diào)查或觀測(cè)而收集到的數(shù)據(jù),它是在沒(méi)有對(duì)事物進(jìn)行人為控制的條件下得到的,有關(guān)社會(huì)經(jīng)濟(jì)現(xiàn)象的統(tǒng)計(jì)數(shù)據(jù)幾乎都是觀測(cè)數(shù)據(jù)。在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì)象而收集到的數(shù)據(jù)則稱為實(shí)驗(yàn)數(shù)據(jù)。
(3)按照被描述的對(duì)象與時(shí)間的關(guān)系,可以將統(tǒng)計(jì)數(shù)據(jù)分為截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)。在相同或近似相同的時(shí)間點(diǎn)上收集到的數(shù)據(jù)稱為截面數(shù)據(jù)。在不同時(shí)間上收集到的數(shù)據(jù),稱為時(shí)間序列數(shù)據(jù)。
0002描述統(tǒng)計(jì):表格法和圖形法
? ? ? ? ? ? ? ? ? ? ? ? ? —(分類型數(shù)據(jù)、連續(xù)型數(shù)據(jù)、數(shù)量型數(shù)據(jù))
一、表格法和圖形法:分類型數(shù)據(jù)匯總
用文本描述的肯定是分類變量、用數(shù)值描述的不一定是連續(xù)變量(EG:星期幾一般是離散變量)。總之分類型的數(shù)據(jù)沒(méi)有大小的
數(shù)據(jù)值型的數(shù)據(jù)是有大小關(guān)系的(EG:身高、電影時(shí)長(zhǎng))
1、 頻數(shù)分布
一般使用數(shù)據(jù)透視表進(jìn)行分析。計(jì)算每個(gè)值(文本)的頻數(shù)(數(shù)量)
2、相對(duì)頻數(shù)分布
每個(gè)文本對(duì)應(yīng)的數(shù)量 / 所有文本累計(jì)數(shù)量
3、百分?jǐn)?shù)頻數(shù)分布
(每個(gè)文本對(duì)應(yīng)的數(shù)量 / 所有文本累計(jì)數(shù)量)* 100%
4、柱狀圖
用柱狀圖表達(dá)頻數(shù)的分布
5、餅形圖
小結(jié):分類型數(shù)據(jù)第一步是看它的頻數(shù)分布。看一下條形圖、看一下餅形圖、看一下頻數(shù)分布。分類型數(shù)據(jù)分析的方法非常少
二、表格法和圖形法:數(shù)量型數(shù)據(jù)匯總/連續(xù)型數(shù)據(jù)分布
1、頻數(shù)分布。三步驟:
A 確定互補(bǔ)重疊的組數(shù):規(guī)定數(shù)據(jù)范圍,這個(gè)范圍用于數(shù)據(jù)進(jìn)行分組,一般選取5—20
將連續(xù)數(shù)據(jù)進(jìn)行分組(分層)
B 確定每組的寬度:每組寬度相同。近似組寬 = (最大值 – 最小值)/ 組數(shù)
C 確定組限,保證每一個(gè)數(shù)據(jù)屬于且只屬于一組
將連續(xù)的特征離散化
2、直方圖hist
變量放置在橫軸上,頻數(shù)放置在縱軸上。每組的頻數(shù)用一個(gè)長(zhǎng)方形繪制
添加數(shù)據(jù)分析工具庫(kù)
(直方圖就是某種條件下的頻數(shù)分布可視化形式)
小結(jié):統(tǒng)計(jì)連續(xù)性特征的頻數(shù),可以了解數(shù)據(jù)大致的分布
三、表格法和圖形法:雙變量—交叉分組和散點(diǎn)圖
1、交叉分組表是一種匯總兩個(gè)變量數(shù)據(jù)的方法,兩個(gè)變量可以是分類或者是數(shù)量的。最常見(jiàn)的是一個(gè)變量為分類,一個(gè)變量是數(shù)量。
2、散點(diǎn)圖是對(duì)兩個(gè)數(shù)量變量間關(guān)系的圖形描述,趨勢(shì)線是顯示相關(guān)性近似程度的一條線
0003描述統(tǒng)計(jì):數(shù)值方法(連續(xù)型數(shù)據(jù))
一、位置的度量
二、變異程度的度量
三、分布形態(tài)、相對(duì)位置的度量以及異常值的檢測(cè)
四、五數(shù)概括法
五、兩變量關(guān)系的度量
前言1:當(dāng)我們拿到一份數(shù)據(jù)是連續(xù)型數(shù)據(jù)的時(shí)候,,第一時(shí)間想到我們?cè)趺纯疾爝@個(gè)數(shù)據(jù)分析這個(gè)數(shù)據(jù)。比如老板給你一份2018年全年的銷售數(shù)據(jù)你應(yīng)該怎么分析應(yīng)該有這種思路從頻數(shù)分布來(lái)衡量、位置的角度來(lái)衡量、從變異程度來(lái)衡量、從相對(duì)位置度量檢測(cè)是否有異常值、包括五數(shù)概括法。這些都是我們用來(lái)分析的思路
前言:剛剛講了描述性統(tǒng)計(jì)最基礎(chǔ)的圖表法來(lái)描述數(shù)據(jù)特征,而我們剛剛也說(shuō)了分類型數(shù)據(jù)的方法非常少,但是連續(xù)型數(shù)量型、數(shù)值型它的方法就非常多,剛才講的就是最基礎(chǔ)的圖形法圖表法,這一章節(jié)主要講解數(shù)量型/連續(xù)型數(shù)據(jù)的數(shù)值計(jì)算方法。
以后在面對(duì)數(shù)據(jù)的時(shí)候需要從這幾個(gè)方法切入數(shù)據(jù),提出結(jié)論用來(lái)進(jìn)行分析報(bào)告。這些方法是統(tǒng)計(jì)最簡(jiǎn)單最常用的分析數(shù)據(jù)
一、數(shù)值方法:位置的度量(連續(xù)型數(shù)據(jù))
1、平均數(shù)
平均數(shù)存在眾多的缺陷,當(dāng)你有一個(gè)極小值或者極大值存在的時(shí)候。雖然平均數(shù)存在缺陷但是我們可以通過(guò)某些計(jì)算方式克服掉
2、中位數(shù)
所有數(shù)據(jù)中間的位置。不受極端值的影響。計(jì)算中位數(shù)首先要從小到大排序
3、眾數(shù)
出現(xiàn)次數(shù)做多的數(shù)字,相當(dāng)于計(jì)算頻數(shù)
4、百分位數(shù)
百分位數(shù)首先還是要排序。
百分位數(shù)提供了數(shù)據(jù)如何散布在從最小值到最大值的區(qū)間上的信息
百分位數(shù)是一個(gè)數(shù)字。
計(jì)算第P百分位數(shù):
A 、把數(shù)據(jù)從小到大排序
B 、計(jì)算指數(shù)i = (P / 100)* n
C 、P是所求的百分位數(shù),比如25%分位數(shù),P就等于25。n 是觀測(cè)值的個(gè)數(shù),即數(shù)據(jù)的總個(gè)數(shù)
D 、若i不是整數(shù),向上取整。大于i的下一個(gè)整數(shù)表示第P百分位數(shù)的位置(百分位數(shù)的位置是一個(gè)數(shù))。若i是整數(shù),則第P百分位數(shù)是第i 項(xiàng)和i+1項(xiàng)的數(shù)據(jù)平均
5、四分位數(shù)
小結(jié):位置的度量除了傳統(tǒng)的平均數(shù)和中位數(shù)。我們更多的是百分位數(shù)和四分位數(shù)
二、數(shù)值方法:變異程度的度量(連續(xù)型數(shù)據(jù))
數(shù)據(jù)的波動(dòng)情況是什么樣的
1、極差
2、四分位數(shù)間距
Q3 – Q2 (75% - 50%、75% - 25%)。可以克服異常值的影響,極差不能克服異常值的影響
3、方差
對(duì)數(shù)據(jù)變異程度做的一種度量,方差越大變異程度越大。
在統(tǒng)計(jì)學(xué)里面一個(gè)是總體一個(gè)是樣本。總體方差和樣本方差有一點(diǎn)點(diǎn)不同,不同的地方在分母上。我們一般計(jì)算方差都是樣本方差,無(wú)法取到全部的數(shù)據(jù)
方差越大變異程度越大,方差越小變異程度越小
4、標(biāo)準(zhǔn)差S
方差開(kāi)根號(hào)就是標(biāo)準(zhǔn)差。可以轉(zhuǎn)換為與原始數(shù)據(jù)一樣的單位
5、標(biāo)準(zhǔn)差系數(shù)
標(biāo)準(zhǔn)差系數(shù) = (標(biāo)準(zhǔn)差 / 平均數(shù)) * 100%
小結(jié):如何要知道數(shù)值型數(shù)據(jù)的變異程度我們就要從這額幾個(gè)指標(biāo)來(lái)進(jìn)行計(jì)算。
三、數(shù)值方法:分布形態(tài)、相對(duì)位置的度量以及異常值的檢測(cè)(連續(xù)型數(shù)據(jù))
1、Z—分?jǐn)?shù),也叫標(biāo)準(zhǔn)分?jǐn)?shù)。被認(rèn)為是對(duì)數(shù)據(jù)集中觀測(cè)值相對(duì)位置的度量
A、Z分?jǐn)?shù) = (觀測(cè)值 – 平均數(shù))/ 標(biāo)準(zhǔn)差
B、觀測(cè)值 – 平均數(shù):表示觀測(cè)值與平均數(shù)的距離。
C、得出的值描述為:觀測(cè)值比平均值小1.2個(gè)標(biāo)準(zhǔn)差,觀測(cè)值比平均值大2個(gè)標(biāo)準(zhǔn)差,如果不同觀測(cè)值的Z分?jǐn)?shù)相同可以說(shuō)它們的相對(duì)位置是相同的
D、Z分?jǐn)?shù)可以用來(lái)檢測(cè)異常值。經(jīng)驗(yàn)法則,當(dāng)數(shù)據(jù)符合正態(tài)分布的時(shí)候,大部分?jǐn)?shù)據(jù)與平均數(shù)的距離都是3個(gè)標(biāo)準(zhǔn)差之內(nèi);如果觀測(cè)值與平均值之間距離超過(guò)3個(gè)標(biāo)準(zhǔn)差就是異常值
E、Z分?jǐn)?shù)在學(xué)習(xí)模型的時(shí)候經(jīng)常用到。
2、切比雪夫定理
定義:與平均數(shù)的距離在Z個(gè)標(biāo)準(zhǔn)差之內(nèi)的數(shù)值所占比例至少為(1 – 1/Z^2),其中Z是大于1的任意實(shí)數(shù)
Z表示Z分?jǐn)?shù)。
3、異常值檢測(cè)(線箱圖BOXPLOX)
A 、上限:Q1 – 1.5 * IQR
Q1表示25%分位數(shù),IQR表示四分位距
B 、下限:Q3 + 1.5 * IQR
Q3表示75%分位數(shù)
四、數(shù)值方法:五數(shù)概括法(連續(xù)型數(shù)據(jù))
1、最小值、最大值、Q1(25%分位數(shù))、Q2(50%分位數(shù))、Q3(75%分位數(shù));線箱圖是表達(dá)五數(shù)概括法數(shù)據(jù)的圖形
2、下限lower limit? 、上限upper limit
五、數(shù)值方法:兩變量關(guān)系的度量(連續(xù)型數(shù)據(jù))
1、協(xié)方差Sxy
協(xié)方差正負(fù)代表了x和y關(guān)系的方向,數(shù)值的大小代表了關(guān)系的強(qiáng)弱,數(shù)值越大代表關(guān)系越強(qiáng),數(shù)值越小代表關(guān)系越弱
協(xié)方差會(huì)受到數(shù)據(jù)單位的計(jì)量(缺陷)
2、皮爾遜相關(guān)系數(shù)Rxy
Rxy = Sxy / Sx * Sy
Rxy:相關(guān)系數(shù)
Sx:X的標(biāo)準(zhǔn)差
Sy:Y的標(biāo)準(zhǔn)差
A、相關(guān)系數(shù)在-1到1之間,正負(fù)代表了X和Y關(guān)系的方向(比如身高和體重會(huì)成正相關(guān)),數(shù)值大小代表了關(guān)系的強(qiáng)弱,數(shù)值越大代表相關(guān)性越強(qiáng),數(shù)值越小代表相關(guān)性越小。如果是1代表完全一致的相關(guān)性或者說(shuō)非常強(qiáng)的相關(guān)性。
B、皮爾遜相關(guān)系數(shù)越接近于1他們的相關(guān)性越強(qiáng),越接近于0他們的相關(guān)性越弱。0的時(shí)候代表它們沒(méi)有任何關(guān)系
C、相關(guān)系數(shù)我只是提供了顯性的提供了這兩個(gè)變量之間他們是否有相關(guān)性,并不代表有因果關(guān)系
小結(jié):如果拿到兩個(gè)連續(xù)性的特征進(jìn)行分析,可以做散點(diǎn)圖,可以用seaborn作出那條直線、后面還會(huì)講到置信區(qū)間,可以用數(shù)值的方法皮爾遜相關(guān)系數(shù)來(lái)衡量他們之間的關(guān)系。皮爾遜相關(guān)系數(shù)是一個(gè)比較重要的概念,凡是想到兩個(gè)變量之間是否相關(guān)我們一般會(huì)用到皮爾遜相關(guān)系數(shù)
20181209排版更新星期天