20181128總結(jié)-統(tǒng)計(jì)概率01(數(shù)據(jù)分析思路)

先這樣吧,回家用電腦修改格式。以下全是在soton學(xué)習(xí)統(tǒng)計(jì)概率第七章做的筆記。記錄了主要的文字內(nèi)容

?0001統(tǒng)計(jì)概率

1-統(tǒng)計(jì)概率與數(shù)據(jù)挖掘的關(guān)系?

統(tǒng)計(jì)概率是數(shù)據(jù)挖掘的基礎(chǔ),任何學(xué)數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)或者更高深的學(xué)習(xí)的時(shí)候都必須掌握統(tǒng)計(jì)學(xué)以及概率論的知識(shí)

2-統(tǒng)計(jì)學(xué)作用

統(tǒng)計(jì)更多的是教會(huì)我們?nèi)绾问褂靡环N統(tǒng)計(jì)的思維面對(duì)數(shù)據(jù)或者分析數(shù)據(jù)。統(tǒng)計(jì)學(xué)讓我們學(xué)習(xí)一些基礎(chǔ)的工具和方法讓我們?nèi)シ治鰯?shù)據(jù)

3-概率

概率是描述一種不確定性

4-描述性統(tǒng)計(jì)

面對(duì)一份數(shù)據(jù)如何分析、用哪些方法、從哪些角度去切入

5-統(tǒng)計(jì)數(shù)據(jù)分類

(主要記住第一種統(tǒng)計(jì)數(shù)據(jù)分類方法:分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值型數(shù)據(jù))

(1)按照所采用的計(jì)量尺度不同,可以將統(tǒng)計(jì)數(shù)據(jù)分為分類數(shù)據(jù)、順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)。分類數(shù)據(jù)是指只能歸于某一類別的非數(shù)字型數(shù)據(jù),比如性別中的男女就是分類數(shù)據(jù)。順序數(shù)據(jù)是只能歸于某一有序類別的非數(shù)字型數(shù)據(jù),比如產(chǎn)品的等級(jí)。數(shù)值型數(shù)據(jù)是按數(shù)字尺度測(cè)量的觀察值,它是自然或度量衡單位對(duì)事物進(jìn)行測(cè)量的結(jié)果。

(2)按照統(tǒng)計(jì)數(shù)據(jù)的收集方法,可以將其分為觀測(cè)數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)。觀測(cè)數(shù)據(jù)是通過(guò)調(diào)查或觀測(cè)而收集到的數(shù)據(jù),它是在沒(méi)有對(duì)事物進(jìn)行人為控制的條件下得到的,有關(guān)社會(huì)經(jīng)濟(jì)現(xiàn)象的統(tǒng)計(jì)數(shù)據(jù)幾乎都是觀測(cè)數(shù)據(jù)。在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì)象而收集到的數(shù)據(jù)則稱為實(shí)驗(yàn)數(shù)據(jù)。

(3)按照被描述的對(duì)象與時(shí)間的關(guān)系,可以將統(tǒng)計(jì)數(shù)據(jù)分為截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)。在相同或近似相同的時(shí)間點(diǎn)上收集到的數(shù)據(jù)稱為截面數(shù)據(jù)。在不同時(shí)間上收集到的數(shù)據(jù),稱為時(shí)間序列數(shù)據(jù)。


0002描述統(tǒng)計(jì):表格法和圖形法

? ? ? ? ? ? ? ? ? ? ? ? ? —(分類型數(shù)據(jù)、連續(xù)型數(shù)據(jù)、數(shù)量型數(shù)據(jù))


一、表格法和圖形法:分類型數(shù)據(jù)匯總

用文本描述的肯定是分類變量、用數(shù)值描述的不一定是連續(xù)變量(EG:星期幾一般是離散變量)。總之分類型的數(shù)據(jù)沒(méi)有大小的

數(shù)據(jù)值型的數(shù)據(jù)是有大小關(guān)系的(EG:身高、電影時(shí)長(zhǎng))

1、 頻數(shù)分布

一般使用數(shù)據(jù)透視表進(jìn)行分析。計(jì)算每個(gè)值(文本)的頻數(shù)(數(shù)量)

2、相對(duì)頻數(shù)分布

每個(gè)文本對(duì)應(yīng)的數(shù)量 / 所有文本累計(jì)數(shù)量

3、百分?jǐn)?shù)頻數(shù)分布

(每個(gè)文本對(duì)應(yīng)的數(shù)量 / 所有文本累計(jì)數(shù)量)* 100%

4、柱狀圖

用柱狀圖表達(dá)頻數(shù)的分布

5、餅形圖

小結(jié):分類型數(shù)據(jù)第一步是看它的頻數(shù)分布。看一下條形圖、看一下餅形圖、看一下頻數(shù)分布。分類型數(shù)據(jù)分析的方法非常少


二、表格法和圖形法:數(shù)量型數(shù)據(jù)匯總/連續(xù)型數(shù)據(jù)分布

1、頻數(shù)分布。三步驟:

A 確定互補(bǔ)重疊的組數(shù):規(guī)定數(shù)據(jù)范圍,這個(gè)范圍用于數(shù)據(jù)進(jìn)行分組,一般選取5—20

將連續(xù)數(shù)據(jù)進(jìn)行分組(分層)

B 確定每組的寬度:每組寬度相同。近似組寬 = (最大值 – 最小值)/ 組數(shù)

C 確定組限,保證每一個(gè)數(shù)據(jù)屬于且只屬于一組

將連續(xù)的特征離散化

2、直方圖hist

變量放置在橫軸上,頻數(shù)放置在縱軸上。每組的頻數(shù)用一個(gè)長(zhǎng)方形繪制

添加數(shù)據(jù)分析工具庫(kù)

(直方圖就是某種條件下的頻數(shù)分布可視化形式)

小結(jié):統(tǒng)計(jì)連續(xù)性特征的頻數(shù),可以了解數(shù)據(jù)大致的分布


三、表格法和圖形法:雙變量—交叉分組和散點(diǎn)圖

1、交叉分組表是一種匯總兩個(gè)變量數(shù)據(jù)的方法,兩個(gè)變量可以是分類或者是數(shù)量的。最常見(jiàn)的是一個(gè)變量為分類,一個(gè)變量是數(shù)量。

2、散點(diǎn)圖是對(duì)兩個(gè)數(shù)量變量間關(guān)系的圖形描述,趨勢(shì)線是顯示相關(guān)性近似程度的一條線


0003描述統(tǒng)計(jì):數(shù)值方法(連續(xù)型數(shù)據(jù))


一、位置的度量

二、變異程度的度量

三、分布形態(tài)、相對(duì)位置的度量以及異常值的檢測(cè)

四、五數(shù)概括法

五、兩變量關(guān)系的度量


前言1:當(dāng)我們拿到一份數(shù)據(jù)是連續(xù)型數(shù)據(jù)的時(shí)候,,第一時(shí)間想到我們?cè)趺纯疾爝@個(gè)數(shù)據(jù)分析這個(gè)數(shù)據(jù)。比如老板給你一份2018年全年的銷售數(shù)據(jù)你應(yīng)該怎么分析應(yīng)該有這種思路從頻數(shù)分布來(lái)衡量、位置的角度來(lái)衡量、從變異程度來(lái)衡量、從相對(duì)位置度量檢測(cè)是否有異常值、包括五數(shù)概括法。這些都是我們用來(lái)分析的思路

前言:剛剛講了描述性統(tǒng)計(jì)最基礎(chǔ)的圖表法來(lái)描述數(shù)據(jù)特征,而我們剛剛也說(shuō)了分類型數(shù)據(jù)的方法非常少,但是連續(xù)型數(shù)量型、數(shù)值型它的方法就非常多,剛才講的就是最基礎(chǔ)的圖形法圖表法,這一章節(jié)主要講解數(shù)量型/連續(xù)型數(shù)據(jù)的數(shù)值計(jì)算方法。

以后在面對(duì)數(shù)據(jù)的時(shí)候需要從這幾個(gè)方法切入數(shù)據(jù),提出結(jié)論用來(lái)進(jìn)行分析報(bào)告。這些方法是統(tǒng)計(jì)最簡(jiǎn)單最常用的分析數(shù)據(jù)


一、數(shù)值方法:位置的度量(連續(xù)型數(shù)據(jù))

1、平均數(shù)

平均數(shù)存在眾多的缺陷,當(dāng)你有一個(gè)極小值或者極大值存在的時(shí)候。雖然平均數(shù)存在缺陷但是我們可以通過(guò)某些計(jì)算方式克服掉

2、中位數(shù)

所有數(shù)據(jù)中間的位置。不受極端值的影響。計(jì)算中位數(shù)首先要從小到大排序

3、眾數(shù)

出現(xiàn)次數(shù)做多的數(shù)字,相當(dāng)于計(jì)算頻數(shù)

4、百分位數(shù)

百分位數(shù)首先還是要排序。

百分位數(shù)提供了數(shù)據(jù)如何散布在從最小值到最大值的區(qū)間上的信息

百分位數(shù)是一個(gè)數(shù)字。

計(jì)算第P百分位數(shù):

A 、把數(shù)據(jù)從小到大排序

B 、計(jì)算指數(shù)i = (P / 100)* n

C 、P是所求的百分位數(shù),比如25%分位數(shù),P就等于25。n 是觀測(cè)值的個(gè)數(shù),即數(shù)據(jù)的總個(gè)數(shù)

D 、若i不是整數(shù),向上取整。大于i的下一個(gè)整數(shù)表示第P百分位數(shù)的位置(百分位數(shù)的位置是一個(gè)數(shù))。若i是整數(shù),則第P百分位數(shù)是第i 項(xiàng)和i+1項(xiàng)的數(shù)據(jù)平均

5、四分位數(shù)

小結(jié):位置的度量除了傳統(tǒng)的平均數(shù)和中位數(shù)。我們更多的是百分位數(shù)和四分位數(shù)


二、數(shù)值方法:變異程度的度量(連續(xù)型數(shù)據(jù))

數(shù)據(jù)的波動(dòng)情況是什么樣的

1、極差

2、四分位數(shù)間距

Q3 – Q2 (75% - 50%、75% - 25%)。可以克服異常值的影響,極差不能克服異常值的影響

3、方差

對(duì)數(shù)據(jù)變異程度做的一種度量,方差越大變異程度越大。

在統(tǒng)計(jì)學(xué)里面一個(gè)是總體一個(gè)是樣本。總體方差和樣本方差有一點(diǎn)點(diǎn)不同,不同的地方在分母上。我們一般計(jì)算方差都是樣本方差,無(wú)法取到全部的數(shù)據(jù)

方差越大變異程度越大,方差越小變異程度越小

4、標(biāo)準(zhǔn)差S

方差開(kāi)根號(hào)就是標(biāo)準(zhǔn)差。可以轉(zhuǎn)換為與原始數(shù)據(jù)一樣的單位

5、標(biāo)準(zhǔn)差系數(shù)

標(biāo)準(zhǔn)差系數(shù) = (標(biāo)準(zhǔn)差 / 平均數(shù)) * 100%

小結(jié):如何要知道數(shù)值型數(shù)據(jù)的變異程度我們就要從這額幾個(gè)指標(biāo)來(lái)進(jìn)行計(jì)算。


三、數(shù)值方法:分布形態(tài)、相對(duì)位置的度量以及異常值的檢測(cè)(連續(xù)型數(shù)據(jù))

1、Z—分?jǐn)?shù),也叫標(biāo)準(zhǔn)分?jǐn)?shù)。被認(rèn)為是對(duì)數(shù)據(jù)集中觀測(cè)值相對(duì)位置的度量

A、Z分?jǐn)?shù) = (觀測(cè)值 – 平均數(shù))/ 標(biāo)準(zhǔn)差

B、觀測(cè)值 – 平均數(shù):表示觀測(cè)值與平均數(shù)的距離。

C、得出的值描述為:觀測(cè)值比平均值小1.2個(gè)標(biāo)準(zhǔn)差,觀測(cè)值比平均值大2個(gè)標(biāo)準(zhǔn)差,如果不同觀測(cè)值的Z分?jǐn)?shù)相同可以說(shuō)它們的相對(duì)位置是相同的

D、Z分?jǐn)?shù)可以用來(lái)檢測(cè)異常值。經(jīng)驗(yàn)法則,當(dāng)數(shù)據(jù)符合正態(tài)分布的時(shí)候,大部分?jǐn)?shù)據(jù)與平均數(shù)的距離都是3個(gè)標(biāo)準(zhǔn)差之內(nèi);如果觀測(cè)值與平均值之間距離超過(guò)3個(gè)標(biāo)準(zhǔn)差就是異常值

E、Z分?jǐn)?shù)在學(xué)習(xí)模型的時(shí)候經(jīng)常用到。

2、切比雪夫定理

定義:與平均數(shù)的距離在Z個(gè)標(biāo)準(zhǔn)差之內(nèi)的數(shù)值所占比例至少為(1 – 1/Z^2),其中Z是大于1的任意實(shí)數(shù)

Z表示Z分?jǐn)?shù)。


3、異常值檢測(cè)(線箱圖BOXPLOX)

A 、上限:Q1 – 1.5 * IQR

Q1表示25%分位數(shù),IQR表示四分位距

B 、下限:Q3 + 1.5 * IQR

Q3表示75%分位數(shù)


四、數(shù)值方法:五數(shù)概括法(連續(xù)型數(shù)據(jù))

1、最小值、最大值、Q1(25%分位數(shù))、Q2(50%分位數(shù))、Q3(75%分位數(shù));線箱圖是表達(dá)五數(shù)概括法數(shù)據(jù)的圖形

2、下限lower limit? 、上限upper limit


五、數(shù)值方法:兩變量關(guān)系的度量(連續(xù)型數(shù)據(jù))

1、協(xié)方差Sxy

協(xié)方差正負(fù)代表了x和y關(guān)系的方向,數(shù)值的大小代表了關(guān)系的強(qiáng)弱,數(shù)值越大代表關(guān)系越強(qiáng),數(shù)值越小代表關(guān)系越弱

協(xié)方差會(huì)受到數(shù)據(jù)單位的計(jì)量(缺陷)


2、皮爾遜相關(guān)系數(shù)Rxy

Rxy = Sxy / Sx * Sy

Rxy:相關(guān)系數(shù)

Sx:X的標(biāo)準(zhǔn)差

Sy:Y的標(biāo)準(zhǔn)差

A、相關(guān)系數(shù)在-1到1之間,正負(fù)代表了X和Y關(guān)系的方向(比如身高和體重會(huì)成正相關(guān)),數(shù)值大小代表了關(guān)系的強(qiáng)弱,數(shù)值越大代表相關(guān)性越強(qiáng),數(shù)值越小代表相關(guān)性越小。如果是1代表完全一致的相關(guān)性或者說(shuō)非常強(qiáng)的相關(guān)性。

B、皮爾遜相關(guān)系數(shù)越接近于1他們的相關(guān)性越強(qiáng),越接近于0他們的相關(guān)性越弱。0的時(shí)候代表它們沒(méi)有任何關(guān)系

C、相關(guān)系數(shù)我只是提供了顯性的提供了這兩個(gè)變量之間他們是否有相關(guān)性,并不代表有因果關(guān)系

小結(jié):如果拿到兩個(gè)連續(xù)性的特征進(jìn)行分析,可以做散點(diǎn)圖,可以用seaborn作出那條直線、后面還會(huì)講到置信區(qū)間,可以用數(shù)值的方法皮爾遜相關(guān)系數(shù)來(lái)衡量他們之間的關(guān)系。皮爾遜相關(guān)系數(shù)是一個(gè)比較重要的概念,凡是想到兩個(gè)變量之間是否相關(guān)我們一般會(huì)用到皮爾遜相關(guān)系數(shù)


20181209排版更新星期天

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,461評(píng)論 6 532
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,538評(píng)論 3 417
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事。” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 176,423評(píng)論 0 375
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 62,991評(píng)論 1 312
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,761評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,207評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,268評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,419評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,959評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,782評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,983評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,528評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,222評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,653評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,901評(píng)論 1 286
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,678評(píng)論 3 392
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,978評(píng)論 2 374

推薦閱讀更多精彩內(nèi)容