《數據分析的統計基礎》的讀書筆記

《數據分析的統計基礎》的讀書筆記

作 ? ?者:經管之家、曹正鳳

出版社:電子工業出版社

版 ? ?次:2015年2月第1次出版

作者簡介:

經管之家:原人大經濟論壇,于2003年成立。經管之家從2006年起在國內最早開展數據分析培訓教材,累計培訓學員數萬人。在大數據的趨勢背景下,創立“CDA數據分析師”品牌,致力于為社會各界數據分析愛好者提供最優質、最科學、最系統的數據分析教育。

曹正鳳:統計學博士,經管之家大數據中心總工程師,經管之家CDA大數據分析師培訓負責人,北京博宇科技有限公司技術總監。致力于大數據分析前沿領域研究,主持人大經濟論壇基于Hadoop架構的論壇主題歌推薦系統項目。

本書的重點內容和理解:

第1章 ?數據分析概述

1、什么是數據分析?

數據分析的三方面:第一、目標。數據分析的關鍵在于設立目標,專業上叫作“有針對性”,其實就是對業務需求的把握;第二、方法。數據分析的方法包括描述性分析、統計分析、數據挖掘和大數據分析四種。不同的分析方法所使用的情景和功能都是不一樣的,這需要在做數據分析時結合具體的情況選擇使用。第三、結果。數據分析的最終要得出分析的結果,結果對目標解釋的強弱,結果的應用效果如果。

數據分析是指通過某種方法和技巧對準備好的數據進行探索、分析,從中發現因果關系、內部聯系和業務規律等分析結果,為特定的研究或商業目的提供參考。

2、數據分析的六部曲:明確分析目的和內容、數據收集、數據預處理、數據分析、數據展現和報告撰寫六個步驟。

1)明確分析目的和內容。回答:數據分析的對象是誰?數據分析的商業目的是什么?最后的結果是解決什么樣的業務問題?對數據分析目的的把握,是數據分析項目成敗的關鍵。

2)數據收集:通常數據收集方法包括觀察法、訪談法、問卷法、測驗法和數據庫獲取法等。在商業數據收集的一般來源于數據庫,也就是直接到數據庫中獲取數據,該辦法需要使用到數據庫工具---SQL語言。對于數據分析師來說,只需要掌握如何查詢數據的語法就可以了,無法完全掌握所有SQL語言的語法。

3)數據預處理:數據預處理是指對收集到的數據進行加工、整理,以便開展數據分析,它是數據分析前必不可少的階段。包括數據審查、數據清理、數據轉換和數據驗證四個步驟。

3.1)數據審查:如:檢查各個變量的數據類型,變量值的最大值、最小值、平均數、中位數,數據個數、缺失值或空值個數等。

3.2)數據清理:對數據審查過程中發現的明顯錯誤錯、缺失值、異常值、可疑數據,選用適當的方法進行“清理”,使“臟”數據變成“干凈”數據,保證后續的數據分析得到可靠的結論。當然,數據清理還包括對重復記錄進行刪除。

3.3)數據轉換:強調分析對象的可比性,但不同變量值由于計量單位不同,往往造成數據不可比。在分析前對數據進行變換,包括無量綱化處理、線性變換、匯總和聚集、適度概化、規范化、以及屬性構造等。

3.4)數據驗證:可以利用簡單的線性模型及散點圖、直方圖、折線圖等圖形進行探索性分析,利用相關分析、一致性檢驗等方法對數據的準確性進行驗證,確保不把錯誤和有偏差的數據帶入到數據分析模型中。

數據預處理階段在整個數據分析過程中占據極為重要的位置,從工作量上看,它占數據分析全部工作量的30%~50%,因為在數據分析時,我們根據數據分析的目標,不是一次性就能把問題解決的,而是需要反復去取數據、清洗數據,將業務邏輯轉變成可被分析的量化的數據。如SPSS軟件中的數據探索功能。

4)數據分析:其一要熟悉常用的數據分析方法,最基本的是要了解例如方差、回歸、因子、聚類、分類、時間序列等數據分析方法的原理、使用范圍、優缺點和結果和解釋;其二要熟悉1+1種數據分析工具。其中一種數據分析工具是指EXCEL,它是一個常用也是最簡單的數據分析工具。當我們對EXCEL增加新的插件后,就可以進行數理統計和數據挖掘了。由于EXCEL是一個大眾化的數據分析工具,使用它不太嚴謹。另一種數據分析工具是要熟悉一個專業的分析軟件,便于進行專業的數據分析、數據建模等。如SPSS、SAS、MATLAB、R等。

5)數據展現:常用的圖形包括餅形圖、折線圖、柱形圖、條形圖、散點圖、雷達圖、金字塔圖、矩陣圖、漏斗圖等。

6)報告撰寫:首先需要有一個好的分析框架,并且結構清晰、主次分明、圖文并茂,能夠讓讀者一目了然。結構清晰、主次分明可以使閱讀者正確理解報告內容。圖文并茂可以令數據更加生動、活潑,提高視覺沖擊力,有助于讀者更形象、直觀地看清楚問題和結論,從而產生思考。

3、數據分析方法簡介

1)單純的數據加工方法---SQL、EXCEL。

2)基于數理統計的數據分析方法論---SPSS Statistics、SAS EG等工具實現

2.1)方差分析:又稱“變異數分析”、“F檢驗”,它是用于兩個及兩個以上樣本均數差別的顯著性檢驗。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。

2.2)回歸分析:是確定兩個或兩個以上變量之間想到依賴的定量關系的一種統計分析方法。分為一元線性回歸和非線性回歸分析。

2.3)因子分析:指研究從變量群中提取共性因子的統計技術。

3)基于數據挖掘的數據分析方法:SPSS Modeler、SAS EM和R軟件。

3.1)聚類分析:是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。

3.2)分類分析

3.2.1)決策樹:CART和CHAID,這些算法的不同之處都是在生成決策樹過程中,樹干分支成多個枝葉時分枝規則的生成函數。優點:可以生成可理解的規則;計算量相對來說不是很大;可以處理連續和離散變量;決策樹可以清晰地顯示出哪些變量比較重要。缺點:對連續性的變量比較很預測;當類別太多時,錯誤可能會增加得比較快;一般的算法在分類時,僅根據一個屬性來進行分類;不是全局最優。

3.2.2)人工神經網絡:ANNs。就是通過輸入多個非線性模型及不同模型之間的加權互聯(加權的過程在隱蔽層完成),最終得到一個輸出模型。BP神經網絡。特點:可以充分逼迫任意復雜的非線性關系;可學習和自適應不知道或不確定的系統;能夠同時處理定量、定性知識。

3.2.3)貝葉斯分類方法:

3.2.4)支持向量機:與傳統的神經網絡技術相比,支持向量機不僅結構簡單,而且各項技術的性能也明顯提升了,因此它成為機器學習領域的熱點之一。

3.3)關聯規則:應用關聯規則最經典的案例就是購物籃分析,通過分析顧客購物籃中商品之間的關聯,可以挖掘顧客的購物習慣,從而幫助零售商更好地制定有針對性的營銷策略。

3.4)回歸分析:多元線性回歸主要描述一個因變量如何隨著一批自變量的變化而變化。

4)基于大數據的數據分析方法

基于大數據的數據分析方法的理論基礎是數據挖掘和分布式計算原理。大數據技術要解決兩個重要的現實問題:一是要解決海量數據在多臺計算機上的存儲;二是要解決如何在多臺機器上存儲的數據進行分析。Hadoop是一個分布式的計算系統。Yahoo、Facebook、Amazon以及國內的百度、阿里巴巴等眾多互聯網公司都以Hadhoop為基礎搭建自己的分布式計算系統。

5)數理統計與數據挖掘的區別和聯系

5.1)數據統計與數據挖掘的聯系:從兩者的理論來源來看,它們都來源于統計基礎理論,因此它們的很多方法在很多情況下都是同根同源的。

5.2)數據統計與數據挖掘的區別:數據統計在預測中的應用常表現為一個或一組函數關系式,而數據挖掘在預測應用中的重點在于預測的結果,很多時候并不會從結果中產生明確的函數關系式,有時候甚至不知道到底是哪些變量在起作用,又是如何起作用的。

正確的思路和方法應該是:針對具體的業務分析需求,先確定分析思路,然后根據這個分析思路去挑選和匹配合適的分析算法、分析技術,而且一個具體的分析需求一般都會有兩種以上不同的思路和算法可以去探索,最后可以根據驗證的效果和資源匹配等一系列因素進行綜合權衡,從而決定最終的思路、算法和解決方案。

第2章 描述性統計分析

1、直方圖

1.1 什么是直方圖?由一批長方形構成,通過長方形的面積(頻率)或高度(頻數)來代表對應組在數據中所占的比例。

1.2 如何看直方圖?觀看直方圖的關鍵是看區間對應面積的大小。在頻率直方圖中,長方形的面積可以看成該區間中三國人物的密集程度,長方形的面積越大,說明三國人物在該區間的人數越多。

1.3 如何畫直方圖?第一步對數據進行分區(注:小組區間包含左端點,但不包含右端點。最后一個區間包含右端點)。第二步畫一條水平軸(注:水平軸的畫法需要注意平均分布);第二步畫長方形。

2、數據的計量尺度

數據的計量尺度是指對計量對象量化時采用的具體標準,它分為四類:定類尺度、定序尺度、定距尺度、定比尺度。定類尺度比如:性別、民族、職業;定序尺度比如:職稱、健康狀況、質量等級;定距尺度比如:攝氏溫度、緯度;定比尺度:質量、長度、能量。

3、數據的集中趨勢:集中趨勢在統計學中是指一組數據向某一中心值靠攏的程度。

3.1 ?平均數。為了消除極端值對平均數的影響也可根據實際情況去掉極端值。

3.2 分位數。有百分位數、四分位數和中位數。中位數是一種特殊的四分位數。一組數據按大小順序排列后,處在數據中位置的數值,則被稱為中位數。

3.3 眾數。是指一組數據中出現次數最多的變量值。

4、數據的離中趨勢

4.1 極差。是一組數據中的最大值與最小值的差距。利用極差有助于及時發現問題,以便采取措施,保證產品質量。

4.2 分位距。是對極差的一種改進,它是從一組數據中剔除了一部分極端值之后重新計算的類似于全距的指標。有四分位距,八分位距和十分位距。四分位距=第三個四分位數-第一個四分位數。

4.3 平均差。是數據組中各數據值與其算術平均數離差絕對值的算術平均數。

4.4 方差與標準差。是數據組中各數據值與其算術平均數離差平方的算術平均數。標準差是用平方法消除離差的正負號,然后對離差的平方計算算術平均數,并開方出標準差,這既克服了平均差計算中用絕對值取消離差正負帶來的弊病,又增加子指標本身的“靈敏度”,這些優點使它成為各種離中趨勢指標中最重要的一種。

4.5 離散系統:極差、平均數、標準差都是對數據的離中趨勢進行絕對或平均差異的測定。在通常情況下,他們都帶有計量單位,而且其離中趨勢大小與變量平均水平的高低有關。常用的離散系統指標是標準差系統。

例子:由于甲、乙兩班成績的平均值和標準差都不一樣,無法使用標準差來比較哪個班的波動,因此必須使用離散系統來判斷。從計算可以看出,乙小于甲,所以乙的成績波動小一些,則其班級的平均成績更有代表性。

5、數據分布的測定:數據分布就是指當把取得的數據按某種分組畫出直方圖后,將每個直方圖的上邊的中點用一根曲線連接在一也即擬合一根曲線。各種數據有不同的數據分布曲線,在統計學中,有一個常用的數據分布,叫作正態分布。在描述性統計中,數據分布形態的測定主要以正態分布為標準進行衡量。

5.1 數據偏態及其測定。數據分布的不對稱性稱作偏態。偏態是指數據分布的偏斜方向和程度。如果眾數在左邊,平均數在右邊,即數據的極端值在右邊,數據分布曲線向右延伸,則稱為右向偏態。

5.2 數據峰度及其測定。峰度是指數據分布的類峭程度或峰凸程度。根據變量值的集中與分散程度,峰度一般可表現為三種形態:尖頂峰度、平頂峰度和標準峰度。

5.3 數據的偏度和峰度的作用。第一、將偏度和峰度結合起來用于檢查樣本的分布是否屬于正態分布。以便判斷總體的分布。如果樣的偏度系統接近于0而峰度系統接近于3,就可以推斷總體的分布是接近于正態分布的。第二、利用資料之間存在的偏度關系,對算術平均數、眾數、中位數進行推算。

6、數據的展示----統計圖(條形圖、餅圖、折線圖、莖葉圖、箱線圖、直方圖)

6.1 面對一組數據,選擇恰當的統計圖來表達數據分析的目的,是數據分析人員必須要掌握的一種技能。統計圖使用注意事項:1)圖是語言的一種重要形式,如果運用得當,則比起表格來更能明快清晰地進行溝通;2)決定統計圖形式的不是數據,也不是尺寸,而是你想說明的主題和你想指出的內容要點;3)統計圖在于精,而不在于多,只有當統計圖能夠幫助你表達所想的主題時才使用;4)統計圖是直觀教具,它不能取代書寫和講述,只有在幫助你傳達主題時,它才起作用。

6.2 使用EXCEL分別實現三個國家人物武力描述性統計分析

1)在集中趨勢方面,看平均值、中位數和眾數,吳國人物的此三個數值都較大,說明從平均水平看吳國人物的武力在其他兩個國家之上。

2)在離中趨勢方面,由于平均值和標準差都不一樣,只能看離散系統,吳國人物武力的離散系統最小,則其數據變化最小,說明其武將之間的武力差距不大。

3)在數據分布方面,吳國的偏度最大,說明其人物武力分布左偏明顯。

將三者結合起來看,吳國人物的數據總體表現還不錯,但這使我們產生了一個疑問:在三國時間應該是吳國勢力偏弱(這是業務背景),但這里的數據表現一個相反的結論,肯定是分析過程中存在沒有考慮到的因素。這是數據分析過程中經常出現的現象,即在初步分析結束后,沒有得到想要得到的結果,這時候需要對業務背景更加熟悉,進行進一步的分析和思考。此處,由于吳國人物左偏明顯,吳國的文官對均值影響較大,而在比較武力時,最好不要考慮文官。上述分析沒有考慮到人物屬性因素,即此人物是武將還是文官。因此,接下來我們只分析三個國家武裝的武力數據,將文官的數據剔除,進行進一步的分析。

第3章 數據理統計基礎

1、抽樣估計基礎

1.1 隨機事件

1.1.1 隨機現象:結果不止一個,哪一個結果出現事先不知道。

1.1.2 樣本空間:是隨機現象的一切可能結果組成的集合

1.1.3 隨機事件:隨機現象的一次發生。隨機事件是樣本空間的一個子集。

1.2 ?隨機事件的概率:是隨機事件出現的可能性的度量,它是概率論中最基本的概念之一。

1.2.1 條件概率:在事件B發生的條件下,事件A發生的概率稱為事件A在事件B已發生條件下的條件概率。記作P(A|B)。當P(A|B)=P(AB)/P(B);當P(B)=0時,規定P(A|B)=0。

如:某家庭中有兩個孩子,問兩個孩子都是女孩的概率為多大?1/4;

某家庭中有兩個孩子,已知其中一個是女孩,問兩個孩子都是女孩的概率為多大?1/3;

某家庭中有兩個孩子,已知老大是女孩,問兩個孩子都是女孩的概率為多大?1/2;

可以看出,隨著條件地增加,隨機事件A的條件概率也在增加,這也就是為什么人們在數據分析時,希望盡可能多地知道研究目標的信息。

1.2.2 相互獨立事件。如果事件A與事件B滿足P(A)=P(A|B),則稱事件A關于事件B是獨立的。在實際的數據分析中,往往根據問題的實際意義去判斷兩個隨機事件是否獨立。

1.3 隨機變量及其概率分布

1.3.1 隨機變量。用來表示隨機現象結果的變量被稱為隨機變量,常用大寫字母X、Y、Z...表示,也有用希臘字母ζ、η、ξ...表示。分為離散型隨機變量和連續隨機變量。

1.3.2 隨機變量的概率分布

離散隨機變量分布的特點:1、一個隨機變量的概率都在0和1之間取值。2、所有隨機變量的概率之和為1。一旦概率分布確定了,那么隨機現象就從不規律變得有規律了。

連續隨機變量分布的特點:用概率密度曲線來表示。

1.4 隨機變量的數字特征

1.4.1 隨機變量的數字期望:隨機變量按概率的加權平均,表征其概率分布的中心位置,反映隨機變量平均取值的大小。又稱為隨機變量的期望或均值。

1.4.2 隨機變量的方差和標準差。方差用來表示隨機變量概率分布的散布大小。方差大意味著隨機變量的取值分布較寬,較分散,方差小意味著隨機變量的取值分布較窄、較集中。

2、正態分布及三大分布:在進行數據分布時,大部分的分析對象都表現出一種正態分布的形態,因此數據分析師們在用數據統計的分析方法進行數據分布時,必須要掌握來自正態總體的分布。其中主要包括正態分布、卡方分布、T分布和F分布。

2.1 正態分布的概率密度函數:在相同條件下,我們隨機地對某一測試對象進行多次測試時,測得的數值在一定范圍內波動,其中接近平均值的數據占多數,遠離平均值的占少數。具有這種分布規律的隨機變量的分布被稱為正態分布。正態曲線呈鐘形,具有兩頭低、中間高、左右對稱等特點。

2.2 正態分布的特征。第一、對稱性。第二、非負性;第三、服從正態分布的隨機變量分布由平均值μ和標準差σ完全決定。

2.3 標準正態分布

2.3.1 標準正態分布的概率密度函數及圖形

當μ=0且σ=1時,正態分布被稱為標準正態分布。記為N(0,1)

2.3.2 正態分布轉換為標準正態頒布。一般而言,所有的正態分布都可以通過公式轉化為標準正態分布。

2.3.3 如何查標準正態分布表。

由于現實生活中很多數據分析的對象都是服從正態分布的隨機變量,通過標準化轉換,所有的正態頒布都可以轉化為標準正態分布。而標準正態分布是一個確定的圖形。因此標準正態分布就成了數據統計的基礎性分布。正是由于其基礎性地位,科室家們為標準正態分布設立了正態分布表,供人們在做數據分析的過程中查閱。

2.3.4 標準正態分布的“3σ原則”

2σ=68.3%;4σ=95.4%;6σ=99.7%.

2.4 基于正態分布的三大分布:χ2分布、t分布、F分布。χ2分布:用于分類變量的卡方檢驗;F分布用于方差比例的檢驗,以及用于方差分析、回歸分析和方差齊性檢驗。t分布:在信息不足的情況下,一般使用t分布。例如在不知道總體方差的情況下,對總體均值的檢驗用t統計量。

3、中心極限定理

3.1 中心極限定理的提法:如果一個隨機變量決定于大量隨機因素的總和。其中每個隨機因素的單位作用微不足道,而且各因素作用相對均勻,那么它就服從或近似地服從正態分布。

3.2 中心極限定理的意義與應用:中心極限定理是概率論中最著名的結果之一。它指出,大量的獨立隨機變量之和具有近似于正態的頒布。

第4章 抽樣估計

1、抽樣估計的基本概念

1.1 總體及總體指標:總體指標有很多,不同分析目標的總體,需要計算不同的總體指標。例如,當數據分析師需要觀測總體的平均數時,可以將每一個個體的測量值之和進行平均,求得總體平均數,用μ表示......

通常,如果一個總體是無限總體,則其對應的隨機變量就是連續型隨機變量,如果一個總體是有限總體,則其對應的隨機變量就是離散型隨機變量。

1.2 樣本及樣本指標:數據分析師通常取得的數據,也是一次抽樣的結果。有幾個常用的指標,例如樣本平均數、樣本方差、樣本標準差,這些指標通常用來推斷總體的指標,反映總體的特征。

1.3 抽樣估計的思想:抽樣估計是利用抽樣調查所獲得的樣本信息,根據概率論所揭示的隨機變量的一般規律性,對總體的某些數量特征進行估計的一種統計分析方法。

要求:隨機性、獨立性。

抽樣方法:重復抽樣:每次抽樣是每次抽選都是獨立的。即前一次抽選不影響后一次抽選,每個單位中選或不中選的機會在各次抽選中是相同的。而不重復抽樣是每次抽選都不是獨立的,即前一次抽選影響下一次抽選,每個單位中選或不中選的機會在各次抽選中是不相同的。

1.4 抽樣估計的理論基礎:抽樣估計是建立在概率論的大數定律和中心極限定理基礎上的,大數定律和中心極限定理等一系列定理為抽樣估計提供了數學依據。

大數定律:論證了抽樣平均數走近了總體平均數的趨勢。為抽樣估計提供了重要的依據。

中心極限定理:變量和的分布符合正態分布。中心極限定理所回答的問題是獨立或弱相依的隨機變量之和的極限條件在什么條件下是正態的,它揭示了大部分的社會經濟現象表現為正態分布的本質原因。

1.5 樣本統計量及分布:一般在確定數據分析的目標后,就能找到對應的總體指標,也能找到總體指標對應的樣本統計量。一個總體指標通常和一個或多個樣本統計量對應,數據分析人員在使用某一種統計方法進行數據分析時,除了要明白該方法在軟件中的操作過程,還要理解方法所使用的樣本統計量,這樣才能從根本上理解該方法的使用場合,從而實現對統計方法的靈活運用。

2、抽樣估計的方法-----點估計:就是用在某一次隨機抽樣過程中,計算得到的樣本統計量的值直接作為總體指標。

2.1 優良點估計的樣本統計量的衡量標準:無偏性;有效性;一致性。點估計的例子:統計學家在二戰時期使用點估計預測二戰期間德軍坦克數量,從而讓盟軍很好地進行戰略部署。由于許多戰略上的理由,盟軍非常想知道二戰期間德軍總共制造了多少輛坦克。德國人在制造坦克時是墨守成規的,他們把坦克從1開始進行連續編號。在戰爭進行過程中,盟軍繳獲了一些德軍的坦克,并記錄了它們的編號。那么怎樣用這些號碼來估計總數呢?我們知道,制造出來的坦克數肯定大于記錄中的最大編號。因此,點估計的方法之一就是計算出被繳獲坦克編號的平均值。并認為這個值是德軍全部坦克編號的中點,用樣本均值乘以2就是總數的一個估計值。從戰后發現的德軍記錄來看,盟軍的估計值非常接近德軍所生產坦克的真實記錄。

3、抽樣估計的誤差:必須要指出的是,抽樣誤差是抽樣所特有的誤差。凡進行抽樣就一定會產生抽樣誤差。這種誤差雖然是不可避免的,但可以控制,所以,又被稱為可控制誤差。

4、抽樣估計的方法----區間估計

前面所述的點估計,是用樣本指標直接作為總體指標的估計值,一般不考慮抽樣誤差。而區間估計則與之不同,它是根據樣本指標的分布律,按照一定要求,先確定出兩個數據θ1,θ2,使總體指標θ包括在區間[θ1,θ2]內的概率=1-α,則為區間估計。

第一、區間θ1≤θ≤θ2被稱為置信區間。第二、1-α稱為置信系統。第三、α被稱為顯著性水平。置信區間表達了區間估計的準確性,置信系統表達了區間的可靠性,它是區間估計的可靠概率。

4.1 區間估計的步驟:根據給定的置信度要求,推算出抽取極限誤差的可能范圍。

首先:抽取樣本,計算抽樣指標作為總體參數的估計值,計算出樣本標準差用以推算抽樣平均誤差。

其次:根據給定置信度的要求,查《正態分布概率表》求得概率度t值。

最后,根據概率率t和抽樣平均誤差推算抽樣極限誤差的可能范圍,再根據極限誤差求出被估計總體指標的上限、下限,對總體參數做區間估計。

5、抽樣的組織形式和抽樣數目的確定

5.1 抽樣的組織形式:簡單隨機抽樣;分層抽樣;等距抽樣;整群抽樣;多階段抽樣

5.2 抽樣數據的確定:第一、估計總體均值時,必要的抽樣數目;第二、估計總體比例時,必要的抽樣數目。兩種類型都做了相應規定。

第5章 假設檢驗

1、假設檢驗是數據分析中經常用到的一種統計分析方法。它是抽樣推斷的主要內容之一。在實際的數據分析過程中,能否根據經驗假定總體指標的值,然后根據樣本數據,使用某種尺度去檢驗這種假定是否正確,從而實現對總體指標的分析。這種從對總體的假設出發用樣本數據去檢驗,實現對總體指標分析的過程,就是假設檢驗。

1.1 基本思想:對總體指標進行某種假設,以小概率事件不發生基準,運用反證法的思想,按照總體的假設,并根據所獲樣本的數據,通過樣本統計量的分布,得出小概率事件在某一次抽樣中發生的錯誤現象,從而對總體指標的假設做出拒絕的判斷。

2、假設檢驗的分析方法

2.1 假設檢驗的基本步驟:建立假設;選擇檢驗統計量;尋找檢驗的拒絕域;計算樣本統計量的值,根據拒絕域作出判斷。

2.2 假設檢驗與區間估計的聯系:假設檢驗是從對總體進行假設,使用樣本數據進行檢驗,而敬意估計是從樣本數據出發,估計總體的參數,但兩者從本質上是一致的。

2.3 利用P值進行決策:P值是進行假設檢驗決策的另一個依據,是最常用的一個統計學指標,統計和計量軟件輸出結果都有P值,如SPSS軟件,隨著計算機技術的迅猛發展,特別是統計分析軟件的普及,通過比較檢驗統計量與臨界值的大小的檢驗方法逐漸被P值檢驗所取代,因此數據分析人員一定了解P值的含義和掌握如何P值進行檢驗。

3、常見的檢驗統計量:一般來講,統計分析方法都需要使用某種統計量,因此在學習統計分析方法時,應重點掌握該方法使用的統計量及其分布,這樣才能把握該方法的本質思想,才能做出好的數據分析報告。統計學中最難的內容就是構造統計量,對于一般的數據分析人員來說,掌握一些常見的統計量及其使用時機就可以了。如:檢驗統計量;t檢驗統計量;χ2檢驗統計量;F檢驗統計量

第6章 方差分析

1、方差分析:是比較多個總體的均值是否相等的檢驗方法。方差分析就是通過檢驗各總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響的。

2、如果一個試驗中所考察的因子只有一個,那么就是單因子試驗問題。基本假定:1)在水平Ai下,指標服從正態分布,即在同一水平下,觀測指標的數據均來自正態總體。2)在不同水平下,方差相等,即在不同水平下,觀測指標的數據波動程度相同。3)數據Yij相互獨立。

3、單因素方差分析的基本步驟:

1)提出假設:H0無差異;H1有顯著差異。

2)選擇檢驗統計量:采用的檢驗統計量是F統計量,即F值檢驗。

3)計算檢驗統計量的觀測值和概率P值,該步驟的目的就是根據樣本數據計算檢驗統計量的觀測值,依據樣本統計量的分布,由樣本統計量的觀測值計算相應的概率P值。

4)給定顯著性水平,并得出方差分析結果。根據數據分析的要求,人為給定顯著性水平,例如測定顯著性水平α=0.05,如果P值小于0.05,則拒絕原假設。即各分類總體的均值不同時相等。

5)對方差分析的結果進行對比分析。一般來說,方差分析的顯示性檢驗都會拒絕原假設,也就是說,在不同的因素水平下,觀察值的均值不會同時相等。那么是不是有某幾個水平的均值是相等或者不相等的呢?這就需要進行對比分析。對比分析的過程,就是在原假設不成立的情況下,進一步分析哪幾個因素水平的均值是不相等的,其實也就是進行各水平之間的兩兩對比檢驗,其對應原假設是某兩個水平對應的均值相等,需要使用檢驗統計量進行假設檢驗。

第7章 相關與回歸分析

1、變量間的關系。一般可分為兩類:確定性關系(函數關系)和非確定關系(相關關系)。相關關系的特點:第一、一個變量的取值不能由另一個變量唯一確定,兩者是一種相互說明的關系。第二、對大量的數據進行觀察研究,就會發現許多變量之間存在著一定的客觀規律。第三、當把自變量和因變量投放到坐標軸上時,各觀測點分布在直線或曲線的周圍。

2、相關性分析步驟:一是繪制兩個變量的散點圖;二是計算變量之間的相關系數;三是相關系統的顯著性檢驗。

3、相關系數及其種類。分為皮爾遜相關系統,斯皮爾曼相關系統和肯德爾相關系統。如:武將的統御力和武力的相關系統r=0.586907,根據相關系統的經驗解釋,可以認為武將的武力和其統御力存在中度相關。

4、相關系統的顯著性檢驗:r是根據樣本數據計算的,應稱為樣本相關系統,也可稱為皮爾遜相關系統。在進行數據分析時,每次得到的數據其實都是從總體中抽樣得到的,因此總有一個唯一確定的總體相關系統和樣本相關系統相對應。

一般來說,總體相關系統是無法得到的,只能通過樣本統計量r進行估計,既然相關相關系統r是抽樣估計的量,這就必然需要進行顯著性檢驗。這一檢驗過程稱為相關系統的顯著性檢驗員。

5、一元線性回歸分析:當兩個變量之間存在線性相關關系統時,我們常常希望在兩者之間建立定量關系,兩個相關變量之間的定量關系的表達即是一元線性回歸方程。當估計這條直接后,就可以利用這個直線方程根據給定的自變量來預測因變量,這就是一元線性回歸分析要解決的問題。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,197評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,415評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,104評論 0 373
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,884評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,647評論 6 408
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,130評論 1 323
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,208評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,366評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,887評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,737評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,939評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,478評論 5 358
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,174評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,586評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,827評論 1 283
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,608評論 3 390
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,914評論 2 372

推薦閱讀更多精彩內容