數據與統計資料
關鍵術語
統計學(statistics):搜集、分析、表述和解釋數據的藝術和科學。
數據(data):是為了描述和解釋所搜集、分析、匯總的事實和數字。
數據集(data set):在特定研究中搜集到的所有數據。
個體(elements):搜集數據的實體。
變量(variable):個體中所感興趣的特征。
觀測值(observation):對某一特定個體搜集的測量值的集合。
名義尺度(nominal scale):指用數據的標記或名稱來識別個體屬性的一種變量測量尺度,名義數據既可以是非數值型的,也可以是數值型的。
順序尺度(ordinal scale):具有名義數據的性質,并能顯示數據的順序或等級有明確意義的一種變量測量尺度。順序數據既可以是非數值型的,也可以是數值型的。
間隔尺度(interval scale):具有順序數據的性質,并可以按某一固定度量單位表示數值間的間隔的一種變量測量尺度。間隔尺度永遠是數值型。
比率尺度(ratio scale):具有所有間隔數據的性質,并且兩個數值之比是有意義的一種變量測量尺度。比率數據永遠是數值型的。
分類型數據(categorical data):用于識別每一個體屬性的標記或名稱。分類型數據既可以用名義尺度度量也可以用順序尺度度量,既可以是非數值型的也可以是數值型的。
數量型數據(quantitative data):表示事物大小或多少的數值。數量型數據既可以用間隔尺度度量,也可以用比率尺度度量。
分類變量(categorical variable):用分類型數據表示的變量。
數量變量(quantitative variable):用數量型數據表示的變量。
截面數據(cross-sectional data):在相同或近似相同的同一時點上搜集的數據。
時間序列數據(time series data):在幾個時期內搜集的數據。
描述統計(descriptive statistics):數據的表格、圖形和數值匯總的方法。
總體(population):在一個特定研究中所有感興趣的個體組成的集合。
樣本(sample):總體的一個子集。
普查(census):搜集總體全部數據的調查。
抽樣調查(sample survey):搜集樣本數據的調查。
統計推斷(statistical inference):利用樣本數據估計或對總體特征進行假設檢驗的過程。
數據挖掘(data mining):利用統計和計算機科學的方法從非常大的數據庫中獲取有用信息的過程。
描述統計學1:表格法和圖形法
關鍵術語
數據可視化(data visualization):用于描述匯總和表述一個數據集信息的圖形顯示的效用的術語。
頻數分布(frequency distribution):一種數據的表格匯總方法,表示在幾個互不重疊組別中,每一組數據值的個數(頻數)
相對頻數分布(relative frequency distribution):一種數據的表格匯總方法,表示在幾個互不重疊組別中,每一組數據值個數的分數或所占比例。
百分數頻數分布(percent frequency distribution):一種數據的表格匯總方法,表示在幾個互不重疊組別中,每一組數據值的個數所占的百分數。
條形圖(bar graph):一種圖形方法,用來描述已被匯總成頻數分布、相對頻數分布或百分數頻數分布的分類型數據。
餅形圖(pie graph):一種匯總數據的圖形,該方法的依據是把一個圓細分為若干個扇形,使得每一組的相對頻數與一個扇形相對應。
組中值(class midpoint):下組限和上組限的中間值。
打點圖(dot plot):用橫軸上每個數值上方的點的個數來匯總數據的一種圖形方法。
直方圖(histogram):一種描述數量型數據的頻數分布、相對頻數分布或百分數頻數分布的圖形方法,組寬放置在橫軸上,頻數、相對頻數或百分數頻數放置在縱軸上。
累積頻數分布(cumulative frequency distribution):一種數量型數據的表格匯總方式,表示小于或等于每一組上組限的數據值的個數。
累積相對頻數分布(cumulative realtive frequency distribution):一種數量型數據的表格匯總方式,表示小于或等于每一組上組限的數據值的分數或比例。
累積百分數頻數分布(cumulative percent frequency distribution):一種數量型數據的表格匯總方式,表示小于或等于每一組上組限的數據值的百分數。
莖葉顯示(stem-and-leaf display):一種同時用于展示數據的等級排序和分布形態的圖形顯示。
交叉分組表(crosstabulation):一種對兩個變量的數據進行的表格匯總,其中一個變量的組用行來描述,另一個變量的組用列來描述。
辛普森悖論(Simpson's paradox):從兩個或兩個以上單獨的交叉分組表得到的結論可能與將數據綜合成一個單一交叉分組表得出的結論截然相反。
散點圖(scatter diagram):兩個數量變量之間關系的圖形表示,其中一個變量用橫軸表示,另一個變量用縱軸表示。
趨勢線(trendline):表示兩個變量之間近似關系的一條直線。
復合條形圖(side-by-side bar chart):描繪多個條形圖同時顯示的一種圖形顯示方式。
結構條形圖(stacked chart):一種條形圖,其每一個長條被分解成不同顏色的矩形段,與餅形圖類似的方式顯示每一組的相對頻數。
數據儀表板(data dashboard):一個用易于閱讀、了解和解釋的方式組織和表示用于監控公司或機構業績的直觀顯示集合。
重要公式
相對頻數:組頻數 / n
近似組寬:(數據最大值 - 數據最小值) / 組數
創建有效的圖形顯示
- 給予圖形顯示一個清晰、簡明的標題
- 使圖形顯示保持簡潔,當能用二維表示時不要用三維表示
- 每個坐標軸有清楚的標記,并給出測量的單位
- 如果使用顏色來區分類別,要確保顏色是不同的。
- 如果使用多種顏色或線型,用圖例來標明時,要將圖例靠近所表示的數據。
選擇圖形顯示的類型
用于展示數據分布的圖形顯示
- 條形圖:用于展示分類型數據的頻數分布和相對頻數分布
- 餅形圖:用于展示分類型數據的相對頻數分布和百分數頻數分布
- 打點圖:用于展示數值型數據在整個數據范圍內的分布
- 直方圖:用于展示數值型數據在一個區間組集合上的頻數分布
- 莖葉顯示:用于展示數值型數據的等級順序和分布形態
用于進行比較的圖形顯示
- 復合條形圖:用于兩個變量的比較
- 結構條形圖:用于比較兩個分類變量的相對頻數和百分數頻數
用于展示相關關系的圖形顯示
- 散點圖:用于展示兩個數量變量的相關關系
- 趨勢線:用于近似散點圖中的數據的相關關系