第三篇 數據的圖標展示

通過各種渠道將數據收集上來之后,接下來的任務就是對數據進行加工整理。使之符合統計分析的需要,同時對數據進行圖標展示,以發現數據中的一些基本特征,為進一步分析提供思路。

1數據的的預處理:審核-篩選-排序

數據的審核

數據的審核就是檢查數據中是否有錯誤。

對于通過調查獲取的原始數據(raw data),應主要從完整性和準確性兩個方面去審核。完整性審核主要是檢查應調查單位或個體是否有遺漏,所有的調查項目是否填寫齊全等。準確性審核主要檢查數據是否有錯誤,是否存在異常值等。對于異常值要仔細的鑒別:如果異常值屬于記錄時的錯粗,在分析之前應該予以糾正;如果異常值是一個正確的值,則應該予以保留。

對于通過其他渠道得來的二手數據,應著重審核數據的適用性和時效性。

數據的篩選(data filter):包含兩方面的內容:一是將某些部分和要求的數據或有明顯錯誤的數據予以剔除;而是將符合某種特定條件的數據篩選出來,而不符合特定條件的數據予以剔除,數據的篩選可借助計算機自動完成。

透視表的計算與練習

2品質數據的整理與展示

對品質數據主要做分類整理,對數值型數據則主要做分組整理。品質數據包括分類數據和順序數據。

分類數據的整理與圖示

分類數據本身就是對事物的一種分類,因此,在整理時首先列出所分的類別,然后計算出每一類別的頻數、頻率或比例、比率等,即可形成一張頻數分布表,最后根據需要選擇適當的圖形進行展示,以便對數據即其特征有一個初步的了解。

由連個個或兩個以上變量交叉分類的頻數分布表也稱為列聯表(contingency ?table);二維的列聯表(兩個變量交叉分類)也稱為交叉表(cross table)。

分類數據相關圖標介紹

(1)條形圖(bar chart)是用寬度相同的條形的高度或長短來表示數據多少的圖形。當條形圖橫置或縱置時稱為柱狀圖(column chart)。

(2)帕累托圖(pareto chart)該圖是按照各類數據出現的頻數多少排序后繪制的條形圖。

(3)餅圖(pie chart)

(4)環形圖 (doughnut ?chart)

順序數據的整理與圖示

上面介紹的分類數據的頻數分布和圖示方法,如頻數、比例、百分比、比率、條形圖和餅圖,也都是用于順序數據的整理與顯示。對于順序數據,除了可使用上面整理和顯示技術,還可以計算累計頻數和累計頻率。

累計頻數(cumulative frequencies)是將各累有序類別或組的頻數逐級累加起來得到的頻數。通過累積頻數,可以很容易看出某一類別(或數值)一下或某一類別(或數值)以上的頻數之和。

累計頻率或累積百分比(cumulative percentages)是將各有序類別或組的百分比逐級累加起來,它也有向上累積和向下累積兩種方法。

3數值型數據的整理與展示

數據的分組

將原始數據按照某種標準化分成不同組別,分組后的數據成為分組數(grouped data)。數據分組的主要目的是觀察數據的分布特征。數據經分組后再計算出各組中數據出現的頻數,就形成了一張頻數分布表。數據精分組后再計算出各組中數據出現的頻數,就形成了一個頻數分布表。數據分組的方法有單變量分組和組距分組兩種。單變量分組是把每一個變量值作為一組,這種分組通常只適合離散變量,且唉變量值較少的情況下使用。在連續變量或變量值較多的情況下,通常采取組距分組。它是將全部變量值一次劃分為若干個區間,并將這一區間的變量值作為一組。在組距分組中,一個組的最小值成為下限(lower limit);一個組的最大值稱為上限(upper limited)

第一步:組數的確定。一般情況下:5到15組

第二步:確定各組的組距。組距(class width)是一個上限與下限的差。

第三步:根據分組整理頻數分布表。

采用組距分組時,需要遵循不重不漏的原則。補充是指一項數據只能在其中的某一組,不能在其他組中重復出現;不漏是指組別能夠窮盡,即在所分的全部組別中沒想數據能分在其中的某一組,不能遺漏。

為了解決不重的問題,統計分組時習慣上規定“上組限不在內”。

在組距分組時,如果個組的組距相等則成為等距分組。有時,對于某些特殊現象或為了特定的研究需要,也可以采用不等距分組。

組距分組掩蓋了各組內的數據分布狀況,為了反映各組數據的一般水平,我們通常采用組中值作為給組數據的一個代表值。組中值(classmidpoint)

需要注意的是試用組中值代表一組數據時有一個必要的假設條件,即各組數據在本組內呈均勻分布或在組中值兩側呈對稱分布。如果實際數據的分布不符合這一假設,用組中值作為一組數據的代表會有一定的誤差。

為了統計分析的需要,有時需要觀察某一數值一下或者以上的頻數或頻率之和,這時候可以計算出了極品書或者累積頻率。

數值型數據的圖示

(1)分組數據:直方圖(histogram)

(2)未分組數據:莖葉圖和箱線圖

莖葉圖 (tem and leafdisplay是反映原始數據分布的圖形。它由莖和葉兩部分組成。通過莖葉圖,可以看出數據的分布形狀即數據的離散狀況。比如,分布是否對稱,數據是否集中,是否有離散等等。

繪制莖葉圖的關鍵是設計好樹莖,而且也上只保留該數值的最后一個數字。例如,125分成12/5,12分成1/2,1.25分成12/5(單位:0.01),等等。前部分是樹精,后部分是樹葉。樹莖一旦確定,樹葉就自然地長在相應的樹莖上了。

莖葉圖類似與橫置直方圖,與直方圖相比,莖葉圖既能給出數據的分布狀況,又能給出每一個原是數值,即保留了原始數據信息。在應用方面,直方圖通常適用于大批量數據,莖葉圖通常適用于小批量數據。

箱線圖(box plot)是一組數據的最大值(maxiumu)、最小值(minimum)、中位數(median)和四分衛數(quartiles)。這五個特征值繪制而成的箱線圖,主要反映原始數據的特征,還可以進行多組數據分布特征的比較。

(3)時間序列數據:線圖(line plot)

如果數值型數據是在不同的時間上取得的,即時間序列數據,則可以繪制線圖。線圖主要用于反映現象隨時間變化的特征。

4多變量數據的圖表

上面介紹的一些圖形描述都是單變量數據。當有兩個或兩個以上變量時,可以采取用多變量的圖示方法,常見的有散點圖、氣泡圖、雷達圖等。

(1)散點圖(scattered diagram)

(2)氣泡圖(bubble chart)可用于展示三個變量之間的關系。它與散點圖繪制時候類似,將一個變量放在橫軸,另一個變量放在縱軸,而第三個變量則用旗袍的大小來表示

(3)雷達圖(radar chart)是顯示多個變量常用的圖示方法,也稱為蜘蛛圖(spider chart)。


選擇合理的圖表

4合理使用圖標表

一個好的圖標具備的特征:

(1)顯示數據

(2)讓讀者把注意力集中在圖形的內容上,而不是制作圖形的程序上

(3)避免歪曲

(4)強調數據之間的比較

(5)服務于一個明確的目的

(6)有對圖形的統計描述和文字說明

統計表的設計

統計表主要由四部分組成:即表頭、航標題、列標題和數字資料,此外在有必要的收購可以在統計表的下方加上表外附加。


最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容