第2章 數據概覽
2.2 數據分類
2.2.1 一般的數據分類
- 定量數據(Quantitative Data):一般指的是數值型數據
- 連續型數據(Continuous Data)
- 身高是連續性數據
- 離散型數據(Discrete Data)
- 年齡一般認為是離散型數據
- 在數據區間極大的情況下,連續和離散數據就沒有區別的必要了。
- 連續型數據(Continuous Data)
- 定性數據(Qualitative Data)
- 定類數據
- 定序數據
- 定距數據
- 定比數據
- 四種定性數據的可進行的運算如下:
四種定性數據的可進行的運算
2.2.2 R的數據分類
- 數值型
- 數值型定量數據
- 整數型
- 數值型定量數據
- 邏輯型
- TRUE或FALSE,定性數據。
- 字符型
- 向量中每一個元素都是一個字符或字符串,是定性數據。
- 因子型
- 以數字代碼形式表現的字符型數據,定性數據。
因子型數據
2.2.2 用R簡單處理數據
- head()
- tail()
- class() 變量類型
- levels() 查看因子型數據的水平值
- is.character() 是否是字符型數值
- is.number() 是否是數值型數據
2.3 數據抽樣以及R實現
- 簡單隨機抽樣
>sample(x, n, replace=T)
- 分層抽樣
>strata() #分層抽樣
>getdata() #獲取分層抽樣所得的數據集
分層抽樣的函數strata()
- 整體抽樣
>cluster() #整體抽樣
整體抽樣函數cluster()
2.4 訓練集和測試集
- 訓練集(Training Dataset)
- 用于建立模型
- 測試集(Testing Dataset)
- 用于評價模型
模型訓練和模型評價過程
第3章 用R獲取數據
3.1 R的內置數據集
3.1.1 datasets數據集
在R中,數據集是分屬于各個軟件包的,比較特殊的是datasets包,它是專用于提供數據集的。
> data(package = "datasets") #查看datasets內的所有數據集
> ?CO2 #查看CO2數據集的幫助文檔
3.1.2 包的數據集
除datasets外,其它軟件包也含有少量數據。
> data(package = .packages(all.available = TRUE)) #查看本地所有軟件包的數據集
3.2 獲取其他格式的數據
3.2.1 CSV和TXT格式
3.2.2 從Excel獲取數據
3.2.3 從其它軟件獲得數據
3.3 獲取數據庫數據
3.4 獲取網頁數據
使用XML軟件包
第4章 探索性數據分析
4.1 數據集
4.2 數字化探索
為什么要探究數據?
了解數據的大致分布、選擇合適的模型。
4.2.1 變量概況
常用的函數用來獲取數據集基本信息
函數名 | 軟件包 | 功能描述 |
---|---|---|
attributes() | base | 給出數據集的屬性列表(Attributes List),具體包括變量名($names)、數據集格式($class)、行名($raw.names)三部分,由此得到對數據集的整體把握 |
str | base | 在attributes()基礎上查看數據集的內部結構,輸出觀察樣本數、變量數、各變量的類型和取值情況 |
summary() | base | 給出各變量的統計性指標,(對定性變量)各水平的取值頻數,(對于定量型數據)最小值、均值等等 |
4.2.2 變量詳情
常用的函數用來獲取數據集基本信息
函數名 | 軟件包 | 功能描述 |
---|---|---|
describe() | Hmisc | 同summary()一樣,對于不同類型的變量給出不同類型內容;取值水平小于10個的數值型變量,被默認為離散型變量;還可以給出頻數表(對于非二分變量,且取值水平小于20),或者(取值水平超過20)最低最高的5個值。 |
basicStats() | fBasics | 服務于金融工程 |
4.2.3
- 分布:數據集中某變量各水平的取值情況
- 離散變量
- 二項式分布
- 泊松分布
- 幾何分布
- 連續數據
- 均勻分布
- 指數分布
- 正態分布
- 離散變量
概念 | 功能描述 |
---|---|
偏度(skewness) | 用于衡量數據的偏倚程度,也就是對稱度;以正態分布為基準,即正態分布的偏度為0,完全對稱分布;該值的取值區間為[-1, 1],說明數據對稱性較強;絕對值大于1,說明有偏倚現象,而且正值右偏、負值左偏。 |
峰度(kurtosis) | 描述數據的陡峭程度(或集中和分散程度);同樣是以正態分布為標準(峰度為0);取值大于0,說明是陡峭、尖峰峰度;取值小于0,平緩、平峰峰度。峰度絕對值越大,說明可能存在異常值。 |
4.2.4 稀疏性
稀疏性:對于高維數據而言,數據集中變量個數很多,而只有少部分變量有值。
稀疏矩陣包Matrix
4.2.5 缺失值
軟件包mice多用于多重查補技術,md.pattern()用于獲取缺失值的情況
4.2.6 相關性
- 相關系數
- 軟件包rattle、函數cor()
- 取值 -1~+1之間