數據錄入與格式轉換(reshape2、tidyr包)

在實驗數據產出之后,繪制圖形時存在兩個問題,首先是數據錄入格式的問題,其次是數據轉換的問題。

(一):數據錄入[1]

舉例:用兩種飼料喂食橘小實蠅(處理),4個生物重復,待其性成熟后每日統計產卵量,連續統計4天,試錄入數據。

1.1 寬數據格式

寬數據是指數據集對所有的變量進行了明確的細分,各變量的值不存在重復循環的情況也無法歸類。數據總體的表現為變量多而觀察值少。

寬格式

1.2 長數據格式

長數據一般是指數據集中的變量沒有做明確的細分,即變量中至少有一個變量中的元素存在值嚴重重復循環的情況(可以歸為幾類),表格整體的形狀為長方形,即 變量少而觀察值多。

長數據

(二):數據轉換

2.1 reshape2包

Reshape包主要是用來做數據變形的。其中主要的有兩個函數melt和dcast1。其中melt主要用于寬變長,而dcast1主要用于長變寬。

2.1.1 寬格式轉長格式[2]
# 數組(array)類型
datax <- array(1:8, dim=c(2,2,2)) 
melt(datax)
# 列表數據
melt(data, id.vars, measure.vars, 
     variable.name = "variable", ..., na.rm = FALSE, 
     value.name = "value") 
  • id.vars 是被當做維度的列變量,每個變量在結果中占一列;
  • measure.vars 是被當成觀測值的列變量,它們的列變量名稱和值分別組成 variable 和 value兩列;
  • 列變量名稱用variable.name 和 value.name來指定。

var.ids 可以寫成id,measure.vars可以寫成measure。id(即var.ids)和觀測值(即measure.vars)這兩個參數可以只指定其中一個,剩余的列被當成另外一個參數的值;如果兩個都省略,數值型的列被看成觀測值,其他的被當成id。如果想省略參數或者去掉部分數據,參數名最好用 id/measure,否則得到的結果很可能不是你要的。

2.1.2 長格式轉寬格式[3]
  • dcast:針對數據框
  • acast:針對向量、矩陣、數組
dcast(data, formula, fun.aggregate = NULL, ..., margins = NULL,subset = NULL,
 fill = NULL, drop = TRUE,value.var = guess_value(data))
  • data:以溶解的數據框(通常是melt函數創建的);
  • formula:描述輸出結果的公式,比如x~y,則x表示數據透視表的行,y代表數據透視表的列;
  • fun.aggregate:聚合函數。如果要聚合輸出結果中一溶解的數據,用這個參數可以設置聚合函數。可以使用自定義函數;
  • margins:相當于透視表中的行總計和列總計;
  • subset:選取滿足一些特定值的數據,相當于Excel透視表的篩選。例如, subset =.(variable ==“length”);
  • value.var:存儲值的列的名稱。
2.2 tidyr包[4][5]

tidyr主要提供了一個類似Excel中數據透視表(pivot table)的功能;
gather和spread函數將數據在長格式和寬格式之間相互轉化,應用在比如稀疏矩陣和稠密矩陣之間的轉化;

2.2.1 寬格式轉長格式
# gather的用法
gather(data, key, value, …, na.rm = FALSE, convert = FALSE)
  • data:需要被轉換的寬形表;
  • key:將原數據框中的所有列賦給一個新變量key;
  • value:將原數據框中的所有值賦給一個新變量value…:可以指定哪些列聚到同一列中;
  • ...:包含值的源列的名稱;
  • na.rm:是否刪除缺失值;
  • convert=FALSE:是否需要進行類型轉換;
  • factor_key=FALSE:是否存儲為字符向量,否則存儲為因子,按照原始順序排列。
2.2.2 長格式轉寬格式[5]
# spread的用法:
spread(data, key, value, fill = NA, convert = FALSE, drop =TRUE,
sep = NULL)
  • data:為需要轉換的長形表;
  • key:需要將變量值拓展為字段的變量;
  • value:需要分散的值;
  • fill:對于缺失值,可將fill的值賦值給被轉型后的缺失值。

(三):數據演示[6]

3.1 數據錄入
# 在寬格式和長格式之間轉換數據
rm(list = ls())
olddata_wide <- read.table(header=TRUE, text='
 subject sex control cond1 cond2
       1   M     7.9  12.3  10.7
       2   F     6.3  10.6  11.1
       3   F     9.5  13.1  13.8
       4   M    11.5  13.4  12.9
')
# Make sure the subject column is a factor
olddata_wide$subject <- factor(olddata_wide$subject)

olddata_long <- read.table(header=TRUE, text='
 subject sex condition measurement
       1   M   control         7.9
       1   M     cond1        12.3
       1   M     cond2        10.7
       2   F   control         6.3
       2   F     cond1        10.6
       2   F     cond2        11.1
       3   F   control         9.5
       3   F     cond1        13.1
       3   F     cond2        13.8
       4   M   control        11.5
       4   M     cond1        13.4
       4   M     cond2        12.9
')
# Make sure the subject column is a factor
olddata_long$subject <- factor(olddata_long$subject)
3.2 數據轉換
##################################寬數據轉換####################################
olddata_wide
# tidyr package
library(tidyr)
data_long <- gather(data = olddata_wide, key = condition,
                    value = measurement, control:cond2, factor_key = TRUE)
data_long
# reshape2  package
library(reshape2)
data_long <- melt(data = olddata_wide, id.vars=c("subject", "sex"), 
                  measure.vars= c("control","cond1","cond2"),
                  variable.name = "variable", value.name = "value")
data_long
# 可以簡寫為 melt(olddata_wide, id.vars=c("subject", "sex"))

##################################長數據轉換####################################
olddata_long
# tidyr package
library(tidyr)
data_wide <- spread(data = olddata_long, key = condition, value = measurement)
data_wide

# reshape2  package
library(reshape2)
data_wide <- dcast(data = olddata_long, formula = subject + sex ~ condition, 
                   value.var="measurement")
data_wide

參考資料:


  1. R語言數據格式 長數據 和 寬數據 之間的轉換 ?

  2. reshape/reshape2 包的melt函數 ?

  3. 利用reshape2包進行數據逆透視和數據透視 ?

  4. tidyr包:reshape2的替代者,功能更純粹 ?

  5. R語言tidyr包數據變換函數 ? ?

  6. Converting data between wide and long format ?

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,316評論 6 531
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,481評論 3 415
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,241評論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 62,939評論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,697評論 6 409
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,182評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,247評論 3 441
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,406評論 0 288
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 48,933評論 1 334
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,772評論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 42,973評論 1 369
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,516評論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,209評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,638評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,866評論 1 285
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,644評論 3 391
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 47,953評論 2 373

推薦閱讀更多精彩內容