R語言利器---apply函數族

循環對于代碼運行來說是非常消耗時間和資源的,在R中,要盡量少使用for while循環,用apply函數族的話對于數據處理會十分方便。

apply {base}
通過對數組或者矩陣的一個維度使用函數生成值得列表或者數組、向量。
apply(X, MARGIN, FUN, ...)
X 陣列,包括矩陣
MARGIN 1表示矩陣行,2表示矩陣列,也可以是c(1,2)

例:
xxx<-matrix(1:20,ncol=4)
apply(xxx,1,mean)
[1] 8.5 9.5 10.5 11.5 12.5
apply(xxx,2,mean)
[1] 3 8 13 18
xxx
[,1] [,2] [,3] [,4]
[1,] 1 6 11 16
[2,] 2 7 12 17
[3,] 3 8 13 18
[4,] 4 9 14 19
[5,] 5 10 15 20

lapply {base}
通過對x的每一個元素運用函數,生成一個與元素個數相同的值列表
lapply(X, FUN, ...)
X表示一個向量或者表達式對象,其余對象將被通過as.list強制轉換為list

例:
x <- list(a = 1:10, beta = exp(-3:3), logic = c(TRUE,FALSE,FALSE,TRUE))
x
$a
[1] 1 2 3 4 5 6 7 8 9 10
$beta
[1] 0.04978707 0.13533528 0.36787944 1.00000000 2.71828183 7.38905610
[7] 20.08553692
$logic
[1] TRUE FALSE FALSE TRUE
lapply(x,mean)
$a
[1] 5.5
$beta
[1] 4.535125
$logic
[1] 0.5

sapply {base}
這是一個用戶友好版本,是lapply函數的包裝版。該函數返回值為向量、矩陣,如果simplify=”array”,且合適的情況下,將會通過simplify2array()函數轉換為陣列。sapply(x, f, simplify=FALSE, USE.NAMES=FALSE)返回的值與lapply(x,f)是一致的。
sapply(X, FUN, ..., simplify = TRUE, USE.NAMES = TRUE)
X表示一個向量或者表達式對象,其余對象將被通過as.list強制轉換為list
simplify 邏輯值或者字符串,如果可以,結果應該被簡化為向量、矩陣或者高維數組。必須是命名的,不能是簡寫。默認值是TRUE,若合適將會返回一個向量或者矩陣。如果simplify=”array”,結果將返回一個陣列。
USE.NAMES 邏輯值,如果為TRUE,且x沒有被命名,則對x進行命名。

例:
sapply(k, paste,USE.NAMES=FALSE,1:5,sep="...")
[,1] [,2] [,3]
[1,] "a...1" "b...1" "c...1"
[2,] "a...2" "b...2" "c...2"
[3,] "a...3" "b...3" "c...3"
[4,] "a...4" "b...4" "c...4"
[5,] "a...5" "b...5" "c...5"
sapply(k, paste,USE.NAMES=TRUE,1:5,sep="...")
a b c
[1,] "a...1" "b...1" "c...1"
[2,] "a...2" "b...2" "c...2"
[3,] "a...3" "b...3" "c...3"
[4,] "a...4" "b...4" "c...4"
[5,] "a...5" "b...5" "c...5"
sapply(k, paste,USE.NAMES=TRUE,1:5,sep="...",simplyfy=TRUE)
a b c
[1,] "a...1...TRUE" "b...1...TRUE" "c...1...TRUE"
[2,] "a...2...TRUE" "b...2...TRUE" "c...2...TRUE"
[3,] "a...3...TRUE" "b...3...TRUE" "c...3...TRUE"
[4,] "a...4...TRUE" "b...4...TRUE" "c...4...TRUE"
[5,] "a...5...TRUE" "b...5...TRUE" "c...5...TRUE"
sapply(k, paste,simplify=TRUE,USE.NAMES=TRUE,1:5,sep="...")
a b c
[1,] "a...1" "b...1" "c...1"
[2,] "a...2" "b...2" "c...2"
[3,] "a...3" "b...3" "c...3"
[4,] "a...4" "b...4" "c...4"
[5,] "a...5" "b...5" "c...5"
sapply(k, paste,simplify=FALSE,USE.NAMES=TRUE,1:5,sep="...")
$a
[1] "a...1" "a...2" "a...3" "a...4" "a...5"
$b
[1] "b...1" "b...2" "b...3" "b...4" "b...5"
$c
[1] "c...1" "c...2" "c...3" "c...4" "c...5"

vapply {base}
vapply類似于sapply函數,但是它的返回值有預定義類型,所以它使用起來會更加安全,有的時候會更快
在vapply函數中總是會進行簡化,vapply會檢測FUN的所有值是否與FUN.VALUE兼容,以使他們具有相同的長度和類型。類型順序:邏輯<</span>整型<</span>實數<</span>復數
vapply(X, FUN, FUN.VALUE, ..., USE.NAMES = TRUE)
X表示一個向量或者表達式對象,其余對象將被通過as.list強制轉換為list
simplify 邏輯值或者字符串,如果可以,結果應該被簡化為向量、矩陣或者高維數組。必須是命名的,不能是簡寫。默認值是TRUE,若合適將會返回一個向量或者矩陣。如果simplify=”array”,結果將返回一個陣列。
USE.NAMES 邏輯值,如果為TRUE,且x沒有被命名,則對x進行命名。
FUN.VALUE 一個通用型向量,FUN函數返回值得模板

例:
x<-data.frame(a=rnorm(4,4,4),b=rnorm(4,5,3),c=rnorm(4,5,3))
vapply(x,mean,c(c=0))
a b c
1.8329043 6.0442858 -0.1437202
k<-function(x)

  • {
  • list(mean(x),sd(x))
  • }

vapply(x,k,c(c=0))
錯誤于vapply(x, k, c(c = 0)) : 值的長度必需為1,
但FUN(X[[1]])結果的長度卻是2
vapply(x,k,c(c=0,b=0))
錯誤于vapply(x, k, c(c = 0, b = 0)) : 值的種類必需是'double',
但FUN(X[[1]])結果的種類卻是'list'
vapply(x,k,c(list(c=0,b=0)))
a b c
c 1.832904 6.044286 -0.1437202
b 1.257834 1.940433 3.649194

tapply {base}
對不規則陣列使用向量,即對一組非空值按照一組確定因子進行相應計算
tapply(X, INDEX, FUN, ..., simplify = TRUE)
x 一個原子向量,典型的是一個向量
INDEX 因子列表,和x長度一樣,元素將被通過as.factor強制轉換為因子
simplify 若為FALSE,tapply將以列表形式返回陣列。若為TRUE,FUN則直接返回數值

例:
height <- c(174, 165, 180, 171, 160)
sex<-c("F","F","M","F","M")
tapply(height, sex, mean)
F M
170 170

eapply {base}
eapply函數通過對environment中命名值進行FUN計算后返回一個列表值,用戶可以請求所有使用過的命名對象。
eapply(env, FUN, ..., all.names = FALSE, USE.NAMES = TRUE)
env 將被使用的環境
all.names 邏輯值,指示是否對所有值使用該函數
USE.NAMES 邏輯值,指示返回的列表結果是否包含命名

例:
require(stats)

env <- new.env(hash = FALSE) # so the order is fixed
env$a <- 1:10
env$beta <- exp(-3:3)
env$logic <- c(TRUE, FALSE, FALSE, TRUE)

what have we there?

utils::ls.str(env)
a : int [1:10] 1 2 3 4 5 6 7 8 9 10
beta : num [1:7] 0.0498 0.1353 0.3679 1 2.7183 ...
logic : logi [1:4] TRUE FALSE FALSE TRUE

compute the mean for each list element

eapply(env, mean)
$logic
[1] 0.5
$beta
[1] 4.535125
$a
[1] 5.5
unlist(eapply(env, mean, USE.NAMES = FALSE))
[1] 0.500000 4.535125 5.500000

median and quartiles for each element (making use of "..." passing):

eapply(env, quantile, probs = 1:3/4)
$logic
25% 50% 75%
0.0 0.5 1.0
$beta
25% 50% 75%
0.2516074 1.0000000 5.0536690

$a
25% 50% 75%
3.25 5.50 7.75

eapply(env, quantile)
$logic
0% 25% 50% 75% 100%
0.0 0.0 0.5 1.0 1.0
$beta
0% 25% 50% 75% 100%
0.04978707 0.25160736 1.00000000 5.05366896 20.08553692
$a
0% 25% 50% 75% 100%
1.00 3.25 5.50 7.75 10.00

mapply {base}
mapply是sapply的多變量版本。將對...中的每個參數運行FUN函數,如有必要,參數將被循環。
mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE, USE.NAMES = TRUE)
MoreArgs FUN函數的其他參數列表
SIMPLIFY 邏輯或者字符串,可以減少結果成為一個向量、矩陣或者更高維陣列,詳見sapply的simplify參數
USE.NAMES 邏輯值,如果第一個參數...已被命名,將使用這個字符向量作為名字

例:
mapply(rep, 1:4, 4:1)
[[1]]
[1] 1 1 1 1
[[2]]
[1] 2 2 2
[[3]]
[1] 3 3
[[4]]
[1] 4

rapply {base}
rapply是lapply的遞歸版本
rapply(X, FUN, classes = "ANY", deflt = NULL, how = c("unlist", "replace", "list"), ...)
X 一個列表
classes 關于類名的字符向量,或者為any時則匹配任何類
deflt 默認結果,如果使用了how=”replace”,則不能使用
how 字符串匹配三種可能結果

apply.png

最后筆者覺得沒必要集這么多記住apply就行apply不能解決的時候再去找其他的apply函數族函數!!

部分參照數據人網

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容