R語言簡介
R語言是基于S語言的一種開源實現。S語言是貝爾實驗室最早開發的一種用于統計的工具,后來成為商業的S-PLUS軟件,是一種與SAS和SPSS齊名的統計軟件。
R語言的官方網址是:[https://www.r-project.org/]
獲取幫助的方式
help(函數名)
example(函數名)
加載并執行代碼
從文件中加載.r文件
source(文件名)
將執行結果寫入文件
sink(文件名)
代碼續行
在行尾使用"+"可進行續行
向量
可以用c()函數來生成一個向量,然后通過 <- 運算符賦值給一個向量
例:
> y <- c(12,33,12,22)
> y
[1] 12 33 12 22
對向量的操作,可以使用普通的+,-,*,/,^等操作符,也可以使用更多的函數,比如:log, sin, tan, max, mean, sum等。
可以使用sort, length, sqrt對向量進行排序,求長度,求平方根。
復數向量
向量支持以 實部 + 虛部i的方式
例:
> y1 <- c(2+1i, 3-9i, 4, 6+1i)
> y1
[1] 2+1i 3-9i 4+0i 6+1i
序列
可以使用1:m和1:(m)產生規則的序列
例:
> y2 <- c(1:22)
> y2
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
> y3 <- c(1:(23))
> y3
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
通過seq函數生成序列
seq是生成序列的最好工具。可以使用它產生符合某種規則的序列,seq函數有5個參數:
- from: 起始值
- to: 終止值
- by: 步長值
- length.out: 長度,元素個數
- along.with: 使用這個序列的長度來產生新的序列
下面是一些例子:
> seq(1,5)
[1] 1 2 3 4 5
> seq(1,9,2)
[1] 1 3 5 7 9
> seq(from=1, to=15, by=2)
[1] 1 3 5 7 9 11 13 15
> seq(from=1, to=15, length.out=3)
[1] 1 8 15
> seq(from=2,along.with=c(1:5))
[1] 2 3 4 5 6
rep函數
rep函數對序列中的元素進行重復后進行拼接,拼接的方式有兩種:
- 使用times參數將所有元素做為整體拼接
- 使用each參數將每個元素進行拼接
例:
> rep(y3,2)
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 1 2
[26] 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
> rep(y2,times=2)
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 1 2 3
[26] 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
> rep(y3,each=2)
[1] 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 12 13
[26] 13 14 14 15 15 16 16 17 17 18 18 19 19 20 20 21 21 22 22 23 23
邏輯型向量
邏輯型的值有TRUE, FALSE, NA, T, F等。可使用>,>=, ==, !=, &, |, ! 等操作產生邏輯值。
無效值NA, NaN主要用于應付某操作沒完成、結果未知的情況。
例:
> c(1:4,NA,2:3)
[1] 1 2 3 4 NA 2 3
> x1 <- c(1:4,NA,2:3)
> is.na(x1)
[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE
字符型向量
字符串用單引號或雙引號包圍。
\n: 新行
\r: 回車
\t: tab
\b: 退格
\\: \
\`: '
\": "
索引型向量
索引型向量按數據類型分為以下幾種情況:
- 在邏輯值型索引中,索引向量的元素為邏輯值型,邏輯值為TRUE的向量將被放在輸出結果中。
- 在正整數型索引中,索引向量是正整數類型,用于指示要哪些位置的元素輸出到結果中,位置可以重復使用。
- 對于負數索引,會將這些用負數標明的索引從結果集中刪除。
- 對于字符串索引,以字符串來標記位置
例1,邏輯型索引
> xx1 <- c(11, 22, 3388)
> jg <- xx1 > 22
> jg
[1] FALSE FALSE TRUE
> yy1 <- xx1[jg]
> yy1
[1] 3388
對象集屬性
固有屬性
對象集的固有屬性有mode和length兩種。
mode是對象的類型,主要有:numberic, complex, logical, character和raw等。
length顧名思義,向量中元素的個數
例:
> mode(yy1)
[1] "numeric"
> mode(jg)
[1] "logical"
> mode(y1)
> length(jg)
[1] 3
設置對象屬性
可使用attr(object, name)的方式自定義屬性
因子和有序因子
因子用來存儲類型于枚舉的變量。
在R語言中使用factor()函數生成因子對象,語法是:factor(data, levels, labels).
其中,data是數據,levels是因子水平向量,labels是因子的標簽。
例:
> my_num <- c(11,22,34,71,124,68,21)
> nums <- factor(my_num)
> nums
[1] 11 22 34 71 124 68 21
Levels: 11 21 22 34 68 71 124
levels函數生成因子水平向量,即是去重后的向量。
還可以使用ordered函數生成有序因子。
例:
> ordered(nums)
[1] 11 22 34 71 124 68 21
Levels: 11 < 21 < 22 < 34 < 68 < 71 < 124
> ordered(my_num)
[1] 11 22 34 71 124 68 21
Levels: 11 < 21 < 22 < 34 < 68 < 71 < 124
``
cut()函數將數據轉換成因子或有序因子,并進行分組。
例:
```R
> score <- c(88,85,76.5,97,92,77,74,80,63,100)
> cut(score, breaks = 3)
[1] (87.7,100] (75.3,87.7] (75.3,87.7] (87.7,100] (87.7,100] (75.3,87.7]
[7] (63,75.3] (75.3,87.7] (63,75.3] (87.7,100]
Levels: (63,75.3] (75.3,87.7] (87.7,100]
> cut(score, breaks = 2)
[1] (81.5,100] (81.5,100] (63,81.5] (81.5,100] (81.5,100] (63,81.5]
[7] (63,81.5] (63,81.5] (63,81.5] (81.5,100]
Levels: (63,81.5] (81.5,100]
> ordered(score)
[1] 88 85 76.5 97 92 77 74 80 63 100
Levels: 63 < 74 < 76.5 < 77 < 80 < 85 < 88 < 92 < 97 < 100
循環語句
for循環
R語言中的for循環不能指定起始值、終止值和步長值。
例:
> z1 <- c()
> x1 <- (1:10)
> y1 <- (11:20)
> for(i1 in 1:length(x1)){
+ z1[i1]=x1[i1]^2+y1[i1]^2
+ }
> z1
[1] 122 148 178 212 250 292 338 388 442 500
while循環
while語句每次會檢查循環條件,如果條件不再滿足,則終止循環。
例:
> x2 <- c(1:10)
> i2=1
> while(x2[i2]^2<10){
+ i2=i2+1
+ x2[i2]=x2[i2]^2
+ }
> x2
[1] 1 4 3 4 5 6 7 8 9 10
條件語句
R語言的條件語句仍然是if...else語句
例:
> z3 <- c()
> x3 <-(1:10)
> y3 <- (11:20)
> for(i3 in 1:length(x3)){
+ if ((x3[i3]^3 > y3[i3]^2))
+ z3[i3]=x3[i3]^3
+ else
+ z3[i3]=y3[i3]^2
+ }
> z3
[1] 121 144 169 196 225 256 343 512 729 1000