《R數據科學》|| 10-14章 stringr+forcats字符串處理;functions函數

r4ds

寫論文的間隙換換腦子繼續學習R4ds這本書。

  1. 英文原版在線https://r4ds.had.co.nz/index.html
  2. 中文翻譯版已有售,建議紙質版書籍隨時翻翻。電子版網盤分享 https://pan.baidu.com/s/1fkpqYahQHPkwx66XD2gGGg 提取碼: akct
  3. 最近才公布的課后習題參考答案https://jrnold.github.io/r4ds-exercise-solutions/
  4. Rstudio的一些便捷CheetSheetshttps://www.rstudio.com/resources/cheatsheets/
  5. 另外在寫代碼過程中Rstudio操作時的方便快捷鍵:賦值<- Alt+“減號” ;管道符%>% Ctrl+Shift+M

十章 使用stringr處理字符串。

字符串通常包含的是非結構化或者半結構化的數據。

10.1 字符串基礎

R基礎函數中含有一些字符串處理函數,但方法不一致,不便于記憶。推薦使用stringr函數。函數是以str_開頭

  1. 字符串的長度str_length()
  2. 字符串的組合str_c("x","y",sep = "_")
    • 向量化函數,自動循環短向量,使得其與最長的向量具有相同的長度
    • x <- c("abc", NA) ; str_c("1_",str_replace_na(x),"_1")
  3. 字符串character取子集:str_sub(x, start, end)。如果是一個向量,則對向量中的每個字符串操作,截取子集
    • 對向量x<- c("Apple","Banana", "Pear")中的每個字符串 第一個字母 小寫化。str_sub(x,1,1) <- str_to_lower(str_sub(x,1,1))
  4. 文本轉化為大小寫:全部大寫str_to_upper(), 首字母大寫str_to_title()
## 10.2 字符串基礎
str_length(c("a","aaaaa",NA)) ## str_length 返回字符串中的字符數量
str_c("x","y","z",sep = " ")
str_c("aaa",str_replace_na(c("bbb",NA)),"ccc")

x <- c("Apple","Banana","Pear")
(str_sub(x,1,1) <- str_to_lower(str_sub(x,1,1)))## 對首字母改為小寫。
x

10.2 正則匹配

利用str_view()學習正則匹配,需安裝library(htmltools), htmlwidgets。R中的正則表達式大多數規則是與其它語言共通的,特殊的,\d, \s , \w

  1. str_view(x, "abc")
  2. 錨點:^ $; 單詞邊界:\b,如匹配一個單詞 \bsum\b
  3. 特殊匹配符號:\\d, \\s, \\w, [abc], [^abc]不匹配a/b/c
  4. 數量:? + * {n,m} (..)\\1
## 10.3正則表達式進行模式匹配。
str_view(x,".a")
str_view(x,"^a")

str_view(words,"^.{7,}$",match = T) ## exercise 只顯示7個字母及以上的單詞
10.3 各類匹配操作
  1. 匹配檢測:返回邏輯值str_detect(x, "e$")
    • 利用sum(), mean()簡單統計匹配的個數。
    • 邏輯取子集方法篩選:words[str_detect(words,"x$")]
    • 與dplyr使用的另一種技巧df %>% filter(str_detect(words,"ab"))
    • 等同于str_subset(words,"x$")
    • str_count(words, "[aeiou]") 返回字符串中匹配的數量。
    • 與dplyr一起使用:df %>% mutate( vowels=str_count(w,"[aeiou]"))
  1. 提取匹配的內容:str_extract() 只提取第一個匹配的內容。
    • str_extract_all(words,color_match)返回一個列表,包含所有匹配的內容。
    • str_extract_all(words,color_match, simplify= TRUE) 返回的是一個矩陣。
    • 可先利用str_subset()找到包含匹配的chr,再用str_extract() 找到包含的匹配。
    • 利用tidyr里的extract()提取
  2. 替換匹配的內容 str_replace(words, "match_x", "replace_x")
    • 同時替換多個匹配的內容:str_replace_all()
    • 同時執行多個替換:str_replace_all(words,c("1"="one","2"="two","3"="three"))
  3. 拆分 split(sentences," ")返回的是一個列表
    • "a|b|c|d" %>% str_split("\\|") %>% .[[1]]
    • 內置的單詞邊界函數boundary(),會自動識別單詞外的字符str_split(x, boundary("word"))
  4. 定位:str_locate
    • 使用str_locate()找出匹配的模式,再用str_sub()提取或修改匹配的內容。
## 10.4.1匹配檢測
df <- tibble(w=words,i=seq_along(words))
df %>% filter(str_detect(w,"ab")) ##對于tibble表中篩選。
str_subset(words,"^y")

mean(str_count(words,"[aeiou]")) ## 每個單詞中元音字母的數量
df %>% mutate(vowels=str_count(w,"[aeiou]"),consonants=str_count(w,"[^aeiou]")) ## 與mutate一起使用,加一列匹配到元音字母與非元音字母的數

####exercises
str_subset(words,"x$|^y")
words[str_detect(words,"x$|^y")]


## 10.4.3 提取匹配內容
colors <- c("red","orange","yellow","green","blue","purple")
(color_match <- str_c(colors,collapse = "|"))
has_color <- str_subset(sentences,color_match) ## 提取包含匹配的整個句子
matches <- str_extract(has_color,color_match) ##匹配包含匹配句子 的 第一個匹配內容。
str(matches)
###exercises
str_extract(sentences,"^\\S+")
str_extract_all(sentences,"\\w+s")

words_ing <- str_subset(sentences,"\\b\\w+ing\\b")
str_extract_all(words_ing,"\\b\\w+ing\\b")
## 10.4.5 分組匹配
noun <- "(a|the) (\\S+)"
has_noun <- sentences %>% str_subset(noun)
has_noun %>% str_extract(noun) 

sentences %>% str_subset(noun) %>% str_extract(noun)
str_match(has_noun,noun) ## 可以給出每個獨立的分組,返回的是一個矩陣。
tibble(sentence=sentences) %>% extract(col = sentence,into = c("article","noun"),regex = "(a|the) (\\w+)",remove = F)

## 10.4.7 替換
str_replace()
str_replace_all(words,c("1"="one","2"="two","3"="three"))


## 10.4.9拆分
"a|b|c|d" %>% str_split("\\|") %>% .[[1]]
x <- "This is a sentence"
str_view_all(x,boundary("word"))  ## 返回句子中的所有單詞

apropos("str")

10.5 其它類型的匹配

對于一個匹配的"pattern"來說,其完整的寫法是regex("pattern")。而regex()函數中包含其它的參數

  • ignore_case=T忽略匹配的大小寫
  • multiline=T 可以跨行匹配
  • comments = T 可以添加注釋信息
  • dotall=T可以匹配所有字符

其它應用:當想不起函數名稱時可以apropos("pattern")

十一章 使用forcats處理因子

因子在R中用于處理分類變量。分類變量是在固定的已知集合中取值的變量。

使用因子時,最常用的兩種操作時修改水平的順序和水平的值。

  • factor(x1,levels=c("a","b","c"))
  • fct_reorder() ## 重新對factor的層級進行確定。
  • 利用gss_cat數據集,其中一個問題待解決“美國民主黨/共和黨/中間派的人數比例是如何隨時間而變化的”

十四章 函數(Functions)

當一段代碼需要多次使用的時候就可以寫函數來實現。先編寫工作代碼,而后再轉換成函數的代碼。包括名稱/參數/主體代碼

library(tidyverse)
df <- tibble(a=rnorm(10),
             b=rnorm(10),
             c=rnorm(10),
             d=rnorm(10)
)
x <- df$a
rng <- range(x,na.rm = T) ## range函數返回(最大值和最小值)
(x-rng[1])/(rng[2]-rng[1])

#### 具體函數
rescale01 <- function(x){
  rng <- range(x,na.rm = T,finite=T)
  (x-rng[1])/(rng[2]-rng[1])
} ###函數名稱為rescale01
rescale01(c(df$a,Inf))
#### exercises
#1, parameters
rescale01_v2 <- function(x,na.rm_TorF,finite_TorF){
  rng <- range(x,na.rm = na.rm,finite=finite)
  (x-rng[1])/(rng[2]-rng[1])
}

#2, reverse_Inf


  1. 命名的規則:函數名一般為動詞,參數為名詞。使用注釋來解釋代碼。
## exercises
#1,
f1 <- function(string,prefix){
  substr(string,1,nchar(prefix))==prefix
}
f3 <- function(x,y){
  rep(y,length.out(x))
}
  1. 條件執行(condition execution):if..else..語句
  • if..else語句中使用邏輯表達式:&& ,||
  • 向量化操作符: &,| 只可以用于多個值。

## exercise2歡迎函數
greet <- function(time=lubridate::now()){
  hr <- lubridate::hour(time)
  if(hr<12){
    print("Good morning!")
  }else if (hr<18) {
    print("Good afternoon")
  }else{
    print("Good evening")
  }
}

## exercise3
fizzbuzz <- function(x){
  ###限定輸入的內容格式
  stopifnot(length(x)==1)
  stopifnot(is.numeric(x))
  
  if (x%%3==0 && x%%5!=0) {
    print("fizz")
  }else if (x%%5==0 && x%%3!=0) {
    print("buzz")
  }else if (x%%5==0 && x%%3==0) {
    print("fizzbuzz")
  }else{
    print(x)
  }
}

  1. 函數的參數:主要包括進行計算的數據,控制計算過程的細節,細節參數一般都有默認值
    n
## 使用近似正態分布計算均值兩端的置信區間
mean_ci <- function(x,confidence=0.95){
  se <- sd(x)/sqrt(length(x))
  alpha <- 1-confidence
  mean(x)+se*qnorm(c(alpha/2,1-alpha/2))
}
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,923評論 6 535
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,740評論 3 420
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事?!?“怎么了?”我有些...
    開封第一講書人閱讀 176,856評論 0 380
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,175評論 1 315
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,931評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,321評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,383評論 3 443
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,533評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,082評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,891評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,067評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,618評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,319評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,732評論 0 27
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,987評論 1 289
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,794評論 3 394
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,076評論 2 375

推薦閱讀更多精彩內容