freexxxpornvideo,金粉世家电视剧,噼里啪啦国语在线播放

R語言主要擅長于數(shù)值向量和矩陣操作，但是讓他去做字符串操作也可以。

字符串的基本操作類型：

查找和替換
大小寫轉(zhuǎn)換
字符數(shù)統(tǒng)計
字符串連接和拆分

就我所知，有兩套處理函數(shù)，一套是Hadley大神的stringr,一套是R自帶的。

stringr使用指南

stringr函數(shù)主要分為四類：

字符操作：操作字符向量中的單個字符 str_length, str_sub, str_dup
添加，移除和操作空白符 str_pad, str_trim, str_wrap
大小寫轉(zhuǎn)換處理 str_to_lower, str_to_upper, str_to_title
模式匹配函數(shù) str_detect, str_subset, str_count, str_locate, str_locate_all, str_match, str_match_all, str_replace, str_replace_all, str_split_fix, str_split, str_extract, str_extract_all

單個字符的處理

字符長度str_length，等價于nchar

str_length("abc")

根據(jù)位置信息提取或替換字符, 類似于substr()

x <- c("abcdef","ghijk")
# 第三個
str_sub(x,3,3)
# 第二個到倒數(shù)第二個
str_sub(x,2, -2)
# 替換
str_sub(x,3,3) <- X

重復字符串，不同于rep

str_dup(x,c(2,3))

空白符

前后增加空白字符, str_pad()

x <- c("abc", "defghi")
str_pad(x, 10)
str_pad(x, 10, "both")

移除空白字符, str_trim()

x <- c("   b   ", "c   ", "   d")
str_trim(x)
str_trim(x,left)

更好的排版，讓每一行的看起來一樣長， str_wrap()

nature <- c("Nature Methods' Points of Significance column ",
"on statistics explains many key statistical and ","experimental design concepts. Other resources include an online",
" plotting tool and links to statistics guides from other publishers.")
cat(str_wrap(nature, width=40))

大小寫轉(zhuǎn)換

全部大寫 str_to_upper, 類似于基礎R的toupper()
全部小寫 str_to_lower, 類似于基礎R的tolower()
title形式 str_to_title

模式匹配

功能： decect, locate, extract, match, replace, split
測試數(shù)據(jù)：

strings <- c(
    "apple",
    "219 733 8965",
    "329-293-8753",
    "Work: 579-499-7527; Home: 543.355.3679"
)

號碼的正則形式:

phone <- "([2-9][0-9]{2})[- .]([0-9]{3})[- .]([0-9]{4})"

檢測字符串是否符合特定模式， str_detect

str_detect(strings, phone)

提取字符串(全部內(nèi)容）， str_subset

str_subset(strings, phone)

統(tǒng)計匹配次數(shù)，str_count

str_count(strings, phone)

定位首個匹配的位置,str_locate(返回matrix), 或所有匹配的位置, str_locate_all（返回list）

str_locate(strings, phone)
str_locate_all(strings, phone)

str_extract提取首個匹配，返回字符串向量, str_extract_all()提取所有匹配，返回list

str_extract(strings, phone)
str_extract_all(strings,phone)
str_extract_all(strings, phone, simplify=TRUE)

-str_match提取首個匹配中()分組內(nèi)的內(nèi)容， str_match_all()則是全部，因此是list

str_match(strings, phone)
str_match_all(strings, phone)

str_replace()替代第一個匹配， str_replace_all替代所有匹配

str_replace(strings, phone, "XXX-XXX-XXXX")
str_replace_all(strings, phone, "XXX-XXX-XXXX")

str_split_fixed()返回固定數(shù)目，全部拆分，str_split（)可變拆分

str_split_fixed("a-b-c", "-")
str_spilt("a-b-c","-", n=2)

4類字符串描述引擎

默認是正則表達式`vignette("regular-expression")
逐byte固定匹配, fixed()
locale-sensive 字符匹配, coll()
字符邊界分析， boundary()

正則表達式練習

基本匹配

最簡單的模式就是匹配某個完整的字符

x <- c("apple", "banana", "pear")
str_extract(x, "an")

如果需要忽略大小寫, ignore_case =TRUE

bananas <- c("banana", "Banana", "BANANA")
str_dectect(bananas, regrex("banana", ignore_case=TRUE))

可以用點.匹配任意字符，但是默認不包括\n,需要用dotall=TURE開啟

str_detect("\nX\n", ".X.")
str_detect("\nX\n", regex(".X.", dotall=TRUE))

轉(zhuǎn)義（R中一坑）

正則表達式中有一些是特殊字符，比如說剛才的頓號，因此為了匹配這些特殊字符，我們需要對其轉(zhuǎn)義。在Linux命令行里，轉(zhuǎn)義用的是\, 所以可以直接用\..

但是R里面的坑就出現(xiàn)了，我們用字符表示正則表達式，\ 在字符里被用作轉(zhuǎn)義符號。然后我們需要先把\轉(zhuǎn)義成字符，然后才能進一步轉(zhuǎn)義,\\.

如果要匹配\ ,就需要\\\\，不可以思議，難以釋懷，不知道被坑了多少次。

或者你用\Q...\E 類似于Python的 r'....'，原意匹配

特殊字符

\d: 任意數(shù)字， \D：任意非數(shù)字.
\s: 任意空白字符，\S：任意非空白字符
\w: 匹配單詞
\b: 匹配字符邊界， \B：非字符邊界
[abc], [a-z], [^abc], [^-]

在R里面，需要對""進行轉(zhuǎn)義，所以上面的\在R里都要寫成，\
下面是一些預編譯好的字符集，顧名思義

[:punct:]
[:alpha:]
[:lower:]
[:upper:]
[:digit:]
[:xdigit:]
[:alnum:]
[:cntrl:]
[:graph:]
[:print:]
[:space:]
[:blank:]

或

匹配abc或def

str_detect(c("abc","def","ghi"), "abc|def")

分組

匹配grey或gray

str_extract(c("grey","gray"), "gr(e|a)y")

分組可以用\1, \2進行提取，

定位

^: 字符串開始，如^a
$: 字符串結(jié)束，如a$

如果字符串有多行，那么就需要regex(multiline=TRUE)。此時，
\A: 輸入開頭
\z: 輸入結(jié)尾
\Z: 頭尾

重復

?: 0或1
+: 大于等于1
*：大于等于0
{n}: n次
{n,m}： n到m次
{n,}: 大于那次

默認是貪婪模式，在上述字符后添加"?" 則為非貪婪模式。

PS: 下面是R語言自帶的字符處理函數(shù)，我已經(jīng)放棄他們了。

基礎R包函數(shù)

nchar(): 函數(shù)返回字符串長度
paste(), paste0(): 連接若干個字符串
sprintf()：格式化輸出，下面舉例

sprintf("%f", pi)
sprintf("%.3f", pi)
sprintf("%1.0f", pi)
sprintf("%5.1f", pi)
sprintf("%05.1f", pi)
sprintf("%+f", pi)
sprintf("% f", pi)
sprintf("%-10f", pi) # left justified
sprintf("%e", pi)
sprintf("%E", pi)
sprintf("%g", pi)
sprintf("%g",   1e6 * pi) # -> exponential
sprintf("%.9g", 1e6 * pi) # -> "fixed"
sprintf("%G", 1e-6 * pi)

toupper(): 大寫轉(zhuǎn)換
tolower(): 小寫轉(zhuǎn)換
substr(): 提取或替換一個字符串向量的子串

x <- "abcde"
substr(x,1,2)
# ab
substr(x,1,2) <- 2333
# 233cde

上面都是一些普通的函數(shù)，很好理解，下面都是一些和正則表達式相關的函數(shù)，如grep, grepl, regexpr, gregexpr, sub, gsub, strsplit
因此必須介紹一下R語言的正則表達式寫法了。

R語言是用的擴展正則表達式（Extended Regular Expressions)
元字符：\ | ( ) [ { ^ $ * + ?
非元字符轉(zhuǎn)義后：\a as BEL, \e as ESC, \f as FF, \n as LF, \r as CR and \t as TAB
一些定義字符集合[:alnum:], [:alpha:], [:blank:], [:cntrl:], [:digit:], [:graph:], [:lower:], [:print:], [:punct:], [:space:], [:upper:],[:xdigit:]
找出“組”字符串
默認是貪婪模式，可以通過用?改變?yōu)榉秦澙纺Ｊ?/li>

這些是基本知識，可以百度到每個字符的具體解釋，或者看文檔?regexp
不說基礎知識了，看下應用吧。我常用的操作一般是找到某個字符串，或者對字符串進行替換
比如說，我想找到所有以P開頭，且不是P結(jié)尾的字符，

test <- c("Python", "Perl", "PHP", "JAVA", "C", "C++")
grep("^P.*?[^P]$", test)
[1] 1 2
grep("^P.*?[^P]$", test,value=TRUE)
[1] "Python" "Perl"
grepl("^P.*?[^P]$", test)
[1]  TRUE  TRUE FALSE FALSE FALSE FALSE
regexpr("^P.*?[^P]$", test)
[1]  1  1 -1 -1 -1 -1
attr(,"match.length")
[1]  6  4 -1 -1 -1 -1
attr(,"useBytes")
> gregexpr("^P.*?[^P]$", test)
[[1]]
[1] 1
attr(,"match.length")
[1] 6
attr(,"useBytes")
[1] TRUE

[[2]]
[1] 1
attr(,"match.length")
[1] 4
attr(,"useBytes")
[1] TRUE

其中grep()默認是返回下標，如果設置value=TRUE，則返回字符串，grepl()返回是否配對的邏輯判斷， regexpr則是返回匹配范圍，如果不匹配結(jié)果是-1，gregexpr和前者功能一致，只不過返回的是列表形式。
注：忽略大小寫ignore.case = TRUE

現(xiàn)在我想把C++替換成C--。我先試著找到C++

> grep("\+\+",test)
錯誤: 由""\+"開頭的字符串中存在'\+'，但沒有這種逸出號

什么情況，為什么\+不能把+這個元字符轉(zhuǎn)義？難不成+在R里面不是元字符？我測試下

grep("++",test,value=TRUE)
Error in grep("++", test, value = TRUE) : 
  正規(guī)表現(xiàn)’++'不對，原因是'Invalid use of repetition operators'

啊！看來+還是元字符，難道是\ 叛變革命了，我試試看。

> grep("\23","test\23",value=TRUE)
[1] "test\023"
> grep("\\23","test\23",value=TRUE)
Error in grep("\\23", "test\023", value = TRUE) : 
  正規(guī)表現(xiàn)’\23'不對，原因是'Invalid back reference'

看來\ 是主要任務是把非元字符轉(zhuǎn)義，如果想把元字符轉(zhuǎn)義成普通字符，只能是\\元字符

grep("\\+\\+",test,value=TRUE)
[1] "C++"

回到我們之前的替換任務sub只對第一個匹配進行替換，gsub對所有匹配替換。

 sub("\\+\\+","--",test)
[1] "Python" "Perl"   "PHP"    "JAVA"   "C"      "C--"

最后還可以用strsplit對字符串進行分割，返回的是一個列表

x <- c(as = "asfef", qu = "qwerty", "yuiop[", "b", "stuff.blah.yech")
strsplit(x, "e")

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

R語言的字符操作

R語言的字符操作

stringr使用指南

單個字符的處理

空白符

大小寫轉(zhuǎn)換

模式匹配

4類字符串描述引擎

正則表達式練習

基本匹配

轉(zhuǎn)義（R中一坑）

特殊字符

或

分組

定位

重復

基礎R包函數(shù)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

R語言的字符操作

stringr使用指南

單個字符的處理

空白符

大小寫轉(zhuǎn)換

模式匹配

4類字符串描述引擎

正則表達式練習

基本匹配

轉(zhuǎn)義（R中一坑）

特殊字符

或

分組

定位

重復

基礎R包函數(shù)

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频