正則表達式(正則表達式必知必會)

什么是正則表達式

簡單來說,正則表達式是一些用來匹配和處理文本的字符串。它主要有兩種使用場景:一種是查找特定的信息(搜索),另一種是查找并編輯特定的信息(替換)。
參考正則表達式30分鐘入門:(https://deerchao.cn/tutorials/regex/regex.htm)

匹配單個字符

  1. 匹配特定純文本
    普通字符可作為正則表達式,匹配該字符本身。
  2. 匹配任意字符
    正則表達式中,.可以匹配任何一個單個的字符,除了換行符外,類似于DOS中的?字符和SQL中的_(下劃線)字符。
  3. 匹配特殊字符
    正則表達式中,\是一個元字符(metacharacter),表示這個字符有特殊含義,而不是字符本身的含義。\后面跟著一個特殊字符,可對該特殊字符轉義。要匹配一個特殊字符時,應該由\跟著特殊字符去匹配。比如\.表示匹配一個.。

匹配一組字符

元字符[]用來定義一個字符集合,其含義是必須匹配該集合中的一個字符。定義一個字符集合具體做法有兩種:一是把所有的字符都列舉出來,該做法通常用于要列舉的字符較少時,例如[abc];二是利用元字符-以字符區間的方式給出,例如[0-9]將匹配0-9中的任意一個。注意在定義一個字符區間的時候,一定要避免讓這個區間的尾字符小于它的首字符,如[3-1],這種區間是無意義的,而且往往會讓整個模式失效。-(連字符)是一個特殊的元字符,作為元字符它只能用在[]之間。在字符集合外,-只是一個普通字符,只能匹配-自身,因此-字符不需要轉義。
此外,字符集合可以用元字符^來求非:這將把給定集合里的字符強行排除在匹配操作之外。例如[^a-b]將匹配除了a,b以外的字符。

使用元字符

  1. 對特殊字符轉義
    要匹配特殊字符,必須使用\進行轉義
    要轉義個字符:
$
()
*
+
.
[]
?
\
^
{}
|
'
"
  1. 匹配空白字符
    元字符大致分為兩種:一種是用來匹配文本的(比如.),另一種是正則表達式語法要求的(比如[])。匹配非打印空白字符的元字符如下:
\b  Backspace鍵,匹配一個單詞的頭尾
\f  換頁符
\n  換行符
\r  回車符
\t  制表符
\v  垂直制表符

Windows結束行:\r\n,Unix/Linux結束行:\n,匹配一個空白行可以用\r\n\r\n或者\n\n

  1. 匹配特定的字符類別(字符類)
\d  任何一個數字字符(等價于[0-9])
\D  任何一個非數字字符(等價于[^0-9])
\w  等價于[a-zA-Z0-9]
\W  等價于[^a-zA-Z0-9]
\s  任何一個空白字符(等價于[\f\n\r\t\v])
\S  任何一個非空白字符(等價于[^\f\n\r\t\v])

重復匹配

  1. 有多少個匹配
+: 匹配一個或者多個字符(字.符集合)。[0-9]+會匹配一個或多個數字。+是元字符,要匹配+必須轉義:\+。
一般來說,當在字符集合里使用像.、+這樣的元字符的時候,元字符會被解釋為普通字符,不需要被轉義,但轉義了也是可以的。
[\w.]的使用效果和[\w\.]是一樣的。
*: 匹配零個或者多個字符(字符集合)。*也是一個元字符,要匹配*本身必須使用\*
?: 匹配零個或者一個字符(字符集合)。\?匹配?本身。[\r]?\n匹配Windows或者Unix/Linux下的換行符。
  1. 匹配的重復次數
    在字符或者字符集合后面跟著元字符{和}可以設置要匹配的重復次數。如果要匹配{和}本身,必須使用轉義{和}。
[[:xdigit:]]{6}: 匹配336633和FFFFFF等
a{2,4}:匹配2-4個連續的a
a{2,}: 匹配至少連續兩個a
  1. 防止過度匹配
    貪婪模式與懶惰模式
*   *?
+   +?
{n, }   {n, }?

位置匹配

  1. 單詞邊界(boundary)
    邊界限定符
    \b用來匹配單詞的邊界,\b匹配這樣的一個位置,它位于一個\w和一個\W之間。
    \B用來這樣一個位置,它前后都是\w,或者前后都不是\w。
    \b匹配且只匹配一個位置,不匹配任何字符,即不消耗字符。用\bcat\b匹配到的字符串的長度是3,而不是5。
  2. 字符串邊界
    ^匹配字符串的開頭, $匹配字符串的結尾。注意^只有出現在一個字符集合里[]并且緊跟在[之后才能發揮取非的作用。
    分行匹配模式
    啟用分行匹配模式后,^不僅匹配正常的字符串開頭,還將匹配行分隔符(分行符)后面的開始位置(這個位置是不可見的);類似的, $不僅匹配正常的字符串結尾,還將匹配行分隔符(換行符)后面的結束位置。

使用子表達式

  1. 子表達式
    子表達式是一個更大的表達式的一部分,用()括起來,當做一個獨立元素來使用。()是元字符,要匹配()自身,必須使用轉義序列\(\)
    |是正則表達式里面的或操作符,(19|20)\d{2}匹配年份
    匹配IP地址。一個合法IP地址的各組數字必須且只能符合以下規則:
  • 任何一個1位或者2位數字(0-99)
  • 任何一個以1開頭的3位數字(100-199)
  • 任何一個以2開頭、第二位數字在0-4之間的3位數字(200-249)
  • 任何一個以25開頭、第3位數字在0-5之間的3位數字。(250-255)
    所以可以寫出匹配IP地址的正則表達式:
(((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))\.){3}((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))

回溯應用:前后一致匹配

回溯引用指的是模式的后半部分引用在前半部分中定義的子表達式?;厮菀弥荒苡脕硪媚J嚼锏淖颖磉_式(用()括起來的正則表達式片段)。回溯引用匹配通常從1開始計數(\1\2等),第0個匹配用來替代整個表達式。
比如[ ]+(\w+)[ ]+\1用來匹配連續兩個重復單詞。

前后查找(只匹配不消費)

  1. 向前查找(lookahead)
文本
http://www.forta.com/
https://mail.forta.com/
ftp://ftp.forta.com/
正則表達式
.+(?=:)

只匹配:,不消費它,提取協議。向前查找(和向后查找)匹配本身是有返回結果的,只是這個結果的字節長度永遠是0而已。因此,前后查找操作也被成為零寬度匹配操作(zero-width)。

  1. 向后查找(lookbehind)
    提取價格
文本
ABC01:  $23.45
HGG42:  $5.31
Total items found: 4
正則表達式
(?<=\$)[0-9.]+
  1. 前后查找取非
操作符      說明
(?=exp)           正向前查找,匹配exp前面的位置
(?!exp)            負向前查找,匹配后面跟的不是exp的位置
(?<=exp)        正向后查找,匹配exp后面的位置
(?<!exp)         負向后查找,匹配前面不是exp的位置
文本
I paid $30 for 100 apples, 50 oranges.
正則表達式
\b(?<!\$)[0-9.]+\b

嵌入條件

在正則表達式里可以嵌入條件,只有當條件得到(或者沒有得到滿足時),相應的表達式才會被執行。這種條件可以是一個回溯引用(含義是檢查回溯引用是否存在),也可以是一個前后檢查操作。

  1. 回溯引用條件
文本
<! -- Nav bar -->
<TD>
<A HREF="/home"><IMG SRC ="/imges/hom.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/search"><IMG SRC="/images/search.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/help"><IMG SRC="/images/help.gif"></A>
</TD>
正則表達式
(<[Aa]\s+[^>]+>\s*)?<[Ii][Mm][Gg]\s+[^>]+>(?(1)\s*</[Aa]>)

語法:(?(backreference)true-regex),注意?(1)檢查第一個回溯引用是否存在,回溯引用編號不用被轉義。
(?(backreference)true-regex|false-regex)

文本
123-456-7890
(123)456-7890
(123)-456-7890
1234567890
123 456 7890
正則表達式
(\()?\d{3}(?(1)\)|-)\d{3}-\d{4}
  1. 前后查找條件
文本
11111
22222
33333
44444-4444
正則表達式
\d{5}(?(?=-)-\d{4})
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,362評論 6 537
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,013評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,346評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,421評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,146評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,534評論 1 325
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,585評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,767評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,318評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,074評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,258評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,828評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,486評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,916評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,156評論 1 290
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,993評論 3 395
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,234評論 2 375

推薦閱讀更多精彩內容

  • 什么是正則表達式 正則表達式(regular expression)描述了一種字符串匹配的模式(pattern),...
    小貔閱讀 1,515評論 0 7
  • 正則表達式必知必會 匹配單個字符 匹配純文本 相當于文本查找的功能(CMD + F)。但是一般的正則表達式引擎默認...
    三十一_iOS閱讀 1,095評論 0 1
  • 正則表達式到底是什么東西?字符是計算機軟件處理文字時最基本的單位,可能是字母,數字,標點符號,空格,換行符,漢字等...
    獅子挽歌閱讀 2,161評論 0 9
  • 本文譯自 制作正則引擎的作者 Jan Goyvaerts 為工具 RegexBuddy 寫的教程版權歸原作者所有注...
    極客圈閱讀 3,307評論 0 25
  • 清風徐來來無影 靜水微波波無痕 曼妙清姿滋味老 綠楊稀處出村西 但使嬰寧還又在 留戀書生情可期 襄陽路遠瓜州客 蓬...
    陶纓子閱讀 531評論 4 13