正則表達式（正則表達式必知必會）

什么是正則表達式

簡單來說，正則表達式是一些用來匹配和處理文本的字符串。它主要有兩種使用場景：一種是查找特定的信息（搜索），另一種是查找并編輯特定的信息（替換）。
參考正則表達式30分鐘入門：(https://deerchao.cn/tutorials/regex/regex.htm)

匹配單個字符

匹配特定純文本
普通字符可作為正則表達式，匹配該字符本身。
匹配任意字符
正則表達式中，.可以匹配任何一個單個的字符，除了換行符外，類似于DOS中的?字符和SQL中的_（下劃線）字符。
匹配特殊字符
正則表達式中，\是一個元字符（metacharacter），表示這個字符有特殊含義，而不是字符本身的含義。\后面跟著一個特殊字符，可對該特殊字符轉義。要匹配一個特殊字符時，應該由\跟著特殊字符去匹配。比如\.表示匹配一個.。

匹配一組字符

元字符[和]用來定義一個字符集合，其含義是必須匹配該集合中的一個字符。定義一個字符集合具體做法有兩種：一是把所有的字符都列舉出來，該做法通常用于要列舉的字符較少時，例如[abc]；二是利用元字符-以字符區間的方式給出，例如[0-9]將匹配0-9中的任意一個。注意在定義一個字符區間的時候，一定要避免讓這個區間的尾字符小于它的首字符，如[3-1]，這種區間是無意義的，而且往往會讓整個模式失效。-（連字符）是一個特殊的元字符，作為元字符它只能用在[和]之間。在字符集合外，-只是一個普通字符，只能匹配-自身，因此-字符不需要轉義。
此外，字符集合可以用元字符^來求非：這將把給定集合里的字符強行排除在匹配操作之外。例如[^a-b]將匹配除了a，b以外的字符。

使用元字符

對特殊字符轉義
要匹配特殊字符，必須使用\進行轉義
要轉義個字符：

$
()
*
+
.
[]
?
\
^
{}
|
'
"

匹配空白字符
元字符大致分為兩種：一種是用來匹配文本的（比如.），另一種是正則表達式語法要求的（比如[和]）。匹配非打印空白字符的元字符如下：

\b  Backspace鍵，匹配一個單詞的頭尾
\f  換頁符
\n  換行符
\r  回車符
\t  制表符
\v  垂直制表符

Windows結束行：\r\n，Unix/Linux結束行：\n，匹配一個空白行可以用\r\n\r\n或者\n\n。

匹配特定的字符類別（字符類）

\d  任何一個數字字符（等價于[0-9]）
\D  任何一個非數字字符（等價于[^0-9]）
\w  等價于[a-zA-Z0-9]
\W  等價于[^a-zA-Z0-9]
\s  任何一個空白字符（等價于[\f\n\r\t\v]）
\S  任何一個非空白字符（等價于[^\f\n\r\t\v]）

重復匹配

有多少個匹配

+: 匹配一個或者多個字符（字.符集合）。[0-9]+會匹配一個或多個數字。+是元字符，要匹配+必須轉義：\+。
一般來說，當在字符集合里使用像.、+這樣的元字符的時候，元字符會被解釋為普通字符，不需要被轉義，但轉義了也是可以的。
[\w.]的使用效果和[\w\.]是一樣的。
*: 匹配零個或者多個字符（字符集合）。*也是一個元字符，要匹配*本身必須使用\*
?: 匹配零個或者一個字符（字符集合）。\?匹配?本身。[\r]?\n匹配Windows或者Unix/Linux下的換行符。

匹配的重復次數
在字符或者字符集合后面跟著元字符{和}可以設置要匹配的重復次數。如果要匹配{和}本身，必須使用轉義{和}。

[[:xdigit:]]{6}: 匹配336633和FFFFFF等
a{2,4}：匹配2-4個連續的a
a{2,}: 匹配至少連續兩個a

防止過度匹配
貪婪模式與懶惰模式

*   *?
+   +?
{n, }   {n, }?

位置匹配

單詞邊界（boundary）
邊界限定符
\b用來匹配單詞的邊界，\b匹配這樣的一個位置，它位于一個\w和一個\W之間。
\B用來這樣一個位置，它前后都是\w，或者前后都不是\w。
\b匹配且只匹配一個位置，不匹配任何字符，即不消耗字符。用\bcat\b匹配到的字符串的長度是3，而不是5。
字符串邊界
^匹配字符串的開頭， $匹配字符串的結尾。注意^只有出現在一個字符集合里[]并且緊跟在[之后才能發揮取非的作用。
分行匹配模式
啟用分行匹配模式后，^不僅匹配正常的字符串開頭，還將匹配行分隔符（分行符）后面的開始位置（這個位置是不可見的）；類似的， $不僅匹配正常的字符串結尾，還將匹配行分隔符（換行符）后面的結束位置。

使用子表達式

子表達式
子表達式是一個更大的表達式的一部分，用(和)括起來，當做一個獨立元素來使用。(和)是元字符，要匹配(和)自身，必須使用轉義序列$和$。
|是正則表達式里面的或操作符，(19|20)\d{2}匹配年份
匹配IP地址。一個合法IP地址的各組數字必須且只能符合以下規則：

任何一個1位或者2位數字（0-99）
任何一個以1開頭的3位數字（100-199）
任何一個以2開頭、第二位數字在0-4之間的3位數字（200-249）
任何一個以25開頭、第3位數字在0-5之間的3位數字。（250-255）
所以可以寫出匹配IP地址的正則表達式：

(((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))\.){3}((\d{1,2})|(1\d{2})|(2[0-4]\d)|(25[0-5]))

回溯應用：前后一致匹配

回溯引用指的是模式的后半部分引用在前半部分中定義的子表達式?；厮菀弥荒苡脕硪媚Ｊ嚼锏淖颖磉_式（用(和)括起來的正則表達式片段）。回溯引用匹配通常從1開始計數（\1、\2等），第0個匹配用來替代整個表達式。
比如[ ]+(\w+)[ ]+\1用來匹配連續兩個重復單詞。

前后查找（只匹配不消費）

向前查找（lookahead）

文本
http://www.forta.com/
https://mail.forta.com/
ftp://ftp.forta.com/
正則表達式
.+(?=:)

只匹配:，不消費它，提取協議。向前查找（和向后查找）匹配本身是有返回結果的，只是這個結果的字節長度永遠是0而已。因此，前后查找操作也被成為零寬度匹配操作（zero-width）。

向后查找（lookbehind）
提取價格

文本
ABC01:  $23.45
HGG42:  $5.31
Total items found: 4
正則表達式
(?<=\$)[0-9.]+

前后查找取非

操作符      說明
(?=exp)           正向前查找，匹配exp前面的位置
(?!exp)            負向前查找，匹配后面跟的不是exp的位置
(?<=exp)        正向后查找，匹配exp后面的位置
(?<!exp)         負向后查找，匹配前面不是exp的位置

文本
I paid $30 for 100 apples, 50 oranges.
正則表達式
\b(?<!\$)[0-9.]+\b

嵌入條件

在正則表達式里可以嵌入條件，只有當條件得到（或者沒有得到滿足時），相應的表達式才會被執行。這種條件可以是一個回溯引用（含義是檢查回溯引用是否存在），也可以是一個前后檢查操作。

回溯引用條件

文本
<! -- Nav bar -->
<TD>
<A HREF="/home"><IMG SRC ="/imges/hom.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/search"><IMG SRC="/images/search.gif"></A>
<IMG SRC="/images/spacer.gif">
<A HREF="/help"><IMG SRC="/images/help.gif"></A>
</TD>
正則表達式
(<[Aa]\s+[^>]+>\s*)?<[Ii][Mm][Gg]\s+[^>]+>(?(1)\s*</[Aa]>)

語法：(?(backreference)true-regex)，注意?(1)檢查第一個回溯引用是否存在，回溯引用編號不用被轉義。
(?(backreference)true-regex|false-regex)

文本
123-456-7890
(123)456-7890
(123)-456-7890
1234567890
123 456 7890
正則表達式
(\()?\d{3}(?(1)\)|-)\d{3}-\d{4}

前后查找條件

文本
11111
22222
33333
44444-4444
正則表達式
\d{5}(?(?=-)-\d{4})

最后編輯于：2019.10.06 21:43:57

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,362評論 6贊 537
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,013評論 3贊 423
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,346評論 0贊 382
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,421評論 1贊 316
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,146評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,534評論 1贊 325
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,585評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,767評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,318評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,074評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,258評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,828評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,486評論 3贊 347
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,916評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,156評論 1贊 290
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 51,993評論 3贊 395
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,234評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

正則表達式（正則表達式必知必會）

正則表達式（正則表達式必知必會）

什么是正則表達式

匹配單個字符

匹配一組字符

使用元字符

重復匹配

位置匹配

使用子表達式

回溯應用：前后一致匹配

前后查找（只匹配不消費）

嵌入條件

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

正則表達式（正則表達式必知必會）

什么是正則表達式

匹配單個字符

匹配一組字符

使用元字符

重復匹配

位置匹配

使用子表達式

回溯應用：前后一致匹配

前后查找（只匹配不消費）

嵌入條件

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频