正則表達式貪婪與非貪婪模式
作為開始,我們看看下面的正則:
var str = 'a "witch" and her "broom" is one';
str.match( /".*"/g);
我們本來預想上面會匹配得到 witch
和 broom
兩個字符串,運行上面的例子,卻發現結果只匹配到 "witch" and her "broom"
一個字符串。
之所以出現這個結局,是因為正則的貪婪模式在起作用。查找算法首先我們假設自己是正則引擎,來模擬搜索實現的過程。 正則引擎先從字符串的第0位開始搜索。 1. 第一個查找字符是 "
,正則引擎在第三個位置匹配到了它:
之后,引擎嘗試匹配正則的剩余部分,第二個字符是
.
,它代表任意字符。隱藏匹配到了 w
:.
代表任意字符重復一次到多次,因此正則引擎匹配到所有字符
當文本結束后,點的匹配停止了,但仍然有剩余的的正則需要匹配,即:"
因此,正則引擎開始倒過來回溯,換句話說,就是一個字符一個字符縮減匹配。
"
沒有匹配上字符 e
。
因此正則繼續縮減 .
所重復的字符,再繼續嘗試。
引號
"
沒用匹配上 n
,又失敗了~~, 繼續…正則引擎繼續回溯,一次一次縮減 .
重復的字符個數,直到剩余的正則都匹配上:現在 "
終于匹配上了。 如果正則是global的,正則引擎會從上次匹配結果之后繼續查找更多結果。
再看一個例子:
var str = 'a "witch" and her "broom" is one';
str.match( /".*" a/g); //輸出結果為:[""witch" a"]
在這個例子中,因為 *
的存在,使得正則表達式具有貪婪屬性,操作模式同上,先匹配第一個 "
找到了witch前的 "
,第二步匹配 .
,因為可以代表除了行結束符和換行符號的所有符號,因此直接跳到文本結尾 e
,接下來匹配 "
,找到 m
后面的 "
,接著匹配 "
后的空格,在匹配空格后的 a
,此時發現沒有,則失敗,重新尋找 "
;最終匹配到 "witch" a
。
總結:在貪婪(默認)模式下,正則引擎盡可能多的重復匹配字符
非貪婪模式
非貪婪模式和貪婪模式相反,可通過在代表數量的標示符后放置 ?
來開啟非貪婪模式,如 ?
、+?
甚至是 ??
。
var str = 'a "witch" and her "broom" is one';
str.match(/".*?"/g ) // "witch", "broom"
我們來看看非貪婪模式 .?
是怎么運轉的。
- 第一步和上面類似,引號
"
被匹配上
第二步一樣,.
被匹配上
下面是二者的重要區別。 正則引擎嘗試用最小可能的重復次數來進行匹配,因此在 .
匹配了 w
后,它立即嘗試 "
的匹配
可惜沒有匹配上,因為
t
!= "
。.
重復更多的字符,再進行嘗試。又沒匹配上,繼續~~
下面終于匹配上了
因為正則是global的,所以正則引擎繼續后面的匹配,從引號后面的 a
字符開始。后面有匹配到第二個字符串
總結:在非貪婪模式下,正則引擎盡可能少的重復匹配字符
(本文引用若愚老師博客,僅用于學習使用,特此聲明!)