正則貪婪模式vs非貪婪模式詳解

正則表達式貪婪與非貪婪模式

作為開始,我們看看下面的正則:

 var str = 'a "witch" and her "broom" is one';
 str.match( /".*"/g);

我們本來預想上面會匹配得到 witchbroom兩個字符串,運行上面的例子,卻發現結果只匹配到 "witch" and her "broom" 一個字符串。
之所以出現這個結局,是因為正則的貪婪模式在起作用。查找算法首先我們假設自己是正則引擎,來模擬搜索實現的過程。 正則引擎先從字符串的第0位開始搜索。 1. 第一個查找字符是 " ,正則引擎在第三個位置匹配到了它:


之后,引擎嘗試匹配正則的剩余部分,第二個字符是 . ,它代表任意字符。隱藏匹配到了 w:

. 代表任意字符重復一次到多次,因此正則引擎匹配到所有字符

當文本結束后,點的匹配停止了,但仍然有剩余的的正則需要匹配,即:"
因此,正則引擎開始倒過來回溯,換句話說,就是一個字符一個字符縮減匹配。

當匹配縮減后,它開始嘗試匹配剩余的正則,但 " 沒有匹配上字符 e

因此正則繼續縮減 . 所重復的字符,再繼續嘗試。


引號 " 沒用匹配上 n ,又失敗了~~, 繼續…正則引擎繼續回溯,一次一次縮減 . 重復的字符個數,直到剩余的正則都匹配上:

現在 " 終于匹配上了。 如果正則是global的,正則引擎會從上次匹配結果之后繼續查找更多結果。

再看一個例子:

 var str = 'a "witch" and her "broom" is one';
 str.match( /".*" a/g);  //輸出結果為:[""witch" a"]

在這個例子中,因為 * 的存在,使得正則表達式具有貪婪屬性,操作模式同上,先匹配第一個 " 找到了witch前的 ",第二步匹配 . ,因為可以代表除了行結束符和換行符號的所有符號,因此直接跳到文本結尾 e,接下來匹配 " ,找到 m 后面的 " ,接著匹配 " 后的空格,在匹配空格后的 a ,此時發現沒有,則失敗,重新尋找 ";最終匹配到 "witch" a
總結:在貪婪(默認)模式下,正則引擎盡可能多的重復匹配字符
非貪婪模式
非貪婪模式和貪婪模式相反,可通過在代表數量的標示符后放置 ? 來開啟非貪婪模式,如 ?+? 甚至是 ??

 var str = 'a "witch" and her "broom" is one';
 str.match(/".*?"/g ) // "witch", "broom"

我們來看看非貪婪模式 .? 是怎么運轉的。

  1. 第一步和上面類似,引號 " 被匹配上

    第二步一樣, . 被匹配上

下面是二者的重要區別。 正則引擎嘗試用最小可能的重復次數來進行匹配,因此在 . 匹配了 w 后,它立即嘗試 " 的匹配


可惜沒有匹配上,因為 t != ". 重復更多的字符,再進行嘗試。

又沒匹配上,繼續~~

下面終于匹配上了


因為正則是global的,所以正則引擎繼續后面的匹配,從引號后面的 a 字符開始。后面有匹配到第二個字符串

總結:在非貪婪模式下,正則引擎盡可能少的重復匹配字符

本文引用若愚老師博客,僅用于學習使用,特此聲明!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容