正則表達(dá)式

1.正則表達(dá)式概念

1.1什么是正則表達(dá)式

正則表達(dá)式是對(duì)字符串操作的一種邏輯公式。
正則表達(dá)式是一種文本模式,模式描述在搜索文本時(shí)要匹配的一個(gè)或多個(gè)字符串。
正則表達(dá)式由普通字符和元字符(metacharacters)組成。

1.2元字符

"^":^會(huì)匹配行或者字符串的起始位置,有時(shí)還會(huì)匹配整個(gè)文檔的起始位置。
" \$ ":\$ 會(huì)匹配行或字符串的結(jié)尾。
"\b":不會(huì)消耗任何字符只匹配一個(gè)位置,常用于匹配單詞邊界。
如 我想從字符串中"This is RE"單獨(dú)匹配的單詞 "is" 正則就要寫(xiě)成 "\bis\b";不會(huì)匹配is 兩邊的字符,但它會(huì)識(shí)別is 兩邊是否為單詞的邊界。
"\d": 匹配數(shù)字。
如 要匹配一個(gè)固定格式的電話號(hào)碼以0開(kāi)頭前4位后7位,如 020-1234567 正則:^0\d\d\d-\d\d\d\d\d\d\d$
"\w":匹配字母,數(shù)字,下劃線。
如 我要匹配"a2345BCD__TTz" 正則:"\w+" 這里的"+"字符為一個(gè)量詞指重復(fù)的次數(shù),稍后會(huì)詳細(xì)介紹。
"\s":匹配空格。
如 字符 "a b c" 正則:"\w\s\w\s\w" 一個(gè)字符后跟一個(gè)空格,如有字符間有多個(gè)空格直接把"\s" 寫(xiě)成 "\s+" 讓空格重復(fù)。
".":匹配除了換行符以外的任何字符。
"[abc]": 字符組,匹配包含括號(hào)內(nèi)元素的字符。
如 [abc]只匹配括號(hào)內(nèi)存在的字符,還可以寫(xiě)成[a-z]匹配a至z的所有字母。

1.3反義

大寫(xiě)^
"\W":匹配任意不是字母,數(shù)字,下劃線 的字符。
"\S":匹配任意不是空白符的字符。
"\D":匹配任意非數(shù)字的字符。
"\B":匹配不是單詞開(kāi)頭或結(jié)束的位置。
"[^abc]":匹配除了abc以外的任意字符。

1.4限定符

在一定范圍,限定匹配多少次。
"*":匹配0~多次。如 "aaaabbbb" 正則 "a*" 得 "aaa"
"+":匹配1~多次。如 "aaaabbbb" 正則 "a+" 得 "aaa"
"?":匹配0~1次。如 "aaaabbbb" 正則 "a?" 得 "a"
"{n}":匹配n次。如 "aaaabbbb" 正則 "a{3}" 得 "aaa"
"{n,m}":匹配n到m次。如 正則 "a{2,3}" 得 "aa"或者"aaa"取決于所給參數(shù)(值含a≥2)
"{n,}":匹配n到多次。如 正則 "a{2,}" 得出的值a至少出現(xiàn)2次(值含a≥2)

1.5分組 捕獲

分組:起別名 存 正則。
捕獲:使用存起來(lái)的正則。
"(RE)":匹配正則,并默認(rèn)存分組。
"(?<name>RE)":匹配正則,并別名存分組。
"(?:RE)":匹配正則,不分組,不獲取。
"(?=RE)":匹配正則前面的位置。也叫零寬度正預(yù)測(cè)先行斷言。
"(?<=RE)":匹配正則后面的位置。也叫零寬度正回顧后發(fā)斷言。
"(?!RE)":匹配后面跟的不是正則的位置。
"(?<!RE)":匹配前面不是正則的位置。

1.6零寬斷言

用于查找在某些內(nèi)容(但并不包括這些內(nèi)容)之前或之后的東西,也就是說(shuō)它們像\b,^,$那樣用于指定一個(gè)位置,這個(gè)位置應(yīng)該滿足一定的條件(即斷言),因此它們也被稱為零寬斷言。最好還是拿例子來(lái)說(shuō)明吧: 斷言用來(lái)聲明一個(gè)應(yīng)該為真的事實(shí)。正則表達(dá)式中只有當(dāng)斷言為真時(shí)才會(huì)繼續(xù)進(jìn)行匹配。

2.正則表達(dá)式常用公式

2.1校驗(yàn)密碼強(qiáng)度

密碼的強(qiáng)度必須是包含大小寫(xiě)字母和數(shù)字的組合,不能使用特殊字符,長(zhǎng)度在8-10之間。

^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

2.2校驗(yàn)中文

字符串僅能是中文。

^[\\u4e00-\\u9fa5]{0,}$

2.3由數(shù)字、26個(gè)英文字母或下劃線組成的字符串

^\\w+$

2.4校驗(yàn)E-Mail 地址

同密碼一樣,下面是E-mail地址合規(guī)性的正則檢查語(yǔ)句。

[\\w!#$%&'*+/=?^_`{|}~-]+(?:\\.[\\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\\w](?:[\\w-]*[\\w])?\\.)+[\\w](?:[\\w-]*[\\w])?

2.5校驗(yàn)身份證號(hào)碼

15位。

^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$

18位

^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$

2.6校驗(yàn)日期

“yyyy-mm-dd“ 格式的日期校驗(yàn),已考慮平閏年。

^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$

2.7校驗(yàn)金額

金額校驗(yàn),精確到2位小數(shù)。

^[0-9]+(.[0-9]{2})?$

2.8校驗(yàn)手機(jī)號(hào)

下面是國(guó)內(nèi) 13、15、18開(kāi)頭的手機(jī)號(hào)正則表達(dá)式。(可根據(jù)目前國(guó)內(nèi)收集號(hào)擴(kuò)展前兩位開(kāi)頭號(hào)碼)

^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$

2.9判斷IE的版本

IE目前還沒(méi)被完全取代,很多頁(yè)面還是需要做版本兼容,下面是IE版本檢查的表達(dá)式。

^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$

2.10校驗(yàn)IP-v4地址

IP4 正則語(yǔ)句。

\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b

2.11校驗(yàn)IP-v6地址

(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))

2.12檢查URL的前綴

應(yīng)用開(kāi)發(fā)中很多時(shí)候需要區(qū)分請(qǐng)求是HTTPS還是HTTP,通過(guò)下面的表達(dá)式可以取出一個(gè)url的前綴然后再邏輯判斷。

if (!s.match(/^[a-zA-Z]+:\\/\\//))
{
    s = 'http://' + s;
}

2.13提取URL鏈接

下面的這個(gè)表達(dá)式可以篩選出一段文本中的URL。

^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?

2.14文件路徑及擴(kuò)展名校驗(yàn)

驗(yàn)證windows下文件路徑和擴(kuò)展名(下面的例子中為.txt文件)

^([a-zA-Z]\\:|\\\\)\\\\([^\\\\]+\\\\)*[^\\/:*?"<>|]+\\.txt(l)?$

2.15提取Color Hex Codes

有時(shí)需要抽取網(wǎng)頁(yè)中的顏色代碼,可以使用下面的表達(dá)式。

^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$

2.16提取網(wǎng)頁(yè)圖片

假若你想提取網(wǎng)頁(yè)中所有圖片信息,可以利用下面的表達(dá)式。

\\< *[img][^\\\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)

2.17提取頁(yè)面超鏈接

提取html中的超鏈接。

(<a\\s*(?!.*\\brel=)[^>]*)(href="https?:\\/\\/)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>

2.18 查找CSS屬性

通過(guò)下面的表達(dá)式,可以搜索到相匹配的CSS屬性。

^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}

2.19抽取注釋

如果你需要移除HMTL中的注釋,可以使用如下的表達(dá)式。

<!--(.*?)-->

2.20匹配HTML標(biāo)簽

通過(guò)下面的表達(dá)式可以匹配出HTML中的標(biāo)簽屬性。

<\\/?\\w+((\\s+\\w+(\\s*=\\s*(?:".*?"|'.*?'|[\\^'">\\s]+))?)+\\s*|\\s*)\\/?>
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 正則表達(dá)式到底是什么東西?字符是計(jì)算機(jī)軟件處理文字時(shí)最基本的單位,可能是字母,數(shù)字,標(biāo)點(diǎn)符號(hào),空格,換行符,漢字等...
    獅子挽歌閱讀 2,174評(píng)論 0 9
  • re模塊手冊(cè) 本模塊提供了和Perl里的正則表達(dá)式類似的功能,不關(guān)是正則表達(dá)式本身還是被搜索的字符串,都可以...
    喜歡吃栗子閱讀 4,048評(píng)論 0 13
  • 正則表達(dá)式 \n\n\n 【5】正則表達(dá)式應(yīng)用——?jiǎng)h除空行 啟動(dòng)EditPlus,打開(kāi)待處理的文本類型文件。 ①、...
    黃花菜已涼閱讀 1,070評(píng)論 0 4
  • 注:本篇文章只為方便查看,特此保留,如有冒犯,敬請(qǐng)諒解!!! 本文目標(biāo) 30分鐘內(nèi)讓你明白正則表達(dá)式是什么,并對(duì)它...
    阿杰Alex閱讀 1,506評(píng)論 0 10
  • 推薦幾個(gè)正則表達(dá)式編輯器 Debuggex :https://www.debuggex.com/ PyRegex:...
    木易林1閱讀 11,540評(píng)論 9 151