1.正則表達(dá)式概念
1.1什么是正則表達(dá)式
正則表達(dá)式是對(duì)字符串操作的一種邏輯公式。
正則表達(dá)式是一種文本模式,模式描述在搜索文本時(shí)要匹配的一個(gè)或多個(gè)字符串。
正則表達(dá)式由普通字符和元字符(metacharacters)組成。
1.2元字符
"^":^會(huì)匹配行或者字符串的起始位置,有時(shí)還會(huì)匹配整個(gè)文檔的起始位置。
" \$ ":\$ 會(huì)匹配行或字符串的結(jié)尾。
"\b":不會(huì)消耗任何字符只匹配一個(gè)位置,常用于匹配單詞邊界。
如 我想從字符串中"This is RE"單獨(dú)匹配的單詞 "is" 正則就要寫(xiě)成 "\bis\b";不會(huì)匹配is 兩邊的字符,但它會(huì)識(shí)別is 兩邊是否為單詞的邊界。
"\d": 匹配數(shù)字。
如 要匹配一個(gè)固定格式的電話號(hào)碼以0開(kāi)頭前4位后7位,如 020-1234567 正則:^0\d\d\d-\d\d\d\d\d\d\d$
"\w":匹配字母,數(shù)字,下劃線。
如 我要匹配"a2345BCD__TTz" 正則:"\w+" 這里的"+"字符為一個(gè)量詞指重復(fù)的次數(shù),稍后會(huì)詳細(xì)介紹。
"\s":匹配空格。
如 字符 "a b c" 正則:"\w\s\w\s\w" 一個(gè)字符后跟一個(gè)空格,如有字符間有多個(gè)空格直接把"\s" 寫(xiě)成 "\s+" 讓空格重復(fù)。
".":匹配除了換行符以外的任何字符。
"[abc]": 字符組,匹配包含括號(hào)內(nèi)元素的字符。
如 [abc]只匹配括號(hào)內(nèi)存在的字符,還可以寫(xiě)成[a-z]匹配a至z的所有字母。
1.3反義
大寫(xiě)和^
"\W":匹配任意不是字母,數(shù)字,下劃線 的字符。
"\S":匹配任意不是空白符的字符。
"\D":匹配任意非數(shù)字的字符。
"\B":匹配不是單詞開(kāi)頭或結(jié)束的位置。
"[^abc]":匹配除了abc以外的任意字符。
1.4限定符
在一定范圍,限定匹配多少次。
"*":匹配0~多次。如 "aaaabbbb" 正則 "a*" 得 "aaa"
"+":匹配1~多次。如 "aaaabbbb" 正則 "a+" 得 "aaa"
"?":匹配0~1次。如 "aaaabbbb" 正則 "a?" 得 "a"
"{n}":匹配n次。如 "aaaabbbb" 正則 "a{3}" 得 "aaa"
"{n,m}":匹配n到m次。如 正則 "a{2,3}" 得 "aa"或者"aaa"取決于所給參數(shù)(值含a≥2)
"{n,}":匹配n到多次。如 正則 "a{2,}" 得出的值a至少出現(xiàn)2次(值含a≥2)
1.5分組 捕獲
分組:起別名 存 正則。
捕獲:使用存起來(lái)的正則。
"(RE)":匹配正則,并默認(rèn)存分組。
"(?<name>RE)":匹配正則,并別名存分組。
"(?:RE)":匹配正則,不分組,不獲取。
"(?=RE)":匹配正則前面的位置。也叫零寬度正預(yù)測(cè)先行斷言。
"(?<=RE)":匹配正則后面的位置。也叫零寬度正回顧后發(fā)斷言。
"(?!RE)":匹配后面跟的不是正則的位置。
"(?<!RE)":匹配前面不是正則的位置。
1.6零寬斷言
用于查找在某些內(nèi)容(但并不包括這些內(nèi)容)之前或之后的東西,也就是說(shuō)它們像\b,^,$那樣用于指定一個(gè)位置,這個(gè)位置應(yīng)該滿足一定的條件(即斷言),因此它們也被稱為零寬斷言。最好還是拿例子來(lái)說(shuō)明吧: 斷言用來(lái)聲明一個(gè)應(yīng)該為真的事實(shí)。正則表達(dá)式中只有當(dāng)斷言為真時(shí)才會(huì)繼續(xù)進(jìn)行匹配。
2.正則表達(dá)式常用公式
2.1校驗(yàn)密碼強(qiáng)度
密碼的強(qiáng)度必須是包含大小寫(xiě)字母和數(shù)字的組合,不能使用特殊字符,長(zhǎng)度在8-10之間。
^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
2.2校驗(yàn)中文
字符串僅能是中文。
^[\\u4e00-\\u9fa5]{0,}$
2.3由數(shù)字、26個(gè)英文字母或下劃線組成的字符串
^\\w+$
2.4校驗(yàn)E-Mail 地址
同密碼一樣,下面是E-mail地址合規(guī)性的正則檢查語(yǔ)句。
[\\w!#$%&'*+/=?^_`{|}~-]+(?:\\.[\\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\\w](?:[\\w-]*[\\w])?\\.)+[\\w](?:[\\w-]*[\\w])?
2.5校驗(yàn)身份證號(hào)碼
15位。
^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$
18位
^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$
2.6校驗(yàn)日期
“yyyy-mm-dd“ 格式的日期校驗(yàn),已考慮平閏年。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
2.7校驗(yàn)金額
金額校驗(yàn),精確到2位小數(shù)。
^[0-9]+(.[0-9]{2})?$
2.8校驗(yàn)手機(jī)號(hào)
下面是國(guó)內(nèi) 13、15、18開(kāi)頭的手機(jī)號(hào)正則表達(dá)式。(可根據(jù)目前國(guó)內(nèi)收集號(hào)擴(kuò)展前兩位開(kāi)頭號(hào)碼)
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$
2.9判斷IE的版本
IE目前還沒(méi)被完全取代,很多頁(yè)面還是需要做版本兼容,下面是IE版本檢查的表達(dá)式。
^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$
2.10校驗(yàn)IP-v4地址
IP4 正則語(yǔ)句。
\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b
2.11校驗(yàn)IP-v6地址
(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
2.12檢查URL的前綴
應(yīng)用開(kāi)發(fā)中很多時(shí)候需要區(qū)分請(qǐng)求是HTTPS還是HTTP,通過(guò)下面的表達(dá)式可以取出一個(gè)url的前綴然后再邏輯判斷。
if (!s.match(/^[a-zA-Z]+:\\/\\//))
{
s = 'http://' + s;
}
2.13提取URL鏈接
下面的這個(gè)表達(dá)式可以篩選出一段文本中的URL。
^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?
2.14文件路徑及擴(kuò)展名校驗(yàn)
驗(yàn)證windows下文件路徑和擴(kuò)展名(下面的例子中為.txt文件)
^([a-zA-Z]\\:|\\\\)\\\\([^\\\\]+\\\\)*[^\\/:*?"<>|]+\\.txt(l)?$
2.15提取Color Hex Codes
有時(shí)需要抽取網(wǎng)頁(yè)中的顏色代碼,可以使用下面的表達(dá)式。
^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$
2.16提取網(wǎng)頁(yè)圖片
假若你想提取網(wǎng)頁(yè)中所有圖片信息,可以利用下面的表達(dá)式。
\\< *[img][^\\\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)
2.17提取頁(yè)面超鏈接
提取html中的超鏈接。
(<a\\s*(?!.*\\brel=)[^>]*)(href="https?:\\/\\/)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>
2.18 查找CSS屬性
通過(guò)下面的表達(dá)式,可以搜索到相匹配的CSS屬性。
^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
2.19抽取注釋
如果你需要移除HMTL中的注釋,可以使用如下的表達(dá)式。
<!--(.*?)-->
2.20匹配HTML標(biāo)簽
通過(guò)下面的表達(dá)式可以匹配出HTML中的標(biāo)簽屬性。
<\\/?\\w+((\\s+\\w+(\\s*=\\s*(?:".*?"|'.*?'|[\\^'">\\s]+))?)+\\s*|\\s*)\\/?>