歡迎關注微信公眾號:全棧工廠
一 正則字符簡單介紹
1.1 元字符介紹
"^" :^會匹配行或者字符串的起始位置,有時還會匹配整個文檔的起始位置。
**"會匹配行或字符串的結尾
"\b" :不會消耗任何字符只匹配一個位置,常用于匹配單詞邊界 如 我想從字符串中"This is Regex"匹配單獨的單詞 "is" 正則就要寫成 "\bis\b"
\b 不會匹配is 兩邊的字符,但它會識別is 兩邊是否為單詞的邊界
"\d": 匹配數字,
例如要匹配一個固定格式的電話號碼以0開頭前4位后7位,如0737-5686123 正則:^0\d\d\d-\d\d\d\d\d\d\d$ 這里只是為了介紹"\d"字符,實際上有更好的寫法會在 下面介紹。
"\w":匹配字母,數字,下劃線.
例如我要匹配"a2345BCD__TTz" 正則:"\w+" 這里的"+"字符為一個量詞指重復的次數,稍后會詳細介紹。
"\s":匹配空格
例如字符 "a b c" 正則:"\w\s\w\s\w" 一個字符后跟一個空格,如有字符間有多個空格直接把"\s" 寫成 "\s+" 讓空格重復
".":匹配除了換行符以外的任何字符
這個算是"\w"的加強版了"\w"不能匹配 空格 如果把字符串加上空格用"\w"就受限了,看下用 "."是如何匹配字符"a23 4 5 B C D__TTz" 正則:".+"
"[abc]": 字符組 匹配包含括號內元素的字符
這個比較簡單了只匹配括號內存在的字符,還可以寫成[a-z]匹配a至z的所以字母就等于可以用來控制只能輸入英文了,
1.2 幾種反義
寫法很簡單改成大寫就行了,意思與原來的相反,這里就不舉例子了
"\W" 匹配任意不是字母,數字,下劃線 的字符
"\S" 匹配任意不是空白符的字符
"\D" 匹配任意非數字的字符
"\B" 匹配不是單詞開頭或結束的位置
"[^abc]" 匹配除了abc以外的任意字符
1.3 量詞
先解釋關于量詞所涉及到的重要的三個概念
貪婪(貪心) 如"*"字符 貪婪量詞會首先匹配整個字符串,嘗試匹配時,它會選定盡可能多的內容,如果失敗則回退一個字符,然后再次嘗試回退的過程就叫做回溯,它會每次回退一個字符,直到找到匹配的內容或者沒有字符可以回退。相比下面兩種貪婪量詞對資源的消耗是最大的,
懶惰(勉強) 如 "?" 懶惰量詞使用另一種方式匹配,它從目標的起始位置開始嘗試匹配,每次檢查一個字符,并尋找它要匹配的內容,如此循環直到字符結尾處。
占有 如"+" 占有量詞會覆蓋事個目標字符串,然后嘗試尋找匹配內容 ,但它只嘗試一次,不會回溯,就好比先抓一把石頭,然后從石頭中挑出黃金
""(貪婪)* 重復零次或更多
例如"aaaaaaaa" 匹配字符串中所有的a 正則: "a*" 會出到所有的字符"a"
"+"(懶惰) 重復一次或更多次
例如"aaaaaaaa" 匹配字符串中所有的a 正則: "a+" 會取到字符中所有的a字符, "a+"與"a"不同在于"+"至少是一次而"" 可以是0次,
稍后會與"?"字符結合來體現這種區別
"?"(占有) 重復零次或一次
例如"aaaaaaaa" 匹配字符串中的a 正則 : "a?" 只會匹配一次,也就是結果只是單個字符a
"{n}" 重復n次
例如從"aaaaaaaa" 匹配字符串的a 并重復3次 正則: "a{3}" 結果就是取到3個a字符 "aaa";
"{n,m}" 重復n到m次
例如正則 "a{3,4}" 將a重復匹配3次或者4次 所以供匹配的字符可以是三個"aaa"也可以是四個"aaaa" 正則都可以匹配到
"{n,}" 重復n次或更多次
與{n,m}不同之處就在于匹配的次數將沒有上限,但至少要重復n次 如 正則"a{3,}" a至少要重復3次
把量詞了解了之后之前匹配電話號碼的正則現在就可以改得簡單點了^0\d\d\d-\d\d\d\d\d\d\d可以改為"0\d+?\d7" role="presentation" style="margin: 0px; padding: 0px; display: inline; font-style: normal; font-weight: normal; line-height: normal; font-size: 13px; text-indent: 0px; text-align: left; text-transform: none; letter-spacing: normal; word-spacing: normal; word-wrap: normal; white-space: nowrap; float: none; direction: ltr; max-width: none; max-height: none; min-width: 0px; min-height: 0px; border: 0px; position: relative;">可以改為"0\d+?\d7可以改為"0\d+?\d7"。
這樣寫還不夠完美如果因為前面的區號沒有做限定,以至于可以輸入很多們,而通常只能是3位或者4位,
現在再改一下 "^0\d{2,3}-\d{7}"如此一來區號部分就可以匹配3位或者4位的了
1.4 懶惰限定符
"?"* 重復任意次,但盡可能少重復
如 "acbacb" 正則 "a.*?b" 只會取到第一個"acb" 原本可以全部取到但加了限定符后,只會匹配盡可能少的字符 ,而"acbacb"最少字符的結果就是"acb"
"+?" 重復1次或更多次,但盡可能少重復
與上面一樣,只是至少要重復1次
"??" 重復0次或1次,但盡可能少重復
如 "aaacb" 正則 "a.??b" 只會取到最后的三個字符"acb"
"{n,m}?" 重復n到m次,但盡可能少重復
如"aaaaaaaa" 正則 "a{0,m}" 因為最少是0次所以取到結果為空
"{n,}?" 重復n次以上,但盡可能少重復
如 "aaaaaaa" 正則 "a{1,}" 最少是1次所以取到結果為 "a"
二 正則進階
2.1 捕獲分組
先了解在正則中捕獲分組的概念,其實就是一個括號內的內容 如 "(\d)\d" 而"(\d)" 這就是一個捕獲分組,可以對捕獲分組進行 后向引用 (如果后而有相同的內容則可以直接引用前面定義的捕獲組,以簡化表達式) 如(\d)\d\1 這里的"\1"就是對"(\d)"的后向引用,那捕獲分組有什么用呢看個例子就知道了
如 "zery zery" 正則 \b(\w+)\b\s\1\b 所以這里的"\1"所捕獲到的字符也是 與(\w+)一樣的"zery",為了讓組名更有意義,組名是可以自定義名字的"\b(?<name>\w+)\b\s\k<name>\b" 用"?<name>"就可以自定義組名了而要后向引用組時要記得寫成 "\k<name>";自定義組名后,捕獲組中匹配到的值就會保存在定義的組名里
下面列出捕獲分組常有的用法
"(exp)" 匹配exp,并捕獲文本到自動命名的組里
"(?<name>exp)" 匹配exp,并捕獲文本到名稱為name的組里
"(?:exp)" 匹配exp,不捕獲匹配的文本,也不給此分組分配組號
以下為零寬斷言
"(?=exp)" 匹配exp前面的位置
如 "How are you doing" 正則"(?<txt>.+(?=ing))" 這里取ing前所有的字符,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為"How are you do";
"(?<=exp)" 匹配exp后面的位置
如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這里取"How"之后所有的字符,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為" are you doing";
"(?!exp)" 匹配后面跟的不是exp的位置
如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數字后非數字的結果
"(?<!exp)" 匹配前面不是exp的位置
如 "abc123 " 正則 "(?<![0-9])123" 匹配"123"前面是非數字的結果也可寫成"(?!<\d)123"
三 常用正則表達式
3.1 校驗數字的表達式
1 數字:^[0-9]
3 至少n位的數字:^\d{n,}
5 零和非零開頭的數字:^(0|[1-9][0-9])
7 帶1-2位小數的正數或負數:^(-)?\d+(.\d{1,2})?
9 有兩位小數的正實數:^[0-9]+(.[0-9]{2})?
11 非零的正整數:^[1-9]\d 或 ^+?[1-9][0-9]
或 ^-[1-9]\d
或 ^[1-9]\d|0
或 ^((-\d+)|(0+))
或 ^[1-9]\d.\d|0.\d[1-9]\d|0?.0+|0
或 ^(-([1-9]\d.\d|0.\d[1-9]\d))|0?.0+|0
或 ^(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9]))
或 ^(-(([0-9]+.[0-9][1-9][0-9])|([0-9][1-9][0-9].[0-9]+)|([0-9][1-9][0-9])))
或 ^-?([1-9]\d.\d|0.\d[1-9]\d|0?.0+|0)
2 英文和數字:^[A-Za-z0-9]+
3 長度為3-20的所有字符:^.{3,20}
5 由26個大寫英文字母組成的字符串:^[A-Z]+
7 由數字和26個英文字母組成的字符串:^[A-Za-z0-9]+ 或 ^\w{3,20}
10 中文、英文、數字但不包括下劃線等符號:^[\u4E00-\u9FA5A-Za-z0-9]+
11 可以輸入含有^%&',;=?\x22]+
12 禁止輸入含有的字符:[^\x22]+
3.3 特殊需求表達式
1 Email地址:^\w+([-+.]\w+)@\w+([-.]\w+).\w+([-.]\w+)
4 手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}
6 國內電話號碼(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7 身份證號(15位、18位數字):^\d{15}|\d{18} 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?
10 密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線):^[a-zA-Z]\w{5,17}
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])
15 錢的輸入格式:
16 1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]
18 3.一個0或者一個不以0開頭的數字.我們還可以允許開頭有一個負號:^(0|-?[1-9][0-9])
20 5.必須說明的是,小數點后面至少應該有1位數,所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的:^[0-9]+(.[0-9]{2})?
22 7.這樣就允許用戶只寫一位小數.下面我們該考慮數字中的逗號了,我們可以這樣:^[0-9]{1,3}(,[0-9]{3})(.[0-9]{1,2})?
24 備注:這就是最終結果了,別忘了"+"可以用""替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數時去掉去掉那個反斜杠,一般的錯誤都在這里
25 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\.[x|X][m|M][l|L]或(^\s)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式)
31 騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)
32 中國郵政編碼:[1-9]\d{5}(?!\d) (中國郵政編碼為6位數字) 33 IP地址:\d+.\d+.\d+.\d+ (提取IP地址時有用) 34 IP地址:((?:(?:25[0-5]|2[0-4]\d|[01]?\d?\d)\.){3}(?:25[0-5]|2[0-4]\d|[01]?\d?\d))
注:文中如有任何錯誤,請各位批評指正!