正則表達(dá)式指符合一定規(guī)則的表達(dá)式,專門用于操作字符串。用一些特定的符號來表示一些代碼操作,以此來簡化書寫。只需要書寫簡短的正則字符串就可以完成非常復(fù)雜的字符匹配操作。學(xué)習(xí)正則表達(dá)式最重要的就是學(xué)習(xí)如何寫正則,而正則本身又是各種符號的組合體。所以學(xué)習(xí)正則表達(dá)式,就是在學(xué)習(xí)一些特殊符號的使用。
正則雖然簡便,但是其弊端也多,做重要的就是兩點:
- 閱讀性會隨著符號定義的越多而變得非常非常差;
- 其效率真的不敢恭維。
雖然其弊端存在,但是學(xué)習(xí)這個東西還是非常有必要的,因為在處理一些字符串的問題是避不開正則的,而且在很多時候使用正則卻是最省事的。
正則表達(dá)式的簡單介紹
既然是學(xué)習(xí)正則,那就要對正則有一個簡單的介紹,此處不是希望讀者能夠讀懂或是能夠按要求自己寫正則,只是讓讀者對正則有一個簡單的認(rèn)知,至少知道這些字符串是正則。下面就列舉了一些正則表達(dá)式,并以此來介紹一下正則表達(dá)式:
-
" +"
: 表示一個或多個空格 -
[abc]
:表示一個字符是a或b或c -
[a-zA-Z]
:表示a到z或A到Z,兩頭的字母包括在內(nèi)(范圍) -
^\\w+$
:由數(shù)字、26個英文字母或下劃線組成的字符串 -
^[\\u4e00-\\u9fa5]{0,}$
:字符串僅能是中文 -
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$
:國內(nèi) 13、15、18開頭的手機號正則 -
^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
: 校驗密碼長度,密碼的強度必須是包含大小寫字母和數(shù)字的組合,不能使用特殊字符,長度在8-10之間
以上是幾個正則,有簡單的,也有比較難的。通過這些正則,能夠?qū)φ齽t有一個初步的印象,至于這個正則里面的符號各個是什么意思,可用看最后一節(jié)。
正則表達(dá)式的用處:
上面對正則有了一個初步的介紹,那么現(xiàn)在就該將其用法了。通過去使用正則表達(dá)式,逐步加深對正則的理解。實踐是檢驗真理的唯一標(biāo)識,知道怎么使用,那就可以自己去試著寫一寫正則來看看。
對于正則的用處,我將其分成4種,分別是:匹配、切割、替換和獲取。每一個用法都對應(yīng)了一些API的調(diào)用,下面就來看一看怎么使用正則。另外,通過正則一個字符串種獲取符合規(guī)則是正則的最大的用處,因此獲取最好熟練掌握,特別是那幾個方法的使用。
匹配
確定一個字符串是否完全符合正則表達(dá)式。用規(guī)則匹配整個字符串,如果有一處不符合就匹配結(jié)束,使用方法:
String : boolean matches(String regex)
切割
將一個字符串通過指定正則切割為多個字符串。
String : String[] split(String regex)
這個方法應(yīng)該是在工作用的比較多的,例如 使用正則" +"
是按一個或多個空格來切割,就不多解釋了。
替換
將字符串中所有匹配給定的正則表達(dá)式的子字符串進(jìn)行替換。
String : String replaceAll(String regex, String replacement)
//使用給定的 replacement 替換此字符串所有匹配給定的正則表達(dá)式的子字符串。
這個方式很容易理解,但這里有個需要注意的地方:在String類中還有一個相似的replace
方法,這個方法也是進(jìn)行替換的,但是問題在于這個方法不使用正則,僅僅是進(jìn)行字面值的匹配。
獲取
從一個字符串中獲取符合正則表達(dá)式的子字符串。這個用法是所有正則用法中最常用的,因此需要熟練掌握。在介紹如何進(jìn)行獲取之前,先介紹兩個相關(guān)的類:Pattern
、Matcher
。
獲取的操作,主要是Pattern
、Matcher
這兩個類的使用,將字符串中符合規(guī)則的子串取出。上面提到的其他的操作再底層也是通過這兩個對象來進(jìn)行的。
Pattern
類代表一個正則表達(dá)式對象,其由靜態(tài)方法創(chuàng)建,與特定要匹配的字符串無關(guān),僅僅代表一個正則表達(dá)式對象
Matcher
類代表一個字符串與正則進(jìn)行結(jié)合后的匹配器,通過它可以對字符串進(jìn)行很多操作。通常由Pattern.matches(CharSequence input)
創(chuàng)建而來。
其中,Matcher
常用的方法有:find()
、reset()
、group()
、start()
、end()
,最常用的進(jìn)行獲取的例子如下:
String data = "M634.6458,109.730835C633.93176,110.02402 633.11017,110.45207
633.5371,110.86981C635.0685,112.36824 636.26434,111.89019 638.5624,113.56317";
String regex = "[MQC][^MQC]+";
data = data.replaceAll("\\s+"," ");
Pattern pattern = Pattern.compile(regex);
Matcher matcher = pattern.matcher(data);
while(matcher.find()) {
System.out.println("find: "+matcher.group());
}
下面是出現(xiàn)的與獲取子串相關(guān)一些函數(shù)的說明:
find()
從當(dāng)前索引處開始進(jìn)行一次匹配;
group()
獲取當(dāng)前匹配到的子串;
start()
返回當(dāng)前匹配到的子串的第一個字符的位置;
end()
返回當(dāng)前匹配到的子串的最后一個字符的位置;
reset()
重置當(dāng)前匹配器,此時其索引重新置為字符串初始位置;
正則表達(dá)式的特點
正則雖然復(fù)雜,但是只要記住幾點就能夠?qū)φ齽t有一個大致的認(rèn)識,然后在匹配文檔就可明確這個正則的具體意義。下面是個人總結(jié)的一些正則的特點,讀者可看可不看,畢竟仁者見仁智者見智:
-
[] 中括號
表示字符串中的一個字符: [abc]表示出現(xiàn)a或b或c - Java 中的字符串會對
\\
進(jìn)行轉(zhuǎn)義,所以當(dāng)需要使用\\
時,就需要連續(xù)使用兩個\\
,所以在
Java 正則中出現(xiàn)的反斜杠都是成對出現(xiàn)的 - 正則是逐次判斷的,對于數(shù)量可以用
大括號{}
或+
或*
等來判斷 - 小括號表示組的概念,一個規(guī)則使用小括號括起來為組,可以用來重用其結(jié)果,其編號從1開始自動生成,例如
"(.)\\1"
表示疊詞(兩個相同的詞)。為了可以讓規(guī)則的結(jié)果被重用,可以將規(guī)則封裝成一個組,用()
完成,組的出現(xiàn)都有編號,從1開始,想要使用已有的組可以通過\n(n就是組的編號)
的形式來獲取
正則表達(dá)式的構(gòu)造
正則的構(gòu)造是通過特殊字符的組合,一下給出常用的用于構(gòu)造正則的符號和其表達(dá)意義,但并非所有。在進(jìn)行正則構(gòu)造的時候,可以使用。
字符類 | 意義 |
---|---|
[abc] | a、b 或 c(簡單類) |
[^abc] | 任何字符,除了 a、b 或 c(否定) |
[a-zA-Z] | a 到 z 或 A 到 Z,兩頭的字母包括在內(nèi)(范圍) |
[a-d[m-p]] | a 到 d 或 m 到 p:[a-dm-p](并集) |
[a-z&&[def]] | d、e 或 f(交集) |
[a-z&&[^bc]] | a 到 z,除了 b 和 c:[ad-z](減去) |
[a-z&&[^m-p]] | a 到 z,而非 m 到 p:[a-lq-z](減去) |
預(yù)定義字符類 | 意義 |
---|---|
. | 任何字符(與行結(jié)束符可能匹配也可能不匹配) |
\d | 數(shù)字:[0-9] |
\D | 非數(shù)字: [^0-9] |
\s | 空白字符:[ \t\n\x0B\f\r] |
\S | 非空白字符:[^\s] |
\w | 單詞字符:[a-zA-Z_0-9] |
\W | 非單詞字符:[^\w] |
邊界匹配器 | 意義 |
---|---|
^ | 行的開頭 |
$ | 行的結(jié)尾 |
\b | 單詞邊界 |
\B | 非單詞邊界 |
\A | 輸入的開頭 |
\G | 上一個匹配的結(jié)尾 |
\Z | 輸入的結(jié)尾,僅用于最后的結(jié)束符(如果有的話) |
\z | 輸入的結(jié)尾 |
Greedy數(shù)量詞 | 意義 |
---|---|
X? | X,一次或一次也沒有 |
X* | X,零次或多次 |
X+ | X,一次或多次 |
X{n} | X,恰好 n 次 |
X{n,} | X,至少 n 次 |
X{n,m} | X,至少 n 次,但是不超過 m 次 |
常用的正則表達(dá)式
1 . 校驗密碼強度
密碼的強度必須是包含大小寫字母和數(shù)字的組合,不能使用特殊字符,長度在8-10之間。
^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
- 校驗中文
字符串僅能是中文。
^[\\u4e00-\\u9fa5]{0,}$
- 由數(shù)字、26個英文字母或下劃線組成的字符串
^\\w+$
- 校驗E-Mail 地址
同密碼一樣,下面是E-mail地址合規(guī)性的正則檢查語句。
[\\w!#$%&'*+/=?^_`{|}~-]+(?:\\.[\\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\\w](?:[\\w-]*[\\w])?\\.)+[\\w](?:[\\w-]*[\\w])?
- 校驗身份證號碼
下面是身份證號碼的正則校驗。15 或 18位。
15位:
^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$
18位:
^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$
- 校驗日期
yyyy-mm-dd
格式的日期校驗,已考慮平閏年。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
- 校驗金額
金額校驗,精確到2位小數(shù)。
^[0-9]+(.[0-9]{2})?$
- 校驗手機號
下面是國內(nèi) 13、15、18開頭的手機號正則表達(dá)式。
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$
- 判斷IE的版本
IE目前還沒被完全取代,很多頁面還是需要做版本兼容,下面是IE版本檢查的表達(dá)式。
^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$
- 校驗IP-v4地址
IP4 正則語句。
\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b
- 校驗IP-v6地址
IP6 正則語句。
(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
- 檢查URL的前綴
應(yīng)用開發(fā)中很多時候需要區(qū)分請求是HTTPS還是HTTP,通過下面的表達(dá)式可以取出一個url的前綴然后再邏輯判斷。
if (!s.match(/^[a-zA-Z]+:\\/\\//)){ s = 'http://' + s;}
- 提取URL鏈接
下面的這個表達(dá)式可以篩選出一段文本中的URL。
^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?
- 文件路徑及擴展名校驗
驗證文件路徑和擴展名
^([a-zA-Z]\\:|\\\\)\\\\([^\\\\]+\\\\)*[^\\/:*?"<>|]+\\.txt(l)?$
- 提取Color Hex Codes
有時需要抽取網(wǎng)頁中的顏色代碼,可以使用下面的表達(dá)式。
\\#([a-fA-F]|[0-9]){3,6}
- 提取網(wǎng)頁圖片
假若你想提取網(wǎng)頁中所有圖片信息,可以利用下面的表達(dá)式。
\\< *[img][^\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)
- 提取頁面超鏈接
提取html中的超鏈接。
(]*)(href="https?://)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>
- 精煉CSS
通過下面的表達(dá)式,可以搜索相同屬性值的CSS,從而達(dá)到精煉代碼的目的。
^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
- 匹配HTML標(biāo)簽
通過下面的表達(dá)式可以匹配出HTML中的標(biāo)簽。
\\s]+))?)+\\s*|\\s*)/?>