關(guān)于正則表達(dá)式的簡單介紹

正則表達(dá)式指符合一定規(guī)則的表達(dá)式,專門用于操作字符串。用一些特定的符號來表示一些代碼操作,以此來簡化書寫。只需要書寫簡短的正則字符串就可以完成非常復(fù)雜的字符匹配操作。學(xué)習(xí)正則表達(dá)式最重要的就是學(xué)習(xí)如何寫正則,而正則本身又是各種符號的組合體。所以學(xué)習(xí)正則表達(dá)式,就是在學(xué)習(xí)一些特殊符號的使用。

正則雖然簡便,但是其弊端也多,做重要的就是兩點:

  1. 閱讀性會隨著符號定義的越多而變得非常非常差;
  2. 其效率真的不敢恭維。

雖然其弊端存在,但是學(xué)習(xí)這個東西還是非常有必要的,因為在處理一些字符串的問題是避不開正則的,而且在很多時候使用正則卻是最省事的。

正則表達(dá)式的簡單介紹

既然是學(xué)習(xí)正則,那就要對正則有一個簡單的介紹,此處不是希望讀者能夠讀懂或是能夠按要求自己寫正則,只是讓讀者對正則有一個簡單的認(rèn)知,至少知道這些字符串是正則。下面就列舉了一些正則表達(dá)式,并以此來介紹一下正則表達(dá)式:

  1. " +": 表示一個或多個空格
  2. [abc]:表示一個字符是a或b或c
  3. [a-zA-Z]:表示a到z或A到Z,兩頭的字母包括在內(nèi)(范圍)
  4. ^\\w+$:由數(shù)字、26個英文字母或下劃線組成的字符串
  5. ^[\\u4e00-\\u9fa5]{0,}$:字符串僅能是中文
  6. ^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$:國內(nèi) 13、15、18開頭的手機號正則
  7. ^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$: 校驗密碼長度,密碼的強度必須是包含大小寫字母和數(shù)字的組合,不能使用特殊字符,長度在8-10之間

以上是幾個正則,有簡單的,也有比較難的。通過這些正則,能夠?qū)φ齽t有一個初步的印象,至于這個正則里面的符號各個是什么意思,可用看最后一節(jié)。

正則表達(dá)式的用處:

上面對正則有了一個初步的介紹,那么現(xiàn)在就該將其用法了。通過去使用正則表達(dá)式,逐步加深對正則的理解。實踐是檢驗真理的唯一標(biāo)識,知道怎么使用,那就可以自己去試著寫一寫正則來看看。
對于正則的用處,我將其分成4種,分別是:匹配、切割、替換和獲取。每一個用法都對應(yīng)了一些API的調(diào)用,下面就來看一看怎么使用正則。另外,通過正則一個字符串種獲取符合規(guī)則是正則的最大的用處,因此獲取最好熟練掌握,特別是那幾個方法的使用。

匹配

確定一個字符串是否完全符合正則表達(dá)式。用規(guī)則匹配整個字符串,如果有一處不符合就匹配結(jié)束,使用方法:

String :  boolean matches(String regex)

切割

將一個字符串通過指定正則切割為多個字符串。

String :  String[] split(String regex)

這個方法應(yīng)該是在工作用的比較多的,例如 使用正則" +"是按一個或多個空格來切割,就不多解釋了。

替換

將字符串中所有匹配給定的正則表達(dá)式的子字符串進(jìn)行替換。

 String :  String replaceAll(String  regex, String  replacement)
 //使用給定的 replacement 替換此字符串所有匹配給定的正則表達(dá)式的子字符串。

這個方式很容易理解,但這里有個需要注意的地方:在String類中還有一個相似的replace方法,這個方法也是進(jìn)行替換的,但是問題在于這個方法不使用正則,僅僅是進(jìn)行字面值的匹配。

獲取

從一個字符串中獲取符合正則表達(dá)式的子字符串。這個用法是所有正則用法中最常用的,因此需要熟練掌握。在介紹如何進(jìn)行獲取之前,先介紹兩個相關(guān)的類:PatternMatcher
獲取的操作,主要是PatternMatcher 這兩個類的使用,將字符串中符合規(guī)則的子串取出。上面提到的其他的操作再底層也是通過這兩個對象來進(jìn)行的。

Pattern 類代表一個正則表達(dá)式對象,其由靜態(tài)方法創(chuàng)建,與特定要匹配的字符串無關(guān),僅僅代表一個正則表達(dá)式對象
Matcher代表一個字符串與正則進(jìn)行結(jié)合后的匹配器,通過它可以對字符串進(jìn)行很多操作。通常由Pattern.matches(CharSequence input)創(chuàng)建而來。

其中,Matcher常用的方法有:find()reset()group()start()end(),最常用的進(jìn)行獲取的例子如下:

    String data = "M634.6458,109.730835C633.93176,110.02402  633.11017,110.45207 
633.5371,110.86981C635.0685,112.36824 636.26434,111.89019 638.5624,113.56317";
    String regex = "[MQC][^MQC]+";

    data = data.replaceAll("\\s+"," ");

    Pattern pattern = Pattern.compile(regex);
    Matcher matcher = pattern.matcher(data);

    while(matcher.find()) {
        System.out.println("find: "+matcher.group());
    }

下面是出現(xiàn)的與獲取子串相關(guān)一些函數(shù)的說明:
find() 從當(dāng)前索引處開始進(jìn)行一次匹配;
group() 獲取當(dāng)前匹配到的子串;
start() 返回當(dāng)前匹配到的子串的第一個字符的位置;
end() 返回當(dāng)前匹配到的子串的最后一個字符的位置;
reset() 重置當(dāng)前匹配器,此時其索引重新置為字符串初始位置;

正則表達(dá)式的特點

正則雖然復(fù)雜,但是只要記住幾點就能夠?qū)φ齽t有一個大致的認(rèn)識,然后在匹配文檔就可明確這個正則的具體意義。下面是個人總結(jié)的一些正則的特點,讀者可看可不看,畢竟仁者見仁智者見智:

  1. [] 中括號表示字符串中的一個字符: [abc]表示出現(xiàn)a或b或c
  2. Java 中的字符串會對\\進(jìn)行轉(zhuǎn)義,所以當(dāng)需要使用\\時,就需要連續(xù)使用兩個\\,所以在
    Java 正則中出現(xiàn)的反斜杠都是成對出現(xiàn)的
  3. 正則是逐次判斷的,對于數(shù)量可以用大括號{}+*等來判斷
  4. 小括號表示組的概念,一個規(guī)則使用小括號括起來為組,可以用來重用其結(jié)果,其編號從1開始自動生成,例如"(.)\\1"表示疊詞(兩個相同的詞)。為了可以讓規(guī)則的結(jié)果被重用,可以將規(guī)則封裝成一個組,用()完成,組的出現(xiàn)都有編號,從1開始,想要使用已有的組可以通過\n(n就是組的編號)的形式來獲取

正則表達(dá)式的構(gòu)造

正則的構(gòu)造是通過特殊字符的組合,一下給出常用的用于構(gòu)造正則的符號和其表達(dá)意義,但并非所有。在進(jìn)行正則構(gòu)造的時候,可以使用。

字符類 意義
[abc] a、b 或 c(簡單類)
[^abc] 任何字符,除了 a、b 或 c(否定)
[a-zA-Z] a 到 z 或 A 到 Z,兩頭的字母包括在內(nèi)(范圍)
[a-d[m-p]] a 到 d 或 m 到 p:[a-dm-p](并集)
[a-z&&[def]] d、e 或 f(交集)
[a-z&&[^bc]] a 到 z,除了 b 和 c:[ad-z](減去)
[a-z&&[^m-p]] a 到 z,而非 m 到 p:[a-lq-z](減去)
預(yù)定義字符類 意義
. 任何字符(與行結(jié)束符可能匹配也可能不匹配)
\d 數(shù)字:[0-9]
\D 非數(shù)字: [^0-9]
\s 空白字符:[ \t\n\x0B\f\r]
\S 非空白字符:[^\s]
\w 單詞字符:[a-zA-Z_0-9]
\W 非單詞字符:[^\w]
邊界匹配器 意義
^ 行的開頭
$ 行的結(jié)尾
\b 單詞邊界
\B 非單詞邊界
\A 輸入的開頭
\G 上一個匹配的結(jié)尾
\Z 輸入的結(jié)尾,僅用于最后的結(jié)束符(如果有的話)
\z 輸入的結(jié)尾
Greedy數(shù)量詞 意義
X? X,一次或一次也沒有
X* X,零次或多次
X+ X,一次或多次
X{n} X,恰好 n 次
X{n,} X,至少 n 次
X{n,m} X,至少 n 次,但是不超過 m 次

常用的正則表達(dá)式

1 . 校驗密碼強度
密碼的強度必須是包含大小寫字母和數(shù)字的組合,不能使用特殊字符,長度在8-10之間。

^(?=.*\\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
  1. 校驗中文
    字符串僅能是中文。
^[\\u4e00-\\u9fa5]{0,}$
  1. 由數(shù)字、26個英文字母或下劃線組成的字符串
^\\w+$
  1. 校驗E-Mail 地址
    同密碼一樣,下面是E-mail地址合規(guī)性的正則檢查語句。
[\\w!#$%&'*+/=?^_`{|}~-]+(?:\\.[\\w!#$%&'*+/=?^_`{|}~-]+)*@(?:[\\w](?:[\\w-]*[\\w])?\\.)+[\\w](?:[\\w-]*[\\w])?
  1. 校驗身份證號碼
    下面是身份證號碼的正則校驗。15 或 18位。
    15位:
^[1-9]\\d{7}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}$

18位:

^[1-9]\\d{5}[1-9]\\d{3}((0\\d)|(1[0-2]))(([0|1|2]\\d)|3[0-1])\\d{3}([0-9]|X)$
  1. 校驗日期
    yyyy-mm-dd 格式的日期校驗,已考慮平閏年。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
  1. 校驗金額
    金額校驗,精確到2位小數(shù)。
^[0-9]+(.[0-9]{2})?$
  1. 校驗手機號
    下面是國內(nèi) 13、15、18開頭的手機號正則表達(dá)式。
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\\d{8}$
  1. 判斷IE的版本
    IE目前還沒被完全取代,很多頁面還是需要做版本兼容,下面是IE版本檢查的表達(dá)式。
^.*MSIE [5-8](?:\\.[0-9]+)?(?!.*Trident\\/[5-9]\\.0).*$
  1. 校驗IP-v4地址
    IP4 正則語句。
\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b
  1. 校驗IP-v6地址
    IP6 正則語句。
(([0-9a-fA-F]{1,4}:){7,7}[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,7}:|([0-9a-fA-F]{1,4}:){1,6}:[0-9a-fA-F]{1,4}|([0-9a-fA-F]{1,4}:){1,5}(:[0-9a-fA-F]{1,4}){1,2}|([0-9a-fA-F]{1,4}:){1,4}(:[0-9a-fA-F]{1,4}){1,3}|([0-9a-fA-F]{1,4}:){1,3}(:[0-9a-fA-F]{1,4}){1,4}|([0-9a-fA-F]{1,4}:){1,2}(:[0-9a-fA-F]{1,4}){1,5}|[0-9a-fA-F]{1,4}:((:[0-9a-fA-F]{1,4}){1,6})|:((:[0-9a-fA-F]{1,4}){1,7}|:)|fe80:(:[0-9a-fA-F]{0,4}){0,4}%[0-9a-zA-Z]{1,}|::(ffff(:0{1,4}){0,1}:){0,1}((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])|([0-9a-fA-F]{1,4}:){1,4}:((25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9])\\.){3,3}(25[0-5]|(2[0-4]|1{0,1}[0-9]){0,1}[0-9]))
  1. 檢查URL的前綴
    應(yīng)用開發(fā)中很多時候需要區(qū)分請求是HTTPS還是HTTP,通過下面的表達(dá)式可以取出一個url的前綴然后再邏輯判斷。
if (!s.match(/^[a-zA-Z]+:\\/\\//)){ s = 'http://' + s;}
  1. 提取URL鏈接
    下面的這個表達(dá)式可以篩選出一段文本中的URL。
^(f|ht){1}(tp|tps):\\/\\/([\\w-]+\\.)+[\\w-]+(\\/[\\w- ./?%&=]*)?
  1. 文件路徑及擴展名校驗
    驗證文件路徑和擴展名
^([a-zA-Z]\\:|\\\\)\\\\([^\\\\]+\\\\)*[^\\/:*?"<>|]+\\.txt(l)?$
  1. 提取Color Hex Codes
    有時需要抽取網(wǎng)頁中的顏色代碼,可以使用下面的表達(dá)式。
\\#([a-fA-F]|[0-9]){3,6}
  1. 提取網(wǎng)頁圖片
    假若你想提取網(wǎng)頁中所有圖片信息,可以利用下面的表達(dá)式。
\\< *[img][^\\>]*[src] *= *[\\"\\']{0,1}([^\\"\\'\\ >]*)
  1. 提取頁面超鏈接
    提取html中的超鏈接。
(]*)(href="https?://)((?!(?:(?:www\\.)?'.implode('|(?:www\\.)?', $follow_list).'))[^"]+)"((?!.*\\brel=)[^>]*)(?:[^>]*)>
  1. 精煉CSS
    通過下面的表達(dá)式,可以搜索相同屬性值的CSS,從而達(dá)到精煉代碼的目的。
^\\s*[a-zA-Z\\-]+\\s*[:]{1}\\s[a-zA-Z0-9\\s.#]+[;]{1}
  1. 匹配HTML標(biāo)簽
    通過下面的表達(dá)式可以匹配出HTML中的標(biāo)簽。
\\s]+))?)+\\s*|\\s*)/?>
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 1.什么是正則表達(dá)式 正則表達(dá)式,又稱正規(guī)表示法,是對字符串操作的一種邏輯公式。正則表達(dá)式可以檢測給定的字符串是否...
    暴_暴閱讀 812評論 0 10
  • 正則表達(dá)式,一個十分古老而又強大的文本處理工具,僅僅用一段非常簡短的表達(dá)式語句,便能夠快速實現(xiàn)一個非常復(fù)雜的業(yè)務(wù)邏...
    丸_子閱讀 154評論 0 4
  • 元字符 \b 代表著單詞的開頭或結(jié)尾,也就是單詞的分界處。雖然通常英文的單詞是有空格,標(biāo)點符號揮著換行來分割的,但...
    onzing閱讀 625評論 0 0
  • 正則表達(dá)式的使用文件如下: 使用方法: 補充一些正則表達(dá)式中常用的語法,方便擴展更多判斷 1 . 校驗密碼強度 密...
    JoyGY閱讀 572評論 0 0
  • 走了, 帶走愛過的初心, 藏匿深觸的靈魂, 來不及深擁, 遺失那摯愛的眼神....… 走了, 回味愛過的初心, 回...
    小佳覺醒系統(tǒng)閱讀 328評論 0 0