Python中的正則表達(dá)式(re)
<pre>import re
re.match #從開始位置開始匹配,如果開頭沒有則無
re.search #搜索整個(gè)字符串
re.findall #搜索整個(gè)字符串,返回一個(gè)list</pre>
舉例:
<pre>r(raw)用在pattern之前,表示單引號(hào)中的字符串為原生字符,不會(huì)進(jìn)行任何轉(zhuǎn)義
re.match(r'l','liuyan1').group() #返回l
re.match(r'y','liuyan1') #返回None
re.search(r'y','liuyan1').group() #返回y</pre>
正則表達(dá)式可以包含一些可選標(biāo)志修飾符來控制匹配的模式。修飾符被指定為一個(gè)可選的標(biāo)志。多個(gè)標(biāo)志可以通過按位 OR(|) 它們來指定。如 re.I | re.M 被設(shè)置成 I 和 M 標(biāo)志:
| 修飾符 | 描述 |
| re.I | 使匹配對(duì)大小寫不敏感 |
| re.L | 做本地化識(shí)別(locale-aware)匹配 |
| re.M | 多行匹配,影響 ^ 和 $ |
| re.S | 使 . 匹配包括換行在內(nèi)的所有字符 |
| re.U | 根據(jù)Unicode字符集解析字符。這個(gè)標(biāo)志影響 \w, \W, \b, \B. |
| re.X | 該標(biāo)志通過給予你更靈活的格式以便你將正則表達(dá)式寫得更易于理解。 |
<pre>re.search(r'[a-z]+','liuyaN1234ab9').group() #返回'liuya'
re.search(r'[a-z]+','liuyaN1234ab9', re.I).group() #返回'liuyaN',對(duì)大小寫不敏感</pre>
<pre>#如果匹配成功,則打印m,否則返回Null
if re.match(r'[0-9]','a'):print 'm'</pre>
<pre>#用空格分割
re.split(r'\s+', 'a b c')
返回:['a', 'b', 'c', 'd']</pre>
<pre>#用逗號(hào)分隔
re.split(r'[\s,]+', 'a,b, c d')
返回:['a', 'b', 'c', 'd']</pre>
rr=re.match(r'[0-9]','3')
rr.group(0)
正則表達(dá)式模式--http://www.runoob.com/python/python-reg-expressions.html
模式字符串使用特殊的語法來表示一個(gè)正則表達(dá)式:
字母和數(shù)字表示他們自身。一個(gè)正則表達(dá)式模式中的字母和數(shù)字匹配同樣的字符串。
多數(shù)字母和數(shù)字前加一個(gè)反斜杠時(shí)會(huì)擁有不同的含義。
標(biāo)點(diǎn)符號(hào)只有被轉(zhuǎn)義時(shí)才匹配自身,否則它們表示特殊的含義。
反斜杠本身需要使用反斜杠轉(zhuǎn)義。
由于正則表達(dá)式通常都包含反斜杠,所以你最好使用原始字符串來表示它們。模式元素(如 r'/t',等價(jià)于'//t')匹配相應(yīng)的特殊字符。
下表列出了正則表達(dá)式模式語法中的特殊元素。如果你使用模式的同時(shí)提供了可選的標(biāo)志參數(shù),某些模式元素的含義會(huì)改變。
| 模式 | 描述 |
| ^ | 匹配字符串的開頭 |
| $ | 匹配字符串的末尾。 |
| . | 匹配任意字符,除了換行符,當(dāng)re.DOTALL標(biāo)記被指定時(shí),則可以匹配包括換行符的任意字符。 |
| [...] | 用來表示一組字符,單獨(dú)列出:[amk] 匹配 'a','m'或'k' |
| [^...] | 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。 |
| re* | 匹配0個(gè)或多個(gè)的表達(dá)式。 |
| re+ | 匹配1個(gè)或多個(gè)的表達(dá)式。 |
| re? | 匹配0個(gè)或1個(gè)由前面的正則表達(dá)式定義的片段,非貪婪方式 |
| re{ n} | |
| re{ n,} | 精確匹配n個(gè)前面表達(dá)式。 |
| re{ n, m} | 匹配 n 到 m 次由前面的正則表達(dá)式定義的片段,貪婪方式 |
| a| b | 匹配a或b |
| (re) | G匹配括號(hào)內(nèi)的表達(dá)式,也表示一個(gè)組 |
| (?imx) | 正則表達(dá)式包含三種可選標(biāo)志:i, m, 或 x 。只影響括號(hào)中的區(qū)域。 |
| (?-imx) | 正則表達(dá)式關(guān)閉 i, m, 或 x 可選標(biāo)志。只影響括號(hào)中的區(qū)域。 |
| (?: re) | 類似 (...), 但是不表示一個(gè)組 |
| (?imx: re) | 在括號(hào)中使用i, m, 或 x 可選標(biāo)志 |
| (?-imx: re) | 在括號(hào)中不使用i, m, 或 x 可選標(biāo)志 |
| (?#...) | 注釋. |
| (?= re) | 前向肯定界定符。如果所含正則表達(dá)式,以 ... 表示,在當(dāng)前位置成功匹配時(shí)成功,否則失敗。但一旦所含表達(dá)式已經(jīng)嘗試,匹配引擎根本沒有提高;模式的剩余部分還要嘗試界定符的右邊。 |
| (?! re) | 前向否定界定符。與肯定界定符相反;當(dāng)所含表達(dá)式不能在字符串當(dāng)前位置匹配時(shí)成功 |
| (?> re) | 匹配的獨(dú)立模式,省去回溯。 |
| \w | 匹配字母數(shù)字 |
| \W | 匹配非字母數(shù)字 |
| \s | 匹配任意空白字符,等價(jià)于 [\t\n\r\f]. |
| \S | 匹配任意非空字符 |
| \d | 匹配任意數(shù)字,等價(jià)于 [0-9]. |
| \D | 匹配任意非數(shù)字 |
| \A | 匹配字符串開始 |
| \Z | 匹配字符串結(jié)束,如果是存在換行,只匹配到換行前的結(jié)束字符串。c |
| \z | 匹配字符串結(jié)束 |
| \G | 匹配最后匹配完成的位置。 |
| \b | 匹配一個(gè)單詞邊界,也就是指單詞和空格間的位置。例如, 'er\b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。 |
| \B | 匹配非單詞邊界。'er\B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。 |
| \n, \t, 等. | 匹配一個(gè)換行符。匹配一個(gè)制表符。等 |
| \1...\9 | 匹配第n個(gè)分組的子表達(dá)式。 |
| \10 | 匹配第n個(gè)分組的子表達(dá)式,如果它經(jīng)匹配。否則指的是八進(jìn)制字符碼的表達(dá)式。 |
正則表達(dá)式實(shí)例
字符匹配
| 實(shí)例 | 描述 |
| python | 匹配 "python". |
字符類
| 實(shí)例 | 描述 |
| [Pp]ython | 匹配 "Python" 或 "python" |
| rub[ye] | 匹配 "ruby" 或 "rube" |
| [aeiou] | 匹配中括號(hào)內(nèi)的任意一個(gè)字母 |
| [0-9] | 匹配任何數(shù)字。類似于 [0123456789] |
| [a-z] | 匹配任何小寫字母 |
| [A-Z] | 匹配任何大寫字母 |
| [a-zA-Z0-9] | 匹配任何字母及數(shù)字 |
| [^aeiou] | 除了aeiou字母以外的所有字符 |
| [^0-9] | 匹配除了數(shù)字外的字符 |
特殊字符類
| 實(shí)例 | 描述 |
| . | 匹配除 "\n" 之外的任何單個(gè)字符。要匹配包括 '\n' 在內(nèi)的任何字符,請(qǐng)使用象 '[.\n]' 的模式。 |
| \d | 匹配一個(gè)數(shù)字字符。等價(jià)于 [0-9]。 |
| \D | 匹配一個(gè)非數(shù)字字符。等價(jià)于 [^0-9]。 |
| \s | 匹配任何空白字符,包括空格、制表符、換頁符等等。等價(jià)于 [ \f\n\r\t\v]。 |
| \S | 匹配任何非空白字符。等價(jià)于 [^ \f\n\r\t\v]。 |
| \w | 匹配包括下劃線的任何單詞字符。等價(jià)于'[A-Za-z0-9_]'。 |
| \W | 匹配任何非單詞字符。等價(jià)于 '[^A-Za-z0-9_]'。 |
1 Python ****正則式的基本用法 --原文地址:http://blog.csdn.net/whycadi/archive/2008/01/02/2011046.aspx
Python 的正則表達(dá)式的模塊是 ‘re’, 它的基本語法規(guī)則就是指定一個(gè)字符序列,比如你要在一個(gè)字符串 s=’123abc456’ 中查找字符串 ’abc’, 只要這樣寫:
import re
s='123abc456eabc789'
re.findall(r’abc’,s)
結(jié)果就是:
['abc', 'abc']
這里用到的函數(shù) ”findall(rule , target [,flag] )” 是個(gè)比較直觀的函數(shù),就是在目標(biāo)字符串中查找符合規(guī)則的字符串。第一個(gè)參數(shù)是規(guī)則,第二個(gè)參數(shù)是目標(biāo)字符串,后面還可以跟一個(gè)規(guī)則選項(xiàng)(選項(xiàng)功能將在 compile 函數(shù)的說明中詳細(xì)說明)。返回結(jié)果結(jié)果是一個(gè)列表, 中間存放的是符合規(guī)則的字符串。如果沒有符合規(guī)則的字符串被找到,就返回一個(gè)空 列表。
為什么要用 ****r’ ..‘ ****字符串( ****raw ****字符串)? ****由于正則式的規(guī)則也是由一個(gè)字符串定義的,而在正則式中大量使用轉(zhuǎn)義字符 ****’/’ ****,如果不用 ****raw ****字符串,則在需要寫一個(gè) ****’/’ ****的地方,你必須得寫成 ****’//’, ****那么在要從目標(biāo)字符串中匹配一個(gè) ****’/’ ****的時(shí)候,你就得寫上 ****4 ****個(gè) ****’/’ ****成為 ****’////’ ****!這當(dāng)然很麻煩,也不直觀,所以一般都使用 ****r’’ ****來定義規(guī)則字符串。當(dāng)然,某些情況下,可能不用 ****raw ****字符串比較好。
以上是個(gè)最簡單的例子。當(dāng)然實(shí)際中這么簡單的用法幾乎沒有意義。為了實(shí)現(xiàn)復(fù)雜的規(guī)則查找, re 規(guī)定了若干語法規(guī)則。它們分為這么幾類:
功能字符 : ‘.’ ‘*’ ‘+’ ‘|’ ‘?’ ‘^’ ‘$’ ‘/’ 等,它們有特殊的功能含義。特別是 ’/’ 字符,它是轉(zhuǎn)義引導(dǎo)符號(hào),跟在它后面的字符一般有特殊的含義。
規(guī)則分界符: ‘[‘ ‘]’ ‘ ( ’ ‘ ) ’ ‘{‘ ‘}’ 等,也就是幾種括號(hào)了。
預(yù)定義轉(zhuǎn)義字符集: “/d” “/w” “/s” 等等,它們是以字符 ’/’ 開頭,后面接一個(gè)特定字符的形式,用來指示一個(gè)預(yù)定義好的含義。
其它特殊功能字符: ’#’ ‘!’ ‘:’ ‘-‘ 等,它們只在特定的情況下表示特殊的含義,比如 (?# …) 就表示一個(gè)注釋,里面的內(nèi)容會(huì)被忽略。
下面來一個(gè)一個(gè)的說明這些規(guī)則的含義,不過說明的順序并不是按照上面的順序來的,而是我認(rèn)為由淺入深,由基本到復(fù)雜的順序來編排的。同時(shí)為了直觀,在說明的過程中盡量多舉些例子以方便理解。
1.1 ****基本規(guī)則
‘[‘ ‘]’ ****字符集合設(shè)定符
首先說明一下字符集合設(shè)定的方法。由一對(duì)方括號(hào)括起來的字符,表明一個(gè)字符集合,能夠匹配包含在其中的任意一個(gè)字符。比如 [abc123] ,表明字符 ’a’ ‘b’ ‘c’ ‘1’ ‘2’ ‘3’ 都符合它的要求。可以被匹配。
在 ’[‘ ‘]’ 中還可以通過 ’-‘ 減號(hào)來指定一個(gè)字符集合的范圍,比如可以用 [a-zA-Z] 來指定所以英文字母的大小寫,因?yàn)橛⑽淖帜甘前凑諒男〉酱蟮捻樞騺砼诺摹D悴豢梢园汛笮〉捻樞蝾嵉沽耍热鐚懗?[z-a] 就不對(duì)了。
如果在 ’[‘ ‘]’ 里面的開頭寫一個(gè) ‘^’ 號(hào),則表示取非,即在括號(hào)里的字符都不匹配。如 [^a-zA-Z] 表明不匹配所有英文字母。但是如果 ‘^’ 不在開頭,則它就不再是表示取非,而表示其本身,如 [a-z^A-Z] 表明匹配所有的英文字母和字符 ’^’ 。
‘|’ ****或規(guī)則
將兩個(gè)規(guī)則并列起來,以‘ | ’連接,表示只要滿足其中之一就可以匹配。比如
[a-zA-Z]|[0-9] 表示滿足數(shù)字或字母就可以匹配,這個(gè)規(guī)則等價(jià)于 [a-zA-Z0-9]
**注意 **:關(guān)于 ’|’ 要注意兩點(diǎn):
第一, 它在 ’[‘ ‘]’ 之中不再表示或,而表示他本身的字符。如果要在 ’[‘ ‘]’ 外面表示一個(gè) ’|’ 字符,必須用反斜杠引導(dǎo),即 ’/|’ ;
第二, 它的有效范圍是它兩邊的整條規(guī)則,比如‘ dog|cat’ 匹配的是‘ dog’ 和 ’cat’ ,而不是 ’g’ 和 ’c’ 。如果想限定它的有效范圍,必需使用一個(gè)無捕獲組 ‘(?: )’ 包起來。比如要匹配 ‘ I have a dog’ 或 ’I have a cat’ ,需要寫成 r’I have a (?:dog|cat)’ ,而不能寫成 r’I have a dog|cat’
例
s = ‘I have a dog , I have a cat’
re.findall( r’I have a (?:dog|cat)’ , s )
['I have a dog', 'I have a cat'] # 正如我們所要的
下面再看看不用無捕獲組會(huì)是什么后果:
re.findall( r’I have a dog|cat’ , s )
['I have a dog', 'cat'] # 它將 ’I have a dog’ 和 ’cat’ 當(dāng)成兩個(gè)規(guī)則了
至于無捕獲組的使用,后面將仔細(xì)說明。這里先跳過。
‘.’ ****匹配所有字符
匹配除換行符 ’/n’ 外的所有字符。如果使用了 ’S’ 選項(xiàng),匹配包括 ’/n’ 的所有字符。
例:
>>> s=’123 /n456 /n789’
>>> findall(r‘.+’,s)
['123', '456', '789']
>>> re.findall(r‘.+’ , s , re.S)
['123/n456/n789']
‘^’ ****和 ’$’ ****匹配字符串開頭和結(jié)尾
注意 ’^’ 不能在‘ [ ] ’中,否則含意就發(fā)生變化,具體請(qǐng)看上面的 ’[‘ ‘]’ 說明。 在多行模式下,它們可以匹配每一行的行首和行尾。具體請(qǐng)看后面 compile 函數(shù)說明的 ’M’ 選項(xiàng)部分
‘/d’ ****匹配數(shù)字
這是一個(gè)以 ’/’ 開頭的轉(zhuǎn)義字符, ’/d’ 表示匹配一個(gè)數(shù)字,即等價(jià)于 [0-9]
‘/D’ ****匹配非數(shù)字
這個(gè)是上面的反集,即匹配一個(gè)非數(shù)字的字符,等價(jià)于 [^0-9] 。注意它們的大小寫。下面我們還將看到 Python 的正則規(guī)則中很多轉(zhuǎn)義字符的大小寫形式,代表互補(bǔ)的關(guān)系。這樣很好記。
‘/w’ ****匹配字母和數(shù)字
匹配所有的英文字母和數(shù)字,即等價(jià)于 [a-zA-Z0-9] 。
‘/W’ ****匹配非英文字母和數(shù)字
即 ’/w’ 的補(bǔ)集,等價(jià)于 [^a-zA-Z0-9] 。
‘/s’ ****匹配間隔符
即匹配空格符、制表符、回車符等表示分隔意義的字符,它等價(jià)于 [ /t/r/n/f/v] 。(注意最前面有個(gè)空格 )
‘/S’ ****匹配非間隔符
即間隔符的補(bǔ)集,等價(jià)于 [^ /t/r/n/f/v]
‘/A’ ****匹配字符串開頭
匹配字符串的開頭。它和 ’^’ 的區(qū)別是, ’/A’ 只匹配整個(gè)字符串的開頭,即使在 ’M’ 模式下,它也不會(huì)匹配其它行的很首。
‘/Z’ ****匹配字符串結(jié)尾
匹配字符串的結(jié)尾。它和 ’$’ 的區(qū)別是, ’/Z’ 只匹配整個(gè)字符串的結(jié)尾,即使在 ’M’ 模式下,它也不會(huì)匹配其它各行的行尾。
例:
s= '12 34/n56 78/n90'
re.findall( r'^/d+' , s , re.M ) # 匹配位于行首的數(shù)字
['12', '56', '90']
re.findall( r’/A/d+’, s , re.M ) # 匹配位于字符串開頭的數(shù)字
['12']
re.findall( r'/d+$' , s , re.M ) # 匹配位于行尾的數(shù)字
['34', '78', '90']
re.findall( r’/d+/Z’ , s , re.M ) # 匹配位于字符串尾的數(shù)字
['90']
‘/b’ ****匹配單詞邊界
它匹配一個(gè)單詞的邊界,比如空格等,不過它是一個(gè)‘ 0 ’長度字符,它匹配完的字符串不會(huì)包括那個(gè)分界的字符。而如果用 ’/s’ 來匹配的話,則匹配出的字符串中會(huì)包含那個(gè)分界符。
例:
s = 'abc abcde bc bcd'
re.findall( r’/bbc/b’ , s ) # 匹配一個(gè)單獨(dú)的單詞 ‘bc’ ,而當(dāng)它是其它單詞的一部分的時(shí)候不匹配
['bc'] #只找到了那個(gè)單獨(dú)的 ’bc’
re.findall( r’/sbc/s’ , s ) #匹配一個(gè)單獨(dú)的單詞 ‘bc’
[' bc '] # 只找到那個(gè)單獨(dú)的 ’bc’ ,不過注意前后有兩個(gè)空格,可能有點(diǎn)看不清楚
‘/B’ ****匹配非邊界
和 ’/b’ 相反,它只匹配非邊界的字符。它同樣是個(gè) 0 長度字符。
接上例:
re.findall( r’/Bbc/w+’ , s ) # 匹配包含 ’bc’ 但不以 ’bc’ 為開頭的單詞
['bcde'] # 成功匹配了 ’abcde’ 中的 ’bcde’ ,而沒有匹配 ’bcd’
‘(?:)’ ****無捕獲組
當(dāng)你要將一部分規(guī)則作為一個(gè)整體對(duì)它進(jìn)行某些操作,比如指定其重復(fù)次數(shù)時(shí),你需要將這部分規(guī)則用 ’(?:’ ‘)’ 把它包圍起來,而不能僅僅只用一對(duì)括號(hào),那樣將得到絕對(duì)出人意料的結(jié)果。
例:匹配字符串中重復(fù)的 ’ab’
s=’ababab abbabb aabaab’
re.findall( r’/b(?:ab)+/b’ , s )
['ababab']
如果僅使用一對(duì)括號(hào),看看會(huì)是什么結(jié)果:
re.findall( r’/b(ab)+/b’ , s )
['ab']
這是因?yàn)槿绻皇褂靡粚?duì)括號(hào),那么這就成為了一個(gè)組 (group) 。組的使用比較復(fù)雜,將在后面詳細(xì)講解。
‘(?# )’ ****注釋
Python 允許你在正則表達(dá)式中寫入注釋,在 ’(?#’ ‘)’ 之間的內(nèi)容將被忽略。
**(?iLmsux) **``**編譯選項(xiàng)指定**
Python 的正則式可以指定一些選項(xiàng),這個(gè)選項(xiàng)可以寫在 findall 或 compile 的參數(shù)中,也可以寫在正則式里,成為正則式的一部分。這在某些情況下會(huì)便利一些。具體的選項(xiàng)含義請(qǐng)看后面的 compile 函數(shù)的說明。
此處編譯選項(xiàng) ’i’ 等價(jià)于 IGNORECASE ,L 等價(jià)于 LOCAL ,m 等價(jià)于 MULTILINE , s 等價(jià)于 DOTALL , u 等價(jià)于 UNICODE , x 等價(jià)于 VERBOSE 。
請(qǐng)注意它們的大小寫。在使用時(shí)可以只指定一部分,比如只指定忽略大小寫,可寫為 ‘(?i)’ ,要同時(shí)忽略大小寫并使用多行模式,可以寫為 ‘(?im)’ 。
另外要注意選項(xiàng)的有效范圍是整條規(guī)則,即寫在規(guī)則的任何地方,選項(xiàng)都會(huì)對(duì)全部整條正則式有效。
1.2 ****重復(fù)
正則式需要匹配不定長的字符串,那就一定需要表示重復(fù)的指示符。 Python 的正則式表示重復(fù)的功能很豐富靈活。重復(fù)規(guī)則的一般的形式是在一條字符規(guī)則后面緊跟一個(gè)表示重復(fù)次數(shù)的規(guī)則,已表明需要重復(fù)前面的規(guī)則一定的次數(shù)。重復(fù)規(guī)則有:
‘’ 0 ****或多次匹配*
表示匹配前面的規(guī)則 0 次或多次。
‘+’ 1 ****次或多次匹配
表示匹配前面的規(guī)則至少 1 次,可以多次匹配
例:匹配以下字符串中的前一部分是字母,后一部分是數(shù)字或沒有的變量名字
s = ‘ aaa bbb111 cc22cc 33dd ‘
re.findall( r’/b[a-z]+/d*/b’ , s ) # 必須至少 1 個(gè)字母開頭,以連續(xù)數(shù)字結(jié)尾或沒有數(shù)字
['aaa', 'bbb111']
注意上例中規(guī)則前后加了表示單詞邊界的 ’/b’ 指示符,如果不加的話結(jié)果就會(huì)變成:
re.findall( r’[a-z]+/d*’ , s )
['aaa', 'bbb111', 'cc22', 'cc', 'dd'] # 把單詞給拆開了
大多數(shù)情況下這不是我們期望的結(jié)果。
‘?’ 0 ****或 1 ****次匹配
只匹配前面的規(guī)則 0 次或 1 次。
例,匹配一個(gè)數(shù)字,這個(gè)數(shù)字可以是一個(gè)整數(shù),也可以是一個(gè)科學(xué)計(jì)數(shù)法記錄的數(shù)字,比如 123 和 10e3 都是正確的數(shù)字。
s = ‘ 123 10e3 20e4e4 30ee5 ‘
re.findall( r’ /b/d+[eE]?/d*/b’ , s )
['123', '10e3']
它正確匹配了 123 和 10e3, 正是我們期望的。注意前后的 ’/b’ 的使用,否則將得到不期望的結(jié)果。
1.2.1 ****精確匹配和最小匹配
Python 正則式還可以精確指定匹配的次數(shù)。指定的方式是
‘{m}’ ****精確匹配 m ****次
‘{m,n}’ ****匹配最少 m ****次,最多 n ****次。 (n>m)
如果你只想指定一個(gè)最少次數(shù)或只指定一個(gè)最多次數(shù),你可以把另外一個(gè)參數(shù)空起來。比如你想指定最少 3 次,可以寫成 {3,} (注意那個(gè)逗號(hào)),同樣如果只想指定最大為 5 次,可以寫成 { , 5} ,也可以寫成 {0,5} 。
例 尋找下面字符串中
a : 3 位數(shù)
b: 2 位數(shù)到 4 位數(shù)
c: 5 位數(shù)以上的數(shù)
d: 4 位數(shù)以下的數(shù)
s= ‘ 1 22 333 4444 55555 666666 ‘
re.findall( r’/b/d{3}/b’ , s ) # a : 3 位數(shù)
['333']
re.findall( r’/b/d{2,4}/b’ , s ) # b: 2 位數(shù)到 4 位數(shù)
['22', '333', '4444']
re.findall( r’/b/d{5,}/b’, s ) # c: 5 位數(shù)以上的數(shù)
['55555', '666666']
re.findall( r’/b/d{1,4}/b’ , s ) # 4 位數(shù)以下的數(shù)
['1', '22', '333', '4444']
‘?’ ‘+?’ ‘??’ ****最小匹配*
‘’ ‘+’ ‘?’ 通常都是盡可能多的匹配字符。有時(shí)候我們希望它盡可能少的匹配。比如一個(gè) c 語言的注釋 ‘/ part 1 / / part 2 */’ ,如果使用最大規(guī)則:
s =r ‘/* part 1 / code / part 2 */’
re.findall( r’//./*/’ , s )
[‘/* part 1 / code / part 2 */’]
結(jié)果把整個(gè)字符串都包括進(jìn)去了。如果把規(guī)則改寫成
re.findall( r’//.?/*/’ , s ) # 在 * 后面加上 ? ,表示盡可能少的匹配
['/* part 1 /', '/ part 2 */']
結(jié)果正確的匹配出了注釋里的內(nèi)容
1.3 ****前向界定與后向界定
有時(shí)候需要匹配一個(gè)跟在特定內(nèi)容后面的或者在特定內(nèi)容前面的字符串, Python 提供一個(gè)簡便的前向界定和后向界定功能,或者叫前導(dǎo)指定和跟從指定功能。它們是:
‘(?<=…)’ ****前向界定
括號(hào)中 ’…’ 代表你希望匹配的字符串的前面應(yīng)該出現(xiàn)的字符串。
‘(?=…)’ ****后向界定
括號(hào)中的 ’…’ 代表你希望匹配的字符串后面應(yīng)該出現(xiàn)的字符串。
例: 你希望找出 c 語言的注釋中的內(nèi)容,它們是包含在 ’/’ 和 ’/’ 之間,不過你并不希望匹配的結(jié)果把 ’/’ 和 ’/’ 也包括進(jìn)來,那么你可以這樣用:
s=r’/* comment 1 / code / comment 2 */’
re.findall( r’(?<=//).+?(?=//)’ , s )
[' comment 1 ', ' comment 2 ']
注意這里我們?nèi)匀皇褂昧俗钚∑ヅ洌员苊獍颜麄€(gè)字符串給匹配進(jìn)去了。
要注意的是,前向界定括號(hào)中的表達(dá)式必須是常值,也即你不可以在前向界定的括號(hào)里寫正則式。比如你如果在下面的字符串中想找到被字母夾在中間的數(shù)字,你不可以用前向界定:
例:
s = ‘a(chǎn)aa111aaa , bbb222 , 333ccc ‘
re.findall( r’(?<=[a-z]+)/d+(?=[a-z]+)' , s ) # 錯(cuò)誤的用法
它會(huì)給出一個(gè)錯(cuò)誤信息:
error: look-behind requires fixed-width pattern
不過如果你只要找出后面接著有字母的數(shù)字,你可以在后向界定寫正則式:
re.findall( r’/d+(?=[a-z]+)’, s )
['111', '333']
如果你一定要匹配包夾在字母中間的數(shù)字,你可以使用組( group )的方式
re.findall (r'[a-z]+(/d+)[a-z]+' , s )
['111']
組的使用將在后面詳細(xì)講解。
除了前向界定前向界定和后向界定外,還有前向非界定和后向非界定,它的寫法為:
**‘(?<!...)’ **``**前向非界定**
只有當(dāng)你希望的字符串前面不是’…’ 的內(nèi)容時(shí)才匹配
**‘(?!...)’ **``**后向非界定**
只有當(dāng)你希望的字符串后面不跟著 ’…’ 內(nèi)容時(shí)才匹配。
接上例,希望匹配后面不跟著字母的數(shù)字
re.findall( r’/d+(?!/w+)’ , s )
['222']
注意這里我們使用了 /w 而不是像上面那樣用 [a-z] ,因?yàn)槿绻@樣寫的話,結(jié)果會(huì)是:
re.findall( r’/d+(?![a-z]+)’ , s )
['11', '222', '33']
這和我們期望的似乎有點(diǎn)不一樣。它的原因,是因?yàn)?’111’ 和 ’222’ 中的前兩個(gè)數(shù)字也是滿足這個(gè)要求的。因此可看出,正則式的使用還是要相當(dāng)小心的,因?yàn)槲议_始就是這樣寫的,看到結(jié)果后才明白過來。不過 Python 試驗(yàn)起來很方便,這也是腳本語言的一大優(yōu)點(diǎn),可以一步一步的試驗(yàn),快速得到結(jié)果,而不用經(jīng)過煩瑣的編譯、鏈接過程。也因此學(xué)習(xí) Python 就要多試,跌跌撞撞的走過來,雖然曲折,卻也很有樂趣。
1.4 ****組的基本知識(shí)
上面我們已經(jīng)看過了 Python 的正則式的很多基本用法。不過如果僅僅是上面那些規(guī)則的話,還是有很多情況下會(huì)非常麻煩,比如上面在講前向界定和后向界定時(shí),取夾在字母中間的數(shù)字的例子。用前面講過的規(guī)則都很難達(dá)到目的,但是用了組以后就很簡單了。
‘(‘’)’ ****無命名組
最基本的組是由一對(duì)圓括號(hào)括起來的正則式。比如上面匹配包夾在字母中間的數(shù)字的例子中使用的 (/d+) ,我們?cè)倩仡櫼幌逻@個(gè)例子:
s = ‘a(chǎn)aa111aaa , bbb222 , 333ccc ‘
re.findall (r'[a-z]+(/d+)[a-z]+' , s )
['111']
可以看到 findall ****函數(shù)只返回了包含在 ’()’ ****中的內(nèi)容,而雖然前面和后面的內(nèi)容都匹配成功了,卻并不包含在結(jié)果中。
除了最基本的形式外,我們還可以給組起個(gè)名字,它的形式是
‘(?P<name>…)’ ****命名組
‘(?P’ 代表這是一個(gè) Python 的語法擴(kuò)展 ’<…>’ 里面是你給這個(gè)組起的名字,比如你可以給一個(gè)全部由數(shù)字組成的組叫做 ’num’ ,它的形式就是 ’(?P<num>/d+)’ 。起了名字之后,我們就可以在后面的正則式中通過名字調(diào)用這個(gè)組,它的形式是
‘(?P=name)’ ****調(diào)用已匹配的命名組
要注意,再次調(diào)用的這個(gè)組是已被匹配的組,也就是說它里面的內(nèi)容是和前面命名組里的內(nèi)容是一樣的。
我們可以看更多的例子:請(qǐng)注意下面這個(gè)字符串各子串的特點(diǎn)。
s='aaa111aaa,bbb222,333ccc,444ddd444,555eee666,fff777ggg'
我們看看下面的正則式會(huì)返回什么樣的結(jié)果:
re.findall( r'([a-z]+)/d+([a-z]+)' , s ) # 找出中間夾有數(shù)字的字母
[('aaa', 'aaa'), ('fff', 'ggg')]
re.findall( r '(?P<g1>[a-z]+)/d+(?P=g1)' , s ) # 找出被中間夾有數(shù)字的前后同樣的字母
['aaa']
re.findall( r'[a-z]+(/d+)([a-z]+)' , s ) # 找出前面有字母引導(dǎo),中間是數(shù)字,后面是字母的字符串中的中間的數(shù)字和后面的字母
[('111', 'aaa'), ('777', 'ggg')]
我們可以通過命名組的名字在后面調(diào)用已匹配的命名組,不過名字也不是必需的。
‘/number’ ****通過序號(hào)調(diào)用已匹配的組
正則式中的每個(gè)組都有一個(gè)序號(hào),序號(hào)是按組從左到右,從 1 開始的數(shù)字,你可以通過下面的形式來調(diào)用已匹配的組
比如上面找出被中間夾有數(shù)字的前后同樣的字母的例子,也可以寫成:
re.findall( r’([a-z]+)/d+/1’ , s )
['aaa']
結(jié)果是一樣的。
我們?cè)倏匆粋€(gè)例子
s='111aaa222aaa111 , 333bbb444bb33'
re.findall( r'(/d+)([a-z]+)(/d+)(/2)(/1)' , s ) # 找出完全對(duì)稱的 數(shù)字-字母-數(shù)字-字母-數(shù)字 中的數(shù)字和字母
[('111', 'aaa', '222', 'aaa', '111')]
Python2.4 以后的 re 模塊,還加入了一個(gè)新的條件匹配功能
**‘(?( **
<var>**id/name **</var>**)yes-pattern|no-pattern)’ **``**判斷指定組是否已匹配,執(zhí)行相應(yīng)的規(guī)則**
這個(gè)規(guī)則的含義是,如果 id/name 指定的組在前面匹配成功了,則執(zhí)行 yes-pattern 的正則式,否則執(zhí)行 no-pattern 的正則式。
舉個(gè)例子,比如要匹配一些形如 usr@mail 的郵箱地址,不過有的寫成 < usr@mail > 即用一對(duì) <> 括起來,有點(diǎn)則沒有,要匹配這兩種情況,可以這樣寫
s='usr1@mail1 usr2@maill2'
re.findall( r'(<)?/s(/w+@/w+)/s(?(1)>)' , s )
[('<', 'usr1@mail1'), ('', 'usr2@maill2')]
不過如果目標(biāo)字符串如下
s='usr1@mail1 usr2@maill2 <usr3@mail3 usr4@mail4> < usr5@mail5 '
而你想得到要么由一對(duì) <> 包圍起來的一個(gè)郵件地址,要么得到一個(gè)沒有被 <> 包圍起來的地址,但不想得到一對(duì) <> 中間包圍的多個(gè)地址或不完整的 <> 中的地址,那么使用這個(gè)式子并不能得到你想要的結(jié)果
re.findall( r'(<)?/s(/w+@/w+)/s(?(1)>)' , s )
[('<', 'usr1@mail1'), ('', 'usr2@maill2'), ('', 'usr3@mail3'), ('', 'usr4@mail4'), ('', 'usr5@mail5')]
它仍然找到了所有的郵件地址。
想要實(shí)現(xiàn)這個(gè)功能,單純的使用 findall 有點(diǎn)吃力,需要使用其它的一些函數(shù),比如 match 或 search 函數(shù),再配合一些控制功能。這部分的內(nèi)容將在下面詳細(xì)講解。
小結(jié):以上基本上講述了 Python 正則式的語法規(guī)則。雖然大部分語法規(guī)則看上去都很簡單,可是稍不注意,仍然會(huì)得到與期望大相徑庭的結(jié)果,所以要寫好正則式,需要仔細(xì)的體會(huì)正則式規(guī)則的含義后不同規(guī)則之間細(xì)微的差別。
詳細(xì)的了解了規(guī)則后,再配合后面就要介紹的功能函數(shù),就能最大的發(fā)揮正則式的威力了。
2 re ****模塊的基本函數(shù)
在上面的說明中,我們已經(jīng)對(duì) re 模塊的基本函數(shù) ‘findall’ 很熟悉了。當(dāng)然如果光有 findall 的話,很多功能是不能實(shí)現(xiàn)的。下面開始介紹一下 re 模塊其它的常用基本函數(shù)。靈活搭配使用這些函數(shù),才能充分發(fā)揮 Python 正則式的強(qiáng)大功能。
首先還是說下老熟人 findall 函數(shù)吧
findall(rule , target [,flag] )
在目標(biāo)字符串中查找符合規(guī)則的字符串。
第一個(gè)參數(shù)是規(guī)則,第二個(gè)參數(shù)是目標(biāo)字符串,后面還可以跟一個(gè)規(guī)則選項(xiàng)(選項(xiàng)功能將在 compile 函數(shù)的說明中詳細(xì)說明)。
返回結(jié)果結(jié)果是一個(gè)列表, 中間存放的是符合規(guī)則的字符串。如果沒有符合規(guī)則的字符串被找到,就返回一個(gè)空 列表。
2.1 ****使用 compile ****加速
compile( rule [,flag] )
將正則規(guī)則編譯成一個(gè) Pattern 對(duì)象,以供接下來使用。
第一個(gè)參數(shù)是規(guī)則式,第二個(gè)參數(shù)是規(guī)則選項(xiàng)。
返回一個(gè) Pattern 對(duì)象
直接使用 findall ( rule , target ) 的方式來匹配字符串,一次兩次沒什么,如果是多次使用的話,由于正則引擎每次都要把規(guī)則解釋一遍,而規(guī)則的解釋又是相當(dāng)費(fèi)時(shí)間的,所以這樣的效率就很低了。如果要多次使用同一規(guī)則來進(jìn)行匹配的話,可以使用 re.compile 函數(shù)來將規(guī)則預(yù)編譯,使用編譯過返回的 Regular Expression Object 或叫做 Pattern 對(duì)象來進(jìn)行查找。
例
s='111,222,aaa,bbb,ccc333,444ddd'
rule=r’/b/d+/b’
compiled_rule=re.compile(rule)
compiled_rule.findall(s)
['111', '222']
可見使用 compile 過的規(guī)則使用和未編譯的使用很相似。 compile 函數(shù)還可以指定一些規(guī)則標(biāo)志,來指定一些特殊選項(xiàng)。多個(gè)選項(xiàng)之間用 ’| ’ (位或)連接起來。
**I ** **IGNORECASE **忽略大小寫區(qū)別。
**L LOCAL **字符集本地化。這個(gè)功能是為了支持多語言版本的字符集使用環(huán)境的,比如在轉(zhuǎn)義符/w ,在英文環(huán)境下,它代表[a-zA-Z0-9] ,即所以英文字符和數(shù)字。如果在一個(gè)法語環(huán)境下使用,缺省設(shè)置下,不能匹配 "é" 或 "?" 。 加上這 L 選項(xiàng)和就可以匹配了。不過這個(gè)對(duì)于中文環(huán)境似乎沒有什么用,它仍然不能匹配中文字符。
**M MULTILINE **多行匹配。在這個(gè)模式下 ’^’( 代表字符串開頭 ) 和 ’$’( 代表字符串結(jié)尾 ) 將能夠匹配多行的情況,成為行首和行尾標(biāo)記。比如
s=’123 456/n789 012/n345 678’
rc=re.compile(r’^/d+’) # 匹配一個(gè)位于開頭的數(shù)字,沒有使用 M 選項(xiàng)
rc.findall(s)
['123'] # 結(jié)果只能找到位于第一個(gè)行首的 ’123’
rcm=re.compile(r’^/d+’,re.M) # 使用 M 選項(xiàng)
rcm.findall(s)
['123', '789', '345'] # 找到了三個(gè)行首的數(shù)字
同樣,對(duì)于 ’$’ 來說,沒有使用 M 選項(xiàng),它將匹配最后一個(gè)行尾的數(shù)字,即 ’678’ ,加上以后,就能匹配三個(gè)行尾的數(shù)字 456 012 和 678 了 .
rc=re.compile(r’/d+$’)
rcm=re.compile(r’/d+$’,re.M)
rc.findall(s)
['678']
rcm.findall(s)
['456', '012', '678']
**S DOTALL **‘.’ 號(hào)將匹配所有的字符。缺省情況下 ’.’ 匹配除換行符 ’/n’ 外的所有字符,使用這一選項(xiàng)以后, ’.’ 就能匹配包括 ’/n’ 的任何字符了。
**U ** **UNICODE **<tt>/w </tt>, <tt>/W </tt>, <tt>/b </tt>, <tt>/B </tt>, <tt>/d </tt>, <tt>/D </tt>, <tt>/s </tt>和 <tt>/S </tt><tt>都將使用Unicode 。</tt>
**X VERBOSE ** 這個(gè)選項(xiàng)忽略規(guī)則表達(dá)式中的空白,并允許使用 ’#’ 來引導(dǎo)一個(gè)注釋。這樣可以讓你把規(guī)則寫得更美觀些。比如你可以把規(guī)則
<pre>>>> rc
= re.compile(
r
"
/d+|[a-zA-Z]+
")
匹配一個(gè)數(shù)字或者單詞
</pre>
使用 X 選項(xiàng)寫成:
<pre>>>> rc
= re.compile(r"""
start a rule
</pre>
<pre>/d+
number
</pre>
<pre>|
[a-zA-Z]+
word
</pre>
<pre>""", re.VERBOSE)
</pre>
<pre>在這個(gè)模式下,如果你想匹配一個(gè)空格,你必須用'/ '
的形式('/'
后面跟一個(gè)空格)
</pre>
2.2 match ****與 search
match( rule , targetString [,flag] )
search( rule , targetString [,flag] )
(注: re 的 match 與 search 函數(shù)同 compile 過的 Pattern 對(duì)象的 match 與 search 函數(shù)的參數(shù)是不一樣的。 Pattern 對(duì)象的 match 與 search 函數(shù)更為強(qiáng)大,是真正最常用的函數(shù))
按照規(guī)則在目標(biāo)字符串中進(jìn)行匹配。
第一個(gè)參數(shù)是正則規(guī)則,第二個(gè)是目標(biāo)字符串,第三個(gè)是選項(xiàng)(同 compile 函數(shù)的選項(xiàng))
返回:若成功返回一個(gè) Match 對(duì)象,失敗無返回
findall 雖然很直觀,但是在進(jìn)行更復(fù)雜的操作時(shí),就有些力不從心了。此時(shí)更多的使用的是 match 和 search 函數(shù)。他們的參數(shù)和 findall 是一樣的,都是:
match( rule , targetString [,flag] )
search( rule , targetString [,flag] )
不過它們的返回不是一個(gè)簡單的字符串列表,而是一個(gè) MatchObject (如果匹配成功的話) . 。通過操作這個(gè) matchObject ,我們可以得到更多的信息。
需要注意的是,如果匹配不成功,它們則返回一個(gè) NoneType 。所以在對(duì)匹配完的結(jié)果進(jìn)行操作之前,你必需先判斷一下是否匹配成功了,比如:
m=re.match( rule , target )
if m: # 必需先判斷是否成功
doSomethin
這兩個(gè)函數(shù)唯一的區(qū)別是: match 從字符串的開頭開始匹配,如果開頭位置沒有匹配成功,就算失敗了;而 search 會(huì)跳過開頭,繼續(xù)向后尋找是否有匹配的字符串。針對(duì)不同的需要,可以靈活使用這兩個(gè)函數(shù)。
關(guān)于 match 返回的 MatchObject 如果使用的問題,是 Python 正則式的精髓所在,它與組的使用密切相關(guān)。我將在下一部分詳細(xì)講解,這里只舉個(gè)最簡單的例子:
例:
s= 'Tom:9527 , Sharry:0003'
m=re.match( r'(?P<name>/w+):(?P<num>/d+)' , s )
m.group()
'Tom:9527'
m.groups()
('Tom', '9527')
m.group(‘name’)
'Tom'
m.group(‘num’)
'9527'
2.3 finditer
finditer( rule , target [,flag] )
參數(shù)同 findall
返回一個(gè)迭代器
finditer 函數(shù)和 findall 函數(shù)的區(qū)別是, findall 返回所有匹配的字符串,并存為一個(gè)列表,而 finditer 則并不直接返回這些字符串,而是返回一個(gè)迭代器。關(guān)于迭代器,解釋起來有點(diǎn)復(fù)雜,還是看看例子把:
s=’111 222 333 444’
for i in re.finditer(r’/d+’ , s ):
print i.group(),i.span() # 打印每次得到的字符串和起始結(jié)束位置
結(jié)果是
111 (0, 3)
222 (4, 7)
333 (8, 11)
444 (12, 15)
簡單的說吧,就是 finditer 返回了一個(gè)可調(diào)用的對(duì)象,使用 for i in finditer() 的形式,可以一個(gè)一個(gè)的得到匹配返回的 Match 對(duì)象。這在對(duì)每次返回的對(duì)象進(jìn)行比較復(fù)雜的操作時(shí)比較有用。
2.4 ****字符串的替換和修改
re 模塊還提供了對(duì)字符串的替換和修改函數(shù),他們比字符串對(duì)象提供的函數(shù)功能要強(qiáng)大一些。這幾個(gè)函數(shù)是
sub ( rule , replace , target [,count] )
subn(rule , replace , target [,count] )
在目標(biāo)字符串中規(guī)格規(guī)則查找匹配的字符串,再把它們替換成指定的字符串。你可以指定一個(gè)最多替換次數(shù),否則將替換所有的匹配到的字符串。
第一個(gè)參數(shù)是正則規(guī)則,第二個(gè)參數(shù)是指定的用來替換的字符串,第三個(gè)參數(shù)是目標(biāo)字符串,第四個(gè)參數(shù)是最多替換次數(shù)。
這兩個(gè)函數(shù)的唯一區(qū)別是返回值。
sub 返回一個(gè)被替換的字符串
sub 返回一個(gè)元組,第一個(gè)元素是被替換的字符串,第二個(gè)元素是一個(gè)數(shù)字,表明產(chǎn)生了多少次替換。
例,將下面字符串中的 ’dog’ 全部替換成 ’cat’
s=’ I have a dog , you have a dog , he have a dog ‘
re.sub( r’dog’ , ‘cat’ , s )
' I have a cat , you have a cat , he have a cat '
如果我們只想替換前面兩個(gè),則
re.sub( r’dog’ , ‘cat’ , s , 2 )
' I have a cat , you have a cat , he have a dog '
或者我們想知道發(fā)生了多少次替換,則可以使用 subn
re.subn( r’dog’ , ‘cat’ , s )
(' I have a cat , you have a cat , he have a cat ', 3)
split( rule , target [,maxsplit] )
切片函數(shù)。使用指定的正則規(guī)則在目標(biāo)字符串中查找匹配的字符串,用它們作為分界,把字符串切片。
第一個(gè)參數(shù)是正則規(guī)則,第二個(gè)參數(shù)是目標(biāo)字符串,第三個(gè)參數(shù)是最多切片次數(shù)
返回一個(gè)被切完的子字符串的列表
這個(gè)函數(shù)和 str 對(duì)象提供的 split 函數(shù)很相似。舉個(gè)例子,我們想把上例中的字符串被 ’,’ 分割開,同時(shí)要去掉逗號(hào)前后的空格
s=’ I have a dog , you have a dog , he have a dog ‘
re.split( ‘/s,/s’ , s )
[' I have a dog', 'you have a dog', 'he have a dog ']
結(jié)果很好。如果使用 str 對(duì)象的 split 函數(shù),則由于我們不知道 ’,’ 兩邊會(huì)有多少個(gè)空格,而不得不對(duì)結(jié)果再進(jìn)行一次處理。
escape( string )
這是個(gè)功能比較古怪的函數(shù),它的作用是將字符串中的 non-alphanumerics 字符(我已不知道該怎么翻譯比較好了)用反義字符的形式顯示出來。有時(shí)候你可能希望在正則式中匹配一個(gè)字符串,不過里面含有很多 re 使用的符號(hào),你要一個(gè)一個(gè)的修改寫法實(shí)在有點(diǎn)麻煩,你可以使用這個(gè)函數(shù) ,
例 在目標(biāo)字符串 s 中匹配 ’(*+?)’ 這個(gè)子字符串
s= ‘111 222 (*+?) 333’
rule= re.escape( r’(*+?)’ )
print rule
/(/*/+/?/)
re.findall( rule , s )
['(*+?)']
3 更深入的了解 ****re ****的組與對(duì)象
前面對(duì) Python 正則式的組進(jìn)行了一些簡單的介紹,由于還沒有介紹到 match 對(duì)象,而組又是和 match 對(duì)象密切相關(guān)的,所以必須將它們結(jié)合起來介紹才能充分地說明它們的用途。
不過再詳細(xì)介紹它們之前,我覺得有必要先介紹一下將規(guī)則編譯后的生成的 patter 對(duì)象
3.1 ****編譯后的 ****Pattern ****對(duì)象
將一個(gè)正則式,使用 compile 函數(shù)編譯,不僅是為了提高匹配的速度,同時(shí)還能使用一些附加的功能。編譯后的結(jié)果生成一個(gè) Pattern 對(duì)象,這個(gè)對(duì)象里面有很多函數(shù),他們看起來和 re 模塊的函數(shù)非常象,它同樣有 findall , match , search ,finditer , sub , subn , split 這些函數(shù),只不過它們的參數(shù)有些小小的不同。一般說來, re 模塊函數(shù)的第一個(gè)參數(shù),即正則規(guī)則不再需要了,應(yīng)為規(guī)則就包含在 Pattern 對(duì)象中了,編譯選項(xiàng)也不再需要了,因?yàn)橐呀?jīng)被編譯過了。因此 re 模塊中函數(shù)的這兩個(gè)參數(shù)的位置,就被后面的參數(shù)取代了。
findall , match , search 和 finditer 這幾個(gè)函數(shù)的參數(shù)是一樣的,除了少了規(guī)則和選項(xiàng)兩個(gè)參數(shù)外,它們又加入了另外兩個(gè)參數(shù),它們是:查找開始位置和查找結(jié)束位置,也就是說,現(xiàn)在你可以指定查找的區(qū)間,除去你不感興趣的區(qū)間。它們現(xiàn)在的參數(shù)形式是:
findall ( targetString [, startPos [,endPos] ] )
finditer ( targetString [, startPos [,endPos] ] )
match ( targetString [, startPos [,endPos] ] )
search ( targetString [, startPos [,endPos] ] )
這些函數(shù)的使用和 re 模塊的同名函數(shù)使用完全一樣。所以就不多介紹了。
除了和 re 模塊的函數(shù)同樣的函數(shù)外, Pattern 對(duì)象還多了些東西,它們是:
flags ****查詢編譯時(shí)的選項(xiàng)
pattern ****查詢編譯時(shí)的規(guī)則
groupindex ****規(guī)則里的組
這幾個(gè)不是函數(shù),而是一個(gè)值。它們提供你一些規(guī)則的信息。比如下面這個(gè)例子
p=re.compile( r'(?P<word>/b[a-z]+/b)|(?P<num>/b/d+/b)|(?P<id>/b[a-z_]+/w*/b)' , re.I )
p.flags
2
p.pattern
'(?P<word>//b[a-z]+//b)|(?P<num>//b//d+//b)|(?P<id>//b[a-z_]+//w*//b)'
p.groupindex
{'num': 2, 'word': 1, 'id': 3}
我們來分析一下這個(gè)例子:這個(gè)正則式是匹配單詞、或數(shù)字、或一個(gè)由字母或 ’_’ 開頭,后面接字母或數(shù)字的一個(gè) ID 。我們給這三種情況的規(guī)則都包入了一個(gè)命名組,分別命名為 ’word’ , ‘num’ 和 ‘id’ 。我們規(guī)定大小寫不敏感,所以使用了編譯選項(xiàng) ‘I’ 。
編譯以后返回的對(duì)象為 p ,通過 p.flag 我們可以查看編譯時(shí)的選項(xiàng),不過它顯示的不是 ’I’ ,而是一個(gè)數(shù)值 2 。其實(shí) re.I 是一個(gè)整數(shù), 2 就是它的值。我們可以查看一下:
re.I
2
re.L
4
re.M
8
…
每個(gè)選項(xiàng)都是一個(gè)數(shù)值。
通過 p.pattern 可以查看被編譯的規(guī)則是什么。使用 print 的話會(huì)更好看一些
print p.pattern
(?P<word>/b[a-z]+/b)|(?P<num>/b/d+/b)|(?P<id>/b[a-z_]+/w*/b)
看,和我們輸入的一樣。
接下來的 p.groupindex 則是一個(gè)字典,它包含了規(guī)則中的所有命名組。字典的 key 是名字, values 是組的序號(hào)。由于字典是以名字作為 key ,所以一個(gè)無命名的組不會(huì)出現(xiàn)在這里。
3.2 ****組與 Match ****對(duì)象
組與 Match 對(duì)象是 Python 正則式的重點(diǎn)。只有掌握了組和 Match 對(duì)象的使用,才算是真正學(xué)會(huì)了 Python 正則式。
3.2.1 ****組的名字與序號(hào)
正則式中的每個(gè)組都有一個(gè)序號(hào),它是按定義時(shí)從左到右的順序從 1 開始編號(hào)的。其實(shí), re 的正則式還有一個(gè) 0 號(hào)組,它就是整個(gè)正則式本身。
我們來看個(gè)例子
p=re.compile( r’(?P<name>[a-z]+)/s+(?P<age>/d+)/s+(?P<tel>/d+).*’ , re.I )
p.groupindex
{'age': 2, 'tel': 3, 'name': 1}
s=’Tom 24 88888888 <=’
m=p.search(s)
m.groups() # 看看匹配的各組的情況
('Tom', '24', '8888888')
m.group(‘name’) # 使用組名獲取匹配的字符串
‘Tom’
m.group( 1 ) # 使用組序號(hào)獲取匹配的字符串,同使用組名的效果一樣
m.group(0) # 0 組里面是什么呢?
'Tom 24 88888888 <='
原來 0 組就是整個(gè)正則式 , 包括沒有被包圍到組里面的內(nèi)容。當(dāng)獲取 0 組的時(shí)候,你可以不寫這個(gè)參數(shù)。 m.group(0) 和 m.group() 的效果是一樣的:
m.group()
'Tom 24 88888888 <='
接下來看看更多的 Match 對(duì)象的方法,看看我們能做些什么。
3.2.2 ****Match ****對(duì)象的方法
**group([index|id]) **獲取匹配的組,缺省返回組 0, 也就是全部值
**groups() ** 返回全部的組
**groupdict() ** 返回以組名為 key ,匹配的內(nèi)容為 values 的字典
接上例:
m.groupindex()
{'age': '24', 'tel': '88888888', 'name': 'Tom'}
**start( [group] ) **獲取匹配的組的開始位置
**end( [group] ) **獲取匹配的組的結(jié)束位置
**span( [group] ) **獲取匹配的組的(開始,結(jié)束)位置
**expand( template ) **根據(jù)一個(gè)模版用找到的內(nèi)容替換模版里的相應(yīng)位置
這個(gè)功能比較有趣,它根據(jù)一個(gè)模版來用匹配到的內(nèi)容替換模版中的相應(yīng)位置,組成一個(gè)新的字符串返回。它使用 /g<index|name> 或 /index 來指示一個(gè)組。
接上例
m.expand(r'name is /g<1> , age is /g<age> , tel is /3')
'name is Tom , age is 24 , tel is 88888888'
除了以上這些函數(shù)外, Match 對(duì)象還有些屬性
**pos ** 搜索開始的位置參數(shù)
**endpos ** 搜索結(jié)束的位置參數(shù)
這兩個(gè)是使用 findall 或 match 等函數(shù)時(shí),傳入的參數(shù)。在上面這個(gè)例子里,我們沒有指定開始和結(jié)束位置,那么缺省的開始位置就是 0, 結(jié)束位置就是最后。
m.pos
0
m.endpos
19
<tt>**lastindex **</tt><tt>最后匹配的組的序號(hào)</tt>
<tt>>>> m.lastindex</tt>
<tt>3</tt>
**lastgroup **最后匹配的組名
m.lastgroup
'tel'
**re ** 產(chǎn)生這個(gè)匹配的 Pattern 對(duì)象,可以認(rèn)為是個(gè)逆引用
m.re.pattern
'(?P<name>[a-z]+)//s+(?P<age>//d+)//s+(?P<tel>//d+).*'
得到了產(chǎn)生這個(gè)匹配的規(guī)則
<tt>**string **</tt><tt>匹配的目標(biāo)字符串</tt>
<tt>>>> m.string</tt>
'Tom 24 88888888 <='