正則表達式模塊
import re
匹配流程
regex = re.compile(r'正則表達式')#返回Regex對象
result = regex.search(str)#如果str中找到則返回Match對象,否則返回None
result.group()#返回首個匹配到的字符串。如果要全部匹配,調用findall()方法
正則表達式的寫法
()
表示分組。
例如:(\d\d\d)-(\d\d\d),在結果中可以通過group(1),group(2)取出兩個分組匹配到的字符串。
group(0)返回的是整個匹配到的字符串。
groups()返回的是所有分組組成的元組
|
管道分配符,幾個值中取其一。
例如:d(a|b|c)
可以匹配da、db、dc
?
()?表示前面的分組可以存在,即出現0次或1次
*
()*表示前面的分組可以出現0次或多次
+
()+表示前面的分組至少出現一次,即1次或多次
{}
(){i}表示前面的分組出現i次
(){m,n}表示前面的分組出現m次到n次
省略m表示0次到n次
省略n表示至少m次
貪心匹配和非貪心匹配
當多個字符串和正則表達式匹配時,會自動選擇最長的那一個,如果想選最短的,可以在代表次數的符號后面加?
findall()方法
如果正則表達式分組了,則返回元組列表。
如果正則表達式沒有分組,則返回字符串列表。
\d,\D,\w,\W,\s,\S
\d:0-9
\D:0-9以外字符
\w:字母,數字,下劃線
\W:字母,數字,下劃線以外字符
\s:空格、制表符、換行符
\S:空格、制表符、換行符以外字符
自定義字符分類
[aeiou]:auioe中的一個
-:表示范圍。例如[a-zA-Z0-9]
[^aeiou]:字符取反,aeiou以外字符
方括號內的字符不需要轉義
^,$
^:表示從匹配的字符串開始處匹配
$:表示匹配到匹配字符串的結尾
.,.*,.*?
.:表示換行以外所有單個字符
.*:表示換行以外多個字符
.*?:多個字符采取非貪心匹配
re.compile(regex, arg)
arg可以采用re.I/re.IGNORECASE,re.DOTALL,re.VERBOSE等,或采用多個|連接一起傳入。
re.I/re.IGNORECASE:字母不區分大小寫
re.DOTALL:使.包含換行符
re.VERBOSE:忽略正則表達式中的換行和注釋
Regex.sub()
sub(str1, str2)用str1去取代str2中滿足正則表達式的字符串
str1:取代的字符串
str2:匹配的字符串
str1可以采用\1,\2等去獲得匹配到的字符串的第1、第2或其他的分組內容