正則表達式

正則表達式模塊

import re

匹配流程
regex = re.compile(r'正則表達式')#返回Regex對象
result = regex.search(str)#如果str中找到則返回Match對象,否則返回None
result.group()#返回首個匹配到的字符串。如果要全部匹配,調用findall()方法
正則表達式的寫法
()

表示分組。
例如:(\d\d\d)-(\d\d\d),在結果中可以通過group(1),group(2)取出兩個分組匹配到的字符串。
group(0)返回的是整個匹配到的字符串。
groups()返回的是所有分組組成的元組

|

管道分配符,幾個值中取其一。
例如:d(a|b|c)
可以匹配da、db、dc

()?表示前面的分組可以存在,即出現0次或1次

*

()*表示前面的分組可以出現0次或多次

+

()+表示前面的分組至少出現一次,即1次或多次

{}

(){i}表示前面的分組出現i次
(){m,n}表示前面的分組出現m次到n次
省略m表示0次到n次
省略n表示至少m次

貪心匹配和非貪心匹配

當多個字符串和正則表達式匹配時,會自動選擇最長的那一個,如果想選最短的,可以在代表次數的符號后面加?

findall()方法

如果正則表達式分組了,則返回元組列表。
如果正則表達式沒有分組,則返回字符串列表。

\d,\D,\w,\W,\s,\S

\d:0-9
\D:0-9以外字符
\w:字母,數字,下劃線
\W:字母,數字,下劃線以外字符
\s:空格、制表符、換行符
\S:空格、制表符、換行符以外字符

自定義字符分類

[aeiou]:auioe中的一個
-:表示范圍。例如[a-zA-Z0-9]
[^aeiou]:字符取反,aeiou以外字符
方括號內的字符不需要轉義

^,$

^:表示從匹配的字符串開始處匹配
$:表示匹配到匹配字符串的結尾

.,.*,.*?

.:表示換行以外所有單個字符
.*:表示換行以外多個字符
.*?:多個字符采取非貪心匹配

re.compile(regex, arg)

arg可以采用re.I/re.IGNORECASE,re.DOTALL,re.VERBOSE等,或采用多個|連接一起傳入。
re.I/re.IGNORECASE:字母不區分大小寫
re.DOTALL:使.包含換行符
re.VERBOSE:忽略正則表達式中的換行和注釋

Regex.sub()

sub(str1, str2)用str1去取代str2中滿足正則表達式的字符串
str1:取代的字符串
str2:匹配的字符串
str1可以采用\1,\2等去獲得匹配到的字符串的第1、第2或其他的分組內容

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容