Python正則表達式

在編寫處理網頁文本的程序時,經常會有查找符合某些復雜規則的字符串的需要,正則表達式就是描述這些規則的工具。

基本語法和使用

1.常用元字符

元字符 含義
. 匹配除換行符以外的任意字符
\b 匹配單詞的開始或結束
\d 匹配數字
\w 匹配字母、數字、下劃線或漢字
\s 匹配任意空白符,包括空格、制表符、換行符、中文全角空格等
^ 匹配字符串的開始
$ 匹配字符串的結束

2.字符轉義

使用’\’作為轉義字符。

3.重復

限定符 含義
* 重復0次或更多次
+ 重復1次或更多次
? 重復0次或者1次
{n} 重復n次
{n,} 重復n次或更多次
{n,m} 重復n到m次

4.字符集合

  • [0-9]與\d等價
  • [a-z0-9A-Z]與\w等價

5.分支條件

例:電話號碼中有一種是3位區號,8位本地號(010-11223344),另一種是4位區號,7位本地號(0321-1234567);這時需要用到分支條件:0\d{2}-\d{8} | 0\d{3}-\d{7} 從左到右依次匹配,前面的條件滿足了就不看后面的了,條件之間是一種或的關系。

6.分組

例:匹配192.168.1.1這樣的IP地址。
((\d{1,3})\.){3}\d{1,3}。但是這樣有可能出現333.444.555.666這樣的IP地址所以是不合理的。
以下才是合理的表示方式。
((25[0-5] | 2[0-4]\d[0-1]\d{2} | [1-9]?\d)\.){3}((25[0-5] | 2[0-4]\d[0-1]\d{2} | [1-9]?\d)\.)

7.反義

代碼 含義
\W 匹配任意不是字母、數字、下劃線、漢字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非數字的字符
\B 匹配不是單詞開頭或結束的位置
[^a] 匹配除了a以外的任意字符
[^abcde] 匹配除了a、b、c、d、e這幾個字母以外的任意字符
[^(123 !abc)] 匹配除了a、b、c和1、2、3這幾個字符以外的任意字符

8.后向引用

9.零寬斷言

10.注釋

(?#comment)
例如:\b\w+(?#字符串)\b

11.貪婪與懶惰

12.處理選項

python與正則

1.re.match(pattern,string[,flags])

代碼:

import re
# 將正則表達式編譯成pattern對象
pattern = re.compile(r'\d+')
# 使用re.match匹配文本,獲得匹配結果,無法匹配時將返回None
result1 = re.match(pattern,'192abc')

if result1:
  print(result1.group())
else:
  print('匹配失敗1')
result2 = re.match(pattern,'abc192')
print(result2)
if result2:
  print(result2.group())
else:
  print('匹配失敗2')

運行結果:

192
None
匹配失敗2

2.re.search(pattern,string[,flags])

代碼:

import re
# 將正則表達式編譯成pattern對象
pattern = re.compile(r'dogs')
# 使用re.match匹配文本,獲得匹配結果,無法匹配時將返回None
result1 = re.match(pattern,'Cats are smarter than dogs')
if result1:
  print(result1.group())
else:
  print('匹配失敗1')
# 使用re.search匹配文本,獲得匹配結果,無法匹配時將返回None
result2 = re.search(pattern,'Cats are smarter than dogs')
if result2:
  print(result2.group())
else:
  print('匹配失敗2')

運行結果:

匹配失敗1
dogs

3.re.findall(pattern,string[,flags])

代碼:

import re
pattern = re.compile(r'\d+')
print(re.findall(pattern,'A1B2C3D4'))

運行結果:

[‘1’, ‘2’, ‘3’, ‘4’]

4.re.finditer(pattern,string[,flags])

代碼:

import re
pattern = re.compile(r'\d+')
matchiter = re.finditer(pattern,'A1B2C3D4')
for match in matchiter:
  print(match.group())

運行結果:

1
2
3
4

5.re.sub(patter,repl,string[,count])

代碼:

import re
pattern = re.compile(r'(?P<word1>\w+) (?P<word2>\w+)') # 使用名稱引用
s = 'i say,hello world!'
print(pattern.sub(r'\g<word2> \g<word1>',s))
pattern = re.compile(r'(\w+) (\w+)')

print(pattern.sub(r'\2 \1',s))    # 使用編號
def func(m):
  return m.group(1).title()+' '+m.group(2).title()

print(pattern.sub(func,s))

運行結果:

say i,world hello!
say i,world hello!
I Say,Hello World!

6.re.subn(pattern,repl,string[,count])

代碼:

import re
s = 'i say,hello world!'
pattern = re.compile(r'(\w+) (\w+)')
print(pattern.subn(r'\2 \1',s))
def func(m):
  return m.group(1).title()+' '+m.group(2).title()
print(pattern.subn(func,s))

運行結果:

(‘say i,world hello!’, 2)
(‘I Say,Hello World!’, 2)

7.re.split(pattern,string[,maxsplit])

代碼:

import re
pattern = re.compile(r'\d+')
print(re.split(pattern,'A1B2C3D4'))

運行結果:

[‘A’, ‘B’, ‘C’, ‘D’, ‘’]

Match對象的屬性和方法

代碼:

import re
pattern = re.compile(r'(\w+) (\w+) (?P<word>.*)')
match = pattern.match('I love you!')

print("match.string:",match.string)
print("match.re:",match.re)
print("match.pos:",match.pos)
print("match.endpos:",match.endpos)
print("match.lastindex:",match.lastindex)
print("match.lastgroup:",match.lastgroup)
print("match.group(1,2):",match.group(1,2))
print("match.groups():",match.groups())
print("match.groupdict():",match.groupdict())
print("match.start(2):",match.start(2))
print("match.end(2):",match.end(2))
print("match.span(2):",match.span(2))
print("match.expand(r'\\2 \\1 \\3'):",match.expand(r'\2 \1 \3'))

運行結果:

match.string: I love you!
match.re: re.compile(‘(\w+) (\w+) (?P<word style="box-sizing: border-box;">.*)’)
match.pos: 0
match.endpos: 11
match.lastindex: 3
match.lastgroup: word
match.group(1,2): (‘I’, ‘love’)
match.groups(): (‘I’, ‘love’, ‘you!’)
match.groupdict(): {‘word’: ‘you!’}
match.start(2): 2
match.end(2): 6
match.span(2): (2, 6)
match.expand(r’\2 \1 \3’): love I you!</word>

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,048評論 6 542
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,414評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,169評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,722評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,465評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,823評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,813評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,000評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,554評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,295評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,513評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,035評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,722評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,125評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,430評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,237評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,482評論 2 379