正則表達式

1.正則表達式概述

  • 正則表達式,又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE),是計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規則的字符串。在很多文本編輯器里,正則表達式通常被用來檢索、替換那些匹配某個模式的文本。

  • Regular Expression的“Regular”一般被譯為“正則”、“正規”、“常規”。此處的“Regular”即是“規則”、“規律”的意思,Regular Expression即“描述某種規則的表達式”之意。

  • Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先使用re.compile()函數,將正則表達式的字符串形式編譯為Pattern實例,然后使用Pattern實例處理文本并獲得匹配結果(一個Match實例),最后使用Match實例獲得信息,進行其他的操作。

2.re模塊操作

在Python中需要通過正則表達式對字符串進行匹配的時候,可以使用一個模塊,名字為re

1.re模塊的使用過程

#coding=utf-8

    # 導入re模塊
    import re

    # 使用match方法進行匹配操作
    result = re.match(正則表達式,要匹配的字符串)

    # 如果上一步匹配到數據的話,可以使用group方法來提取數據
    result.group()

re.match是用來進行正則匹配檢查的方法,若字符串匹配正則表達式,則match方法返回匹配對象(Match Object),否則返回None(注意不是空字符串"")。
匹配對象Macth Object具有group方法,用來返回字符串的匹配部分。

2.re模塊示例

#coding=utf-8

import re
result = re.match("taobao","taobao.com")
result.group()

運行結果:

'taobao'
  • re.match() 能夠匹配出以xxx開頭的字符串

3.表示字符

**匹配中文字符的正則表達式: ** [\u4e00-\u9fa5]


單字符匹配

匹配分組
表示邊界
表示數量

正則表達式中的特殊用法

使用分組的同時,會有一些特殊的使用方式如下:

表達式 描述
(?:expression) 作為正則表達式的一部分,但是匹配結果丟棄
(?=expression) 匹配expression表達式前面的字符,如 "How are you doing" ,正則"(?<txt>.+(?=ing))" 這里取ing前所有的字符,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為"How are you do"
(?<=expression) 匹配expression表達式后面的字符,如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這里取"How"之后所有的字符,并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為" are you doing";
(?!expression) 匹配字符串后面不是expression表達式字符,如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數字后非數字的結果
(?<!expression) 匹配字符串前面不是expression表達式字符,如 "abc123 " 正則 (?<![0-9])123" 匹配"123"前面是非數字的結果也可寫成"(?!<\d)123"

舉例:(直接在Python3.5中演示)

表示字符

  • . 匹配任意1個字符(除了\n) [ ]匹配[ ]中列舉的字符 \匹配數字,即0-9
re.match(".","a")
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match(".","abc")
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match("h","hello Python")
<_sre.SRE_Match object; span=(0, 1), match='h'>

re.match("[hH]","Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='H'>

re.match("[0123456789]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("[0-9]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("嫦娥2號","嫦娥2號發射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>

re.match("嫦娥\d號","嫦娥2號發射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>
  • \w 匹配單詞字符,即a-z、A-Z、0-9、_和各國語言
re.match('\w','abc')
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match('[\u4e00-\u9fa5]','人生苦短,我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>

re.match('\w','人生苦短,我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>

re.match('\w','人生苦短,我用python',re.ASCII)
None

注意: \w 如果只是想匹配字母數字下劃線,可以加上re.ASCII

re.match(r"c:\\a","c:\\a\\b\\c")
<_sre.SRE_Match object; span=(0, 4), match='c:\\a'>

ret = re.match(r"c:\\a","c:\\a\\b\\c").group()
print(ret)
c:\a

說明:

  • Python中字符串前面加上 r 表示原生字符串,
  • 與大多數編程語言相同,正則表達式里使用""作為轉義字符,這就可能造成反斜杠困擾。假如你需要匹配文本中的字符"",那么使用編程語言表示的正則表達式里將需要4個反斜杠"\":前兩個和后兩個分別用于在編程語言里轉義成反斜杠,轉換成兩個反斜杠后再在正則表達式里轉義成一個反斜杠。
  • Python里的原生字符串很好地解決了這個問題,有了原始字符串,我們也不用擔心是不是漏寫了反斜杠,寫出來的表達式也更直觀。

表示數量

  • * 匹配前一個字符出現0次或者無限次,即可有可無
    + 匹配前一個字符出現1次或者無限次,即至少有1次
re.match("[A-Z][a-z]*","Mm")
<_sre.SRE_Match object; span=(0, 2), match='Mm'>

re.match("[A-Z][a-z]*","Aabcdef")
<_sre.SRE_Match object; span=(0, 7), match='Aabcdef'>

re.match("[a-zA-Z_]+[\w_]*","name1")
<_sre.SRE_Match object; span=(0, 5), match='name1'>

re.match("[a-zA-Z_]+[\w_]*","_name")
<_sre.SRE_Match object; span=(0, 5), match='_name'>

re.match("[a-zA-Z_]+[\w_]*","2_name")
None
  • ? 匹配前一個字符出現1次或者0次,即要么有1次,要么沒有
    {m} 匹配前一個字符出現m次
    {m,}匹配前一個字符至少出現m次
    {m,n} 匹配前一個字符出現在m-n次范圍都可以
re.match("[1-9]?[0-9]","7")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("[1-9]?[0-9]","33")
<_sre.SRE_Match object; span=(0, 2), match='33'>

re.match("[1-9]?[0-9]","09")
<_sre.SRE_Match object; span=(0, 1), match='0'>

re.match("[a-zA-Z0-9_]{6}","12a3g45678")
<_sre.SRE_Match object; span=(0, 6), match='12a3g4'>

re.match("[a-zA-Z0-9_]{6,}","12a3g45678")
<_sre.SRE_Match object; span=(0, 10), match='12a3g45678'>


re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66")
<_sre.SRE_Match object; span=(0, 18), match='1ad12f23s34455ff66'>

表示邊界

  • $ 匹配字符串結尾
re.match("[\w]{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 15), match='ererBai@163.com'>

#結尾仍不符合要求,但卻沒過濾掉
re.match("[\w]{4,20}@163\.com", "erBai@163.comheihei")
<_sre.SRE_Match object; span=(0, 13), match='erBai@163.com'>

# 通過$來確定末尾
re.match("[\w]{4,20}@163\.com$", "ererBai@163.comheihei")
None
  • \b 匹配一個單詞的邊界
re.match(r".*\bver\b", "ho ver abc")
<_sre.SRE_Match object; span=(0, 6), match='ho ver'>

#報錯
re.match(r".*\bver\b", "ho verabc").group()
Traceback (most recent call last):
  File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

#報錯
re.match(r".*\bver\b", "hover abc").group()
Traceback (most recent call last):
  File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
  • \B 匹配非單詞邊界
re.match(r".*\Bver\B", "hoverabc")
<_sre.SRE_Match object; span=(0, 5), match='hover'>

re.match(r".*\Bver\B", "ho verabc")
None

re.match(r".*\Bver\B", "hover abc")
None

re.match(r".*\Bver\B", "ho ver abc")
None

匹配分組

  • | 匹配左右任意一個表達式
#匹配出0-100之間的數字
re.match("[1-9]?\d","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>

#得到的結果是0,不符合我們的需求
re.match("[1-9]?\d","08")
<_sre.SRE_Match object; span=(0, 1), match='0'>
#所以我們應該加$
re.match("[1-9]?\d$","08")
None

re.match("[1-9]?\d$|100","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>

re.match("[1-9]?\d$|100","100")
<_sre.SRE_Match object; span=(0, 3), match='100'>

re.match("[1-9]?\d$|100","78")
<_sre.SRE_Match object; span=(0, 2), match='78'>
  • ( ) 將括號中字符作為一個分組
#匹配出163、126、qq郵箱之間的數字
re.match("\w{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@163.com'>

re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@qq.com")
<_sre.SRE_Match object; span=(0, 11), match='ererBai@qq.com'>

re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@126.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@126.com'>

e.match("\w{4,20}@(163|126|qq)\.com", "ererBai@gmail.com")
None
  • \num 引用分組num匹配到的字符串
# 能夠完成對正確的字符串的匹配
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>

# 如果遇到非正常的html格式字符串,匹配出錯
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</htmlbalabala>")
<_sre.SRE_Match object; span=(0, 23), match='<html>hh</htmlbalabala>'>

# 通過引用分組中匹配到的數據即可,但是要注意是元字符串,即類似 r""這種格式
re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>

# 因為2對<>中的數據不一致,所以沒有匹配出來
 re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</htmlbalabala>")
None
  • \number 引用分組num匹配到的字符串
#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 36), match='<html><h1>taobao.com</h1></html>'>

re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h2></html>")
None
  • (?P<name>) (?P=name) 引用別名為name分組分配到的字符串
#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 32), match='<html><h1>taobao.com</h1></html>'>

re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h2></html>")
None
注意:(?P<name>)和(?P=name)中的字母p大寫

附:常用表達式

  • 校驗數字的表達式
1 數字:^[0-9]*$ 

2 n位的數字:^\d{n}$

3 至少n位的數字:^\d{n,}$ 

4 m-n位的數字:^\d{m,n}$ 

5 零和非零開頭的數字:^(0|[1-9][0-9]*)$ 

6 非零開頭的最多帶兩位小數的數字:^([1-9][0-9]*)+(.[0-9]{1,2})?$ 

7 帶1-2位小數的正數或負數:^(\-)?\d+(\.\d{1,2})?$ 

8 正數、負數、和小數:^(\-|\+)?\d+(\.\d+)?$ 

9 有兩位小數的正實數:^[0-9]+(.[0-9]{2})?$

10 有1~3位小數的正實數:^[0-9]+(.[0-9]{1,3})?$

11 非零的正整數:^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

12 非零的負整數:^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

13 非負整數:^\d+$ 或 ^[1-9]\d*|0$

14 非正整數:^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

15 非負浮點數:^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

16 非正浮點數:^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

17 正浮點數:^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

18 負浮點數:^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

19 浮點數:^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
  • 校驗字符的表達式
1 漢字:^[\u4e00-\u9fa5]{0,}$ 

2 英文和數字:^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$ 

3 長度為3-20的所有字符:^.{3,20}$ 

4 由26個英文字母組成的字符串:^[A-Za-z]+$ 

5 由26個大寫英文字母組成的字符串:^[A-Z]+$ 

6 由26個小寫英文字母組成的字符串:^[a-z]+$ 

7 由數字和26個英文字母組成的字符串:^[A-Za-z0-9]+$ 

8 由數字、26個英文字母或者下劃線組成的字符串:^\w+$ 或 ^\w{3,20}$ 

9 中文、英文、數字包括下劃線:^[\u4E00-\u9FA5A-Za-z0-9_]+$

10 中文、英文、數字但不包括下劃線等符號:^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11 可以輸入含有^%&',;=?$\"等字符:[^%&',;=?$\x22]+

12 禁止輸入含有~的字符:[^~\x22]+
  • 特殊需求表達式
1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ 

2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.? 

3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ 

4 手機號碼:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ 

5 電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$  

6 國內電話號碼(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7} 

7 身份證號(15位、18位數字):^\d{15}|\d{18}$ 

8 短身份證號碼(數字、字母x結尾):^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$ 

9 帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線):^[a-zA-Z][a-zA-Z0-9_]{4,15}$

10 密碼(以字母開頭,長度在6~18之間,只能包含字母、數字和下劃線):^[a-zA-Z]\w{5,17}$

11 強密碼(必須包含大小寫字母和數字的組合,不能使用特殊字符,長度在8-10之間):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

12 日期格式:^\d{4}-\d{1,2}-\d{1,2}

13 一年的12個月(01~09和1~12):^(0?[1-9]|1[0-2])$

14 一個月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$

15 錢的輸入格式:

 1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000":^[1-9][0-9]*$

 2.這表示任意一個不以0開頭的數字,但是,這也意味著一個字符"0"不通過,所以我們采用下面的形式:^(0|[1-9][0-9]*)$

 3.一個0或者一個不以0開頭的數字.我們還可以允許開頭有一個負號:^(0|-?[1-9][0-9]*)$

 4.這表示一個0或者一個可能為負的開頭不為0的數字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數部分:^[0-9]+(.[0-9]+)?$

 5.必須說明的是,小數點后面至少應該有1位數,所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的:^[0-9]+(.[0-9]{2})?$

 6.這樣我們規定小數點后面必須有兩位,如果你認為太苛刻了,可以這樣:^[0-9]+(.[0-9]{1,2})?$

 7.這樣就允許用戶只寫一位小數.下面我們該考慮數字中的逗號了,我們可以這樣:^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

 8.1到3個數字,后面跟著任意個 逗號+3個數字,逗號成為可選,而不是必須:^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

- 備注:這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數時去掉去掉那個反斜杠,一般的錯誤都在這里

16 xml文件:^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

17 中文字符的正則表達式:[\u4e00-\u9fa5]

18 雙字節字符:[^\x00-\xff] (包括漢字在內,可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1))

19 空白行的正則表達式:\n\s*\r (可以用來刪除空白行)

20 HTML標記的正則表達式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (網上流傳的版本太糟糕,上面這個也僅僅能部分,對于復雜的嵌套標記依舊無能為力)

21 首尾空白字符的正則表達式:^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式)

22 騰訊QQ號:[1-9][0-9]{4,} (騰訊QQ號從10000開始)

23 中國郵政編碼:[1-9]\d{5}(?!\d) (中國郵政編碼為6位數字) 33 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址時有用) 34 IP地址:((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)) 

4.re模塊的高級用法

1.search

re.search(r"\d+", "閱讀次數為 9999")
<_sre.SRE_Match object; span=(6, 10), match='9999'>

2.findall

#統計出python、c、c++相應文章閱讀的次數
re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
['9999', '7890', '12345']

3.sub將匹配到的數據進行替換

#方法一
re.sub(r"\d+", '998', "python = 997")
'python = 998'

#方法二
def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

re.sub(r"\d+", add, "python = 997")
'python = 998'

例子

#從下面的字符串中取出文本
<div>
        <p>崗位職責:</p>
<p>完成推薦算法、數據統計、接口、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求:</p>
<p>良好的自我驅動力和職業素養,工作積極主動、結果導向</p>
<p> <br></p>
<p>技術要求:</p>
<p>1、一年以上 Python 開發經驗,掌握面向對象分析和設計,了解設計模式</p>
<p>2、掌握HTTP協議,熟悉MVC、MVVM等概念以及相關WEB開發框架</p>
<p>3、掌握關系數據庫開發設計,掌握 SQL,熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4、掌握NoSQL、MQ,熟練使用對應技術解決方案</p>
<p>5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</p>
<p> <br></p>
<p>加分項:</p>
<p>大數據,數理統計,機器學習,sklearn,高性能,大并發。</p>

        </div>

解決方法:

s='''<div>
        <p>崗位職責:</p>
<p>完成推薦算法、數據統計、接口、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求:</p>
<p>良好的自我驅動力和職業素養,工作積極主動、結果導向</p>
<p> <br></p>
<p>技術要求:</p>
<p>1、一年以上 Python 開發經驗,掌握面向對象分析和設計,了解設計模式</p>
<p>2、掌握HTTP協議,熟悉MVC、MVVM等概念以及相關WEB開發框架</p>
<p>3、掌握關系數據庫開發設計,掌握 SQL,熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4、掌握NoSQL、MQ,熟練使用對應技術解決方案</p>
<p>5、熟悉 Javascript/CSS/HTML5,JQuery、React、Vue.js</p>
<p> <br></p>
<p>加分項:</p>
<p>大數據,數理統計,機器學習,sklearn,高性能,大并發。</p>

        </div>'''
re.sub(r'</?\w*>|\n|\s','',s)
'崗位職責:完成推薦算法、數據統計、接口、后臺等服務器端相關工作必備要求:良好的自我驅動力和職業素養,工作積極主動、結果導向 技術要求:1、一年以上Python開發經驗,掌握面向對象分析和設計,了解設計模式2、掌握HTTP協議,熟悉MVC、MVVM等概念以及相關WEB開發框架3、掌握關系數據庫開發設計,掌握SQL,熟練使用MySQL/PostgreSQL中的一種4、掌握NoSQL、MQ,熟練使用對應技術解決方案5、熟悉Javascript/CSS/HTML5,JQuery、React、Vue.js 加分項:大數據,數理統計,機器學習,sklearn,高性能,大并發。'

4.split

根據匹配進行切割字符串,并返回一個列表

re.split(r":| ","info:xiaoZhang 33          shandong")
['info', 'xiaoZhang', '33', '', '', '', '', '', '', '', '', '', 'shandong']

re.split(r":|  *","info:xiaoZhang 33          shandong")
['info', 'xiaoZhang', '33', 'shandong']

5.貪婪和非貪婪

正則表達式匹配的兩種模式:貪婪模式、懶惰模式

貪婪模式:從目標字符串的兩頭開始搜索,一次盡可能多的匹配符合條件的字符串,但是有可能會匹配到不需要的內容,正則表達式中的元字符、量詞、范圍等都模式是貪婪匹配模式,使用的時候一定要注意分析結果,
懶惰模式:從目標字符串按照順序從頭到位進行檢索匹配,盡可能的檢索到最小范圍的匹配結果,語法結構是在貪婪模式的表達式后面加上一個符號?即可,

Python里數量詞默認是貪婪的(在少數語言里也可能是默認非貪婪),總是嘗試匹配盡可能多的字符;
非貪婪則相反,總是嘗試匹配盡可能少的字符。
在"*", "?" , "+" , "{m,n}" 后面加上?,使貪婪變成非貪婪。

re.match(r"erbai(\d+)","erbai521888").group(1)
'521888'

re.match(r"erbai(\d+?)","erbai521888").group(1)
'5'

re.match(r"(\d+)(.*)", "5211314erbai").groups()
('5211314', 'erbai')

re.match(r"(\d+?)(.*)", "5211314erbai").groups()
('5', '211314erbai')

練習

  • (一)
有一批網址:
http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415
需要 正則后為:
http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/

表達式

#單個修改的表達式有以下幾種參考方案
re.match(r'http.+\.[a-z]{2,3}/',str)
re.match(r'http://.*?/',str)
re.sub(r'(http://.*?/).*',lambda x:x.group(1),str)
#整塊都修改
import re
f = open('url.txt','w')

s = '''http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415'''

f.write(s)
f = open('url.txt','r')

def main():
    for line in f:
        ret = re.match(r'http://.+\.[a-z]{2,3}/', line)
        print(ret.group())
    f.close()


if __name__ == '__main__':
    main()

結果:

http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/
  • (二)
現在有一句英文如下:
hello world ha ha
需求查找所有的單詞

表達式

#我寫了兩種,當然方法是多種的
re.split(r' +','hello world ha ha')
['hello', 'world', 'ha', 'ha']

re.findall(r' \b\w+\b',’ hello world ha ha’)
['hello', 'world', 'ha', 'ha']

2017.8.9回顧

1.正則表達式(Regular Expression):查詢和匹配字符串的規則

2.正則表達式表示數據
普通字符: 元數據,可以用于匹配指定的字符
r = “a”:用于在目標字符串中匹配小寫字母a元字符
r = “.”:用于匹配任意一個字符
r = “\”:轉移字符~用于將一個普通的字符,轉義成一個有意義的字符
r = “\d”:表示一個0~9之間的整數
r = “\D”:表示一個非數字字符
r = “\w”:表示任意一個0~9或者字母或者下劃線的字符
r = “\W”:表示任意一個特殊字符
r = “\s”:表示匹配一個空白字符
r = “\S”:表示匹配一個非空白字符
r = “^”:匹配字符串的開頭位置
r = “$”:匹配字符串的結束位置
r = “\d*”:表示前面匹配的字符出現了0次或者多次
r = “\d?”:表示前面匹配的字符出現了0次或者1次
r =”\d+”:表示前面匹配的字符出現了1次或者多次

#范圍匹配
分組匹配方式:將多個匹配字符當成一個完整的匹配公式
(abc):用于在目標字符串中查詢abc同時出現的地方 
選擇匹配方式:將指定的多個字符,選擇其中一個進行匹配
[abc]:用于在目標字符串中,查詢a或者b或者c出現的地方
[0-9]:用于匹配一個0~9之間的數字->等價于\d
[a-z]:用于匹配一個a-z之間的字母
[A-Z]:用于匹配一個A-Z之間的字母
[a-zA-Z]:用于匹配一個字母【大小寫均可】
[a-zA-Z0-9_]:用于匹配一個非特殊字符,等價于\w

#范圍匹配
\d{m, n}:匹配到的字符出現了至少m次,最多n次
\d{,20}:匹配一個數字最多出現20次
\d{8,}:匹配一個數字,最少出現8次
\d{8,16}:匹配一個數字,最少出現8次,最多出現16次

#正則表達式在python中的使用
正則表達式,在python中,主要用到了一個re模塊
compile():編譯正則表達式
pattern = re.compile(“^\d{2,}$”)
pattern = r‘^\d{2,}$’

pattern.match(str,begin,end):從指定的字符串str第一個字符查詢匹配的字符

pattern.search(str, begin, end):從指定的字符串中直接進行查詢,查詢到的第一個結果作為匹配結果

pattern.findall(str):從指定的字符串中,查詢符合匹配規則的字符,將所有符合的字符存放在一個列表中

pattern.finditer(str):從指定的字符串中,查詢符合匹配規則的字符保存在一個可以迭代的對象中

pattern.sub():替換
pattern.split():拆分
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容