1.正則表達式概述

正則表達式，又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），是計算機科學的一個概念。正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規則的字符串。在很多文本編輯器里，正則表達式通常被用來檢索、替換那些匹配某個模式的文本。
Regular Expression的“Regular”一般被譯為“正則”、“正規”、“常規”。此處的“Regular”即是“規則”、“規律”的意思，Regular Expression即“描述某種規則的表達式”之意。
Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先使用re.compile()函數，將正則表達式的字符串形式編譯為Pattern實例，然后使用Pattern實例處理文本并獲得匹配結果（一個Match實例），最后使用Match實例獲得信息，進行其他的操作。

2.re模塊操作

在Python中需要通過正則表達式對字符串進行匹配的時候，可以使用一個模塊，名字為re

1.re模塊的使用過程

#coding=utf-8

    # 導入re模塊
    import re

    # 使用match方法進行匹配操作
    result = re.match(正則表達式,要匹配的字符串)

    # 如果上一步匹配到數據的話，可以使用group方法來提取數據
    result.group()

re.match是用來進行正則匹配檢查的方法，若字符串匹配正則表達式，則match方法返回匹配對象（Match Object），否則返回None（注意不是空字符串""）。
匹配對象Macth Object具有group方法，用來返回字符串的匹配部分。

2.re模塊示例

#coding=utf-8

import re
result = re.match("taobao","taobao.com")
result.group()

運行結果：

'taobao'

re.match() 能夠匹配出以xxx開頭的字符串

3.表示字符

**匹配中文字符的正則表達式： ** [\u4e00-\u9fa5]

單字符匹配

匹配分組

表示邊界

表示數量

正則表達式中的特殊用法

使用分組的同時，會有一些特殊的使用方式如下：

表達式	描述
(?:expression)	作為正則表達式的一部分，但是匹配結果丟棄
(?=expression)	匹配expression表達式前面的字符，如 "How are you doing" ,正則"(?<txt>.+(?=ing))" 這里取ing前所有的字符，并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為"How are you do"
(?<=expression)	匹配expression表達式后面的字符，如 "How are you doing" 正則"(?<txt>(?<=How).+)" 這里取"How"之后所有的字符，并定義了一個捕獲分組名字為 "txt" 而"txt"這個組里的值為" are you doing";
(?!expression)	匹配字符串后面不是expression表達式字符，如 "123abc" 正則 "\d{3}(?!\d)"匹配3位數字后非數字的結果
(?<!expression)	匹配字符串前面不是expression表達式字符，如 "abc123 " 正則 (?<![0-9])123" 匹配"123"前面是非數字的結果也可寫成"(?!<\d)123"

舉例：（直接在Python3.5中演示）

表示字符

. 匹配任意1個字符(除了\n) [ ]匹配[ ]中列舉的字符 \匹配數字，即0-9

re.match(".","a")
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match(".","abc")
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match("h","hello Python")
<_sre.SRE_Match object; span=(0, 1), match='h'>

re.match("[hH]","Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='H'>

re.match("[0123456789]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("[0-9]","7Hello Python")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("嫦娥2號","嫦娥2號發射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>

re.match("嫦娥\d號","嫦娥2號發射成功")
<_sre.SRE_Match object; span=(0, 4), match='嫦娥2號'>

\w 匹配單詞字符，即a-z、A-Z、0-9、_和各國語言

re.match('\w','abc')
<_sre.SRE_Match object; span=(0, 1), match='a'>

re.match('[\u4e00-\u9fa5]','人生苦短，我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>

re.match('\w','人生苦短，我用python')
<_sre.SRE_Match object; span=(0, 1), match='人'>

re.match('\w','人生苦短，我用python',re.ASCII)
None

注意： \w 如果只是想匹配字母數字下劃線，可以加上re.ASCII

re.match(r"c:\\a","c:\\a\\b\\c")
<_sre.SRE_Match object; span=(0, 4), match='c:\\a'>

ret = re.match(r"c:\\a","c:\\a\\b\\c").group()
print(ret)
c:\a

說明:

Python中字符串前面加上 r 表示原生字符串，
與大多數編程語言相同，正則表達式里使用""作為轉義字符，這就可能造成反斜杠困擾。假如你需要匹配文本中的字符""，那么使用編程語言表示的正則表達式里將需要4個反斜杠"\"：前兩個和后兩個分別用于在編程語言里轉義成反斜杠，轉換成兩個反斜杠后再在正則表達式里轉義成一個反斜杠。
Python里的原生字符串很好地解決了這個問題，有了原始字符串，我們也不用擔心是不是漏寫了反斜杠，寫出來的表達式也更直觀。

表示數量

* 匹配前一個字符出現0次或者無限次，即可有可無
+ 匹配前一個字符出現1次或者無限次，即至少有1次

re.match("[A-Z][a-z]*","Mm")
<_sre.SRE_Match object; span=(0, 2), match='Mm'>

re.match("[A-Z][a-z]*","Aabcdef")
<_sre.SRE_Match object; span=(0, 7), match='Aabcdef'>

re.match("[a-zA-Z_]+[\w_]*","name1")
<_sre.SRE_Match object; span=(0, 5), match='name1'>

re.match("[a-zA-Z_]+[\w_]*","_name")
<_sre.SRE_Match object; span=(0, 5), match='_name'>

re.match("[a-zA-Z_]+[\w_]*","2_name")
None

? 匹配前一個字符出現1次或者0次，即要么有1次，要么沒有
{m} 匹配前一個字符出現m次
{m,}匹配前一個字符至少出現m次
{m,n} 匹配前一個字符出現在m-n次范圍都可以

re.match("[1-9]?[0-9]","7")
<_sre.SRE_Match object; span=(0, 1), match='7'>

re.match("[1-9]?[0-9]","33")
<_sre.SRE_Match object; span=(0, 2), match='33'>

re.match("[1-9]?[0-9]","09")
<_sre.SRE_Match object; span=(0, 1), match='0'>

re.match("[a-zA-Z0-9_]{6}","12a3g45678")
<_sre.SRE_Match object; span=(0, 6), match='12a3g4'>

re.match("[a-zA-Z0-9_]{6,}","12a3g45678")
<_sre.SRE_Match object; span=(0, 10), match='12a3g45678'>


re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66")
<_sre.SRE_Match object; span=(0, 18), match='1ad12f23s34455ff66'>

表示邊界

$ 匹配字符串結尾

re.match("[\w]{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 15), match='ererBai@163.com'>

#結尾仍不符合要求，但卻沒過濾掉
re.match("[\w]{4,20}@163\.com", "erBai@163.comheihei")
<_sre.SRE_Match object; span=(0, 13), match='erBai@163.com'>

# 通過$來確定末尾
re.match("[\w]{4,20}@163\.com$", "ererBai@163.comheihei")
None

\b 匹配一個單詞的邊界

re.match(r".*\bver\b", "ho ver abc")
<_sre.SRE_Match object; span=(0, 6), match='ho ver'>

#報錯
re.match(r".*\bver\b", "ho verabc").group()
Traceback (most recent call last):
  File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

#報錯
re.match(r".*\bver\b", "hover abc").group()
Traceback (most recent call last):
  File "<input>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'

\B 匹配非單詞邊界

re.match(r".*\Bver\B", "hoverabc")
<_sre.SRE_Match object; span=(0, 5), match='hover'>

re.match(r".*\Bver\B", "ho verabc")
None

re.match(r".*\Bver\B", "hover abc")
None

re.match(r".*\Bver\B", "ho ver abc")
None

匹配分組

| 匹配左右任意一個表達式

#匹配出0-100之間的數字
re.match("[1-9]?\d","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>

#得到的結果是0，不符合我們的需求
re.match("[1-9]?\d","08")
<_sre.SRE_Match object; span=(0, 1), match='0'>
#所以我們應該加$
re.match("[1-9]?\d$","08")
None

re.match("[1-9]?\d$|100","8")
<_sre.SRE_Match object; span=(0, 1), match='8'>

re.match("[1-9]?\d$|100","100")
<_sre.SRE_Match object; span=(0, 3), match='100'>

re.match("[1-9]?\d$|100","78")
<_sre.SRE_Match object; span=(0, 2), match='78'>

( ) 將括號中字符作為一個分組

#匹配出163、126、qq郵箱之間的數字
re.match("\w{4,20}@163\.com", "ererBai@163.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@163.com'>

re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@qq.com")
<_sre.SRE_Match object; span=(0, 11), match='ererBai@qq.com'>

re.match("\w{4,20}@(163|126|qq)\.com", "ererBai@126.com")
<_sre.SRE_Match object; span=(0, 12), match='ererBai@126.com'>

e.match("\w{4,20}@(163|126|qq)\.com", "ererBai@gmail.com")
None

\num 引用分組num匹配到的字符串

# 能夠完成對正確的字符串的匹配
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>

# 如果遇到非正常的html格式字符串，匹配出錯
re.match("<[a-zA-Z]*>\w*</[a-zA-Z]*>", "<html>hh</htmlbalabala>")
<_sre.SRE_Match object; span=(0, 23), match='<html>hh</htmlbalabala>'>

# 通過引用分組中匹配到的數據即可，但是要注意是元字符串，即類似 r""這種格式
re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
<_sre.SRE_Match object; span=(0, 15), match='<html>hh</html>'>

# 因為2對<>中的數據不一致，所以沒有匹配出來
 re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</htmlbalabala>")
None

\number 引用分組num匹配到的字符串

#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 36), match='<html><h1>taobao.com</h1></html>'>

re.match(r"<(\w*)><(\w*)>.*</\2></\1>", "<html><h1>taobao.com</h2></html>")
None

(?P<name>) (?P=name) 引用別名為name分組分配到的字符串

#匹配出<html><h1>taobao.com</h1></html>
re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h1></html>")
<_sre.SRE_Match object; span=(0, 32), match='<html><h1>taobao.com</h1></html>'>

re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>taobao.com</h2></html>")
None

注意：(?P<name>)和(?P=name)中的字母p大寫

附：常用表達式

校驗數字的表達式

1 數字：^[0-9]*$ 

2 n位的數字：^\d{n}$

3 至少n位的數字：^\d{n,}$ 

4 m-n位的數字：^\d{m,n}$ 

5 零和非零開頭的數字：^(0|[1-9][0-9]*)$ 

6 非零開頭的最多帶兩位小數的數字：^([1-9][0-9]*)+(.[0-9]{1,2})?$ 

7 帶1-2位小數的正數或負數：^(\-)?\d+(\.\d{1,2})?$ 

8 正數、負數、和小數：^(\-|\+)?\d+(\.\d+)?$ 

9 有兩位小數的正實數：^[0-9]+(.[0-9]{2})?$

10 有1~3位小數的正實數：^[0-9]+(.[0-9]{1,3})?$

11 非零的正整數：^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$

12 非零的負整數：^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$

13 非負整數：^\d+$ 或 ^[1-9]\d*|0$

14 非正整數：^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$

15 非負浮點數：^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$

16 非正浮點數：^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$

17 正浮點數：^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

18 負浮點數：^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

19 浮點數：^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$

校驗字符的表達式

1 漢字：^[\u4e00-\u9fa5]{0,}$ 

2 英文和數字：^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$ 

3 長度為3-20的所有字符：^.{3,20}$ 

4 由26個英文字母組成的字符串：^[A-Za-z]+$ 

5 由26個大寫英文字母組成的字符串：^[A-Z]+$ 

6 由26個小寫英文字母組成的字符串：^[a-z]+$ 

7 由數字和26個英文字母組成的字符串：^[A-Za-z0-9]+$ 

8 由數字、26個英文字母或者下劃線組成的字符串：^\w+$ 或 ^\w{3,20}$ 

9 中文、英文、數字包括下劃線：^[\u4E00-\u9FA5A-Za-z0-9_]+$

10 中文、英文、數字但不包括下劃線等符號：^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$

11 可以輸入含有^%&',;=?$\"等字符：[^%&',;=?$\x22]+

12 禁止輸入含有~的字符：[^~\x22]+

特殊需求表達式

1 Email地址：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$ 

2 域名：[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.? 

3 InternetURL：[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ 

4 手機號碼：^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ 

5 電話號碼("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX)：^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$  

6 國內電話號碼(0511-4405222、021-87888822)：\d{3}-\d{8}|\d{4}-\d{7} 

7 身份證號(15位、18位數字)：^\d{15}|\d{18}$ 

8 短身份證號碼(數字、字母x結尾)：^([0-9]){7,18}(x|X)?$ 或 ^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$ 

9 帳號是否合法(字母開頭，允許5-16字節，允許字母數字下劃線)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

10 密碼(以字母開頭，長度在6~18之間，只能包含字母、數字和下劃線)：^[a-zA-Z]\w{5,17}$

11 強密碼(必須包含大小寫字母和數字的組合，不能使用特殊字符，長度在8-10之間)：^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$

12 日期格式：^\d{4}-\d{1,2}-\d{1,2}

13 一年的12個月(01～09和1～12)：^(0?[1-9]|1[0-2])$

14 一個月的31天(01～09和1～31)：^((0?[1-9])|((1|2)[0-9])|30|31)$

15 錢的輸入格式：

 1.有四種錢的表示形式我們可以接受:"10000.00" 和 "10,000.00", 和沒有 "分" 的 "10000" 和 "10,000"：^[1-9][0-9]*$

 2.這表示任意一個不以0開頭的數字,但是,這也意味著一個字符"0"不通過,所以我們采用下面的形式：^(0|[1-9][0-9]*)$

 3.一個0或者一個不以0開頭的數字.我們還可以允許開頭有一個負號：^(0|-?[1-9][0-9]*)$

 4.這表示一個0或者一個可能為負的開頭不為0的數字.讓用戶以0開頭好了.把負號的也去掉,因為錢總不能是負的吧.下面我們要加的是說明可能的小數部分：^[0-9]+(.[0-9]+)?$

 5.必須說明的是,小數點后面至少應該有1位數,所以"10."是不通過的,但是 "10" 和 "10.2" 是通過的：^[0-9]+(.[0-9]{2})?$

 6.這樣我們規定小數點后面必須有兩位,如果你認為太苛刻了,可以這樣：^[0-9]+(.[0-9]{1,2})?$

 7.這樣就允許用戶只寫一位小數.下面我們該考慮數字中的逗號了,我們可以這樣：^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$

 8.1到3個數字,后面跟著任意個 逗號+3個數字,逗號成為可選,而不是必須：^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$

- 備注：這就是最終結果了,別忘了"+"可以用"*"替代如果你覺得空字符串也可以接受的話(奇怪,為什么?)最后,別忘了在用函數時去掉去掉那個反斜杠,一般的錯誤都在這里

16 xml文件：^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$

17 中文字符的正則表達式：[\u4e00-\u9fa5]

18 雙字節字符：[^\x00-\xff] (包括漢字在內，可以用來計算字符串的長度(一個雙字節字符長度計2，ASCII字符計1))

19 空白行的正則表達式：\n\s*\r (可以用來刪除空白行)

20 HTML標記的正則表達式：<(\S*?)[^>]*>.*?</\1>|<.*? /> (網上流傳的版本太糟糕，上面這個也僅僅能部分，對于復雜的嵌套標記依舊無能為力)

21 首尾空白字符的正則表達式：^\s*|\s*$或(^\s*)|(\s*$) (可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等)，非常有用的表達式)

22 騰訊QQ號：[1-9][0-9]{4,} (騰訊QQ號從10000開始)

23 中國郵政編碼：[1-9]\d{5}(?!\d) (中國郵政編碼為6位數字) 33 IP地址：\d+\.\d+\.\d+\.\d+ (提取IP地址時有用) 34 IP地址：((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))

4.re模塊的高級用法

1.search

re.search(r"\d+", "閱讀次數為 9999")
<_sre.SRE_Match object; span=(6, 10), match='9999'>

2.findall

#統計出python、c、c++相應文章閱讀的次數
re.findall(r"\d+", "python = 9999, c = 7890, c++ = 12345")
['9999', '7890', '12345']

3.sub將匹配到的數據進行替換

#方法一
re.sub(r"\d+", '998', "python = 997")
'python = 998'

#方法二
def add(temp):
    strNum = temp.group()
    num = int(strNum) + 1
    return str(num)

re.sub(r"\d+", add, "python = 997")
'python = 998'

例子

#從下面的字符串中取出文本
<div>
        <p>崗位職責：</p>
<p>完成推薦算法、數據統計、接口、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求：</p>
<p>良好的自我驅動力和職業素養，工作積極主動、結果導向</p>
<p> <br></p>
<p>技術要求：</p>
<p>1、一年以上 Python 開發經驗，掌握面向對象分析和設計，了解設計模式</p>
<p>2、掌握HTTP協議，熟悉MVC、MVVM等概念以及相關WEB開發框架</p>
<p>3、掌握關系數據庫開發設計，掌握 SQL，熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4、掌握NoSQL、MQ，熟練使用對應技術解決方案</p>
<p>5、熟悉 Javascript/CSS/HTML5，JQuery、React、Vue.js</p>
<p> <br></p>
<p>加分項：</p>
<p>大數據，數理統計，機器學習，sklearn，高性能，大并發。</p>

        </div>

解決方法：

s='''<div>
        <p>崗位職責：</p>
<p>完成推薦算法、數據統計、接口、后臺等服務器端相關工作</p>
<p><br></p>
<p>必備要求：</p>
<p>良好的自我驅動力和職業素養，工作積極主動、結果導向</p>
<p> <br></p>
<p>技術要求：</p>
<p>1、一年以上 Python 開發經驗，掌握面向對象分析和設計，了解設計模式</p>
<p>2、掌握HTTP協議，熟悉MVC、MVVM等概念以及相關WEB開發框架</p>
<p>3、掌握關系數據庫開發設計，掌握 SQL，熟練使用 MySQL/PostgreSQL 中的一種<br></p>
<p>4、掌握NoSQL、MQ，熟練使用對應技術解決方案</p>
<p>5、熟悉 Javascript/CSS/HTML5，JQuery、React、Vue.js</p>
<p> <br></p>
<p>加分項：</p>
<p>大數據，數理統計，機器學習，sklearn，高性能，大并發。</p>

        </div>'''
re.sub(r'</?\w*>|\n|\s','',s)
'崗位職責：完成推薦算法、數據統計、接口、后臺等服務器端相關工作必備要求：良好的自我驅動力和職業素養，工作積極主動、結果導向 技術要求：1、一年以上Python開發經驗，掌握面向對象分析和設計，了解設計模式2、掌握HTTP協議，熟悉MVC、MVVM等概念以及相關WEB開發框架3、掌握關系數據庫開發設計，掌握SQL，熟練使用MySQL/PostgreSQL中的一種4、掌握NoSQL、MQ，熟練使用對應技術解決方案5、熟悉Javascript/CSS/HTML5，JQuery、React、Vue.js 加分項：大數據，數理統計，機器學習，sklearn，高性能，大并發。'

4.split

根據匹配進行切割字符串，并返回一個列表

re.split(r":| ","info:xiaoZhang 33          shandong")
['info', 'xiaoZhang', '33', '', '', '', '', '', '', '', '', '', 'shandong']

re.split(r":|  *","info:xiaoZhang 33          shandong")
['info', 'xiaoZhang', '33', 'shandong']

5.貪婪和非貪婪

正則表達式匹配的兩種模式：貪婪模式、懶惰模式

貪婪模式：從目標字符串的兩頭開始搜索，一次盡可能多的匹配符合條件的字符串，但是有可能會匹配到不需要的內容，正則表達式中的元字符、量詞、范圍等都模式是貪婪匹配模式，使用的時候一定要注意分析結果，
懶惰模式：從目標字符串按照順序從頭到位進行檢索匹配，盡可能的檢索到最小范圍的匹配結果，語法結構是在貪婪模式的表達式后面加上一個符號?即可，

Python里數量詞默認是貪婪的（在少數語言里也可能是默認非貪婪），總是嘗試匹配盡可能多的字符；
非貪婪則相反，總是嘗試匹配盡可能少的字符。
在"*", "?" , "+" , "{m,n}" 后面加上？，使貪婪變成非貪婪。

re.match(r"erbai(\d+)","erbai521888").group(1)
'521888'

re.match(r"erbai(\d+?)","erbai521888").group(1)
'5'

re.match(r"(\d+)(.*)", "5211314erbai").groups()
('5211314', 'erbai')

re.match(r"(\d+?)(.*)", "5211314erbai").groups()
('5', '211314erbai')

練習

(一)

有一批網址：
http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415
需要 正則后為：
http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/

表達式：

#單個修改的表達式有以下幾種參考方案
re.match(r'http.+\.[a-z]{2,3}/',str)
re.match(r'http://.*?/',str)
re.sub(r'(http://.*?/).*',lambda x:x.group(1),str)

#整塊都修改
import re
f = open('url.txt','w')

s = '''http://www.interoem.com/messageinfo.asp?id=35
http://3995503.com/class/class09/news_show.asp?id=14
http://lib.wzmc.edu.cn/news/onews.asp?id=769
http://www.zy-ls.com/alfx.asp?newsid=377&id=6
http://www.fincm.com/newslist.asp?id=415'''

f.write(s)
f = open('url.txt','r')

def main():
    for line in f:
        ret = re.match(r'http://.+\.[a-z]{2,3}/', line)
        print(ret.group())
    f.close()


if __name__ == '__main__':
    main()

結果：

http://www.interoem.com/
http://3995503.com/
http://lib.wzmc.edu.cn/
http://www.zy-ls.com/
http://www.fincm.com/

(二)

現在有一句英文如下：
hello world ha ha
需求查找所有的單詞

表達式：

#我寫了兩種，當然方法是多種的
re.split(r' +','hello world ha ha')
['hello', 'world', 'ha', 'ha']

re.findall(r' \b\w+\b',’ hello world ha ha’)
['hello', 'world', 'ha', 'ha']

2017.8.9回顧

1.正則表達式（Regular Expression）：查詢和匹配字符串的規則

2.正則表達式表示數據
普通字符： 元數據，可以用于匹配指定的字符
r = “a”：用于在目標字符串中匹配小寫字母a元字符
r = “.”：用于匹配任意一個字符
r = “\”：轉移字符~用于將一個普通的字符，轉義成一個有意義的字符
r = “\d”：表示一個0~9之間的整數
r = “\D”：表示一個非數字字符
r = “\w”：表示任意一個0~9或者字母或者下劃線的字符
r = “\W”：表示任意一個特殊字符
r = “\s”：表示匹配一個空白字符
r = “\S”：表示匹配一個非空白字符
r = “^”：匹配字符串的開頭位置
r = “$”：匹配字符串的結束位置
r = “\d*”：表示前面匹配的字符出現了0次或者多次
r = “\d?”：表示前面匹配的字符出現了0次或者1次
r =”\d+”：表示前面匹配的字符出現了1次或者多次

#范圍匹配
分組匹配方式：將多個匹配字符當成一個完整的匹配公式
(abc)：用于在目標字符串中查詢abc同時出現的地方 
選擇匹配方式：將指定的多個字符，選擇其中一個進行匹配
[abc]：用于在目標字符串中，查詢a或者b或者c出現的地方
[0-9]：用于匹配一個0~9之間的數字->等價于\d
[a-z]：用于匹配一個a-z之間的字母
[A-Z]：用于匹配一個A-Z之間的字母
[a-zA-Z]：用于匹配一個字母【大小寫均可】
[a-zA-Z0-9_]：用于匹配一個非特殊字符，等價于\w

#范圍匹配
\d{m, n}：匹配到的字符出現了至少m次，最多n次
\d{,20}：匹配一個數字最多出現20次
\d{8,}：匹配一個數字，最少出現8次
\d{8,16}：匹配一個數字，最少出現8次，最多出現16次

#正則表達式在python中的使用
正則表達式，在python中，主要用到了一個re模塊
compile()：編譯正則表達式
pattern = re.compile(“^\d{2,}$”)
pattern = r‘^\d{2,}$’

pattern.match(str,begin,end)：從指定的字符串str第一個字符查詢匹配的字符

pattern.search(str, begin, end):從指定的字符串中直接進行查詢，查詢到的第一個結果作為匹配結果

pattern.findall(str)：從指定的字符串中，查詢符合匹配規則的字符，將所有符合的字符存放在一個列表中

pattern.finditer(str)：從指定的字符串中，查詢符合匹配規則的字符保存在一個可以迭代的對象中

pattern.sub():替換
pattern.split():拆分

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

正則表達式

正則表達式

1.正則表達式概述

2.re模塊操作

1.re模塊的使用過程

2.re模塊示例

3.表示字符

正則表達式中的特殊用法

表示字符

表示數量

表示邊界

匹配分組

注意：(?P<name>)和(?P=name)中的字母p大寫

附：常用表達式

4.re模塊的高級用法

1.search

2.findall

3.sub將匹配到的數據進行替換

例子

4.split

5.貪婪和非貪婪

練習

2017.8.9回顧

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

正則表達式

1.正則表達式概述

2.re模塊操作

1.re模塊的使用過程

2.re模塊示例

3.表示字符

正則表達式中的特殊用法

表示字符

表示數量

表示邊界

匹配分組

注意：(?P<name>)和(?P=name)中的字母p大寫

附：常用表達式

4.re模塊的高級用法

1.search

2.findall

3.sub將匹配到的數據進行替換

例子

4.split

5.貪婪和非貪婪

練習

2017.8.9回顧

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频