14_Python正則表達式與re模塊_全棧開發學習筆記

1. 正則表達式的引出

范例1：
你怎么判斷這個phone_number是合法的呢？
根據手機號碼一共11位并且是只以13、14、15、18開頭的數字這些特點，我們用python寫了如下代碼：

while True:
    phone_number = input('please input your phone number ： ')
    if len(phone_number) == 11 \
            and phone_number.isdigit()\
            and (phone_number.startswith('13') \
            or phone_number.startswith('14') \
            or phone_number.startswith('15') \
            or phone_number.startswith('18')):
        print('是合法的手機號碼')
    else:
        print('不是合法的手機號碼')

執行結果：

please input your phone number ： 1923
不是合法的手機號碼
please input your phone number ： 18123456789
是合法的手機號碼

范例2：
運用正則表達式的寫法

import re
phone_number = input('please input your phone number ： ')
if re.match('^(13|14|15|18)[0-9]{9}$',phone_number):
        print('是合法的手機號碼')
else:
        print('不是合法的手機號碼')

執行結果：

please input your phone number ： 139
不是合法的手機號碼

please input your phone number ： 18123456789
是合法的手機號碼

1.1 正則表達式在線工具

正則表達式在線測試工具

1.2 正則表達式使用規范表

正則表達式使用規范表

2. RE模塊

2.1 findall（重要）

想找到所有結果
范例：

import re

ret = re.findall('a', 'eva egon yuan')  # 返回所有滿足匹配條件的結果,放在列表里
print(ret)

ret = re.findall('[a-z]+', 'eva egon yuan')  # 返回所有滿足匹配條件的結果,放在列表里
print(ret)

執行結果：

['a', 'a']
['eva', 'egon', 'yuan']

2.2 search（重要）

想只找到一個結果

import re

ret = re.search('a', 'eva egon yuan')
if ret:
    print(ret.group())

ret = re.search('j', 'eva egon yuan')
if ret:
    print(ret.group())
#從前往后，找到一個就返回,返回的變量需要調用group才能拿到結果
#如果沒有找到，那么返回None，調用group會報錯

執行結果：

2.3 match（重要）

想在開頭就匹配上

import re

ret = re.match('e', 'eva egon yuan')
if ret:
    print(ret.group())

ret = re.match('ev', 'eva egon yuan')
if ret:
    print(ret.group())

ret = re.match('[a-z]+', 'eva egon yuan')
if ret:
    print(ret.group())
# match是從頭開始匹配，如果正則規則從頭開始可以匹配上，就返回一個變量。
# 匹配的內容需要用group才能顯示
# 如果沒匹配上，就返回None，調用group會報錯

執行結果：

e
ev
eva

2.4 split

當要分割一個字符串的時候

ret = re.split('[ab]', 'abcd')
# # 先按'a'分割得到''和'bcd',再對''和'bcd'分別按'b'分割
print(ret)

執行結果：

['', '', 'cd']

2.5 sub（常用）

當要替換一個字符串的時候

import re

ret = re.sub('\d', 'H', 'eva3egon4yuan4',1)
#將數字替換成'H'，參數1表示只替換1個
print(ret)

ret = re.sub('\d', 'H', 'eva3egon4yuan4')
#將數字替換成'H'，無參數1表示替換所有
print(ret)

執行結果：

evaHegon4yuan4
evaHegonHyuanH

2.6 subn

import re

ret = re.subn('\d', 'H', 'eva3egon4yuan49alex8')
#將數字替換成'H'，返回元組(替換的結果,替換了多少次)
print(ret)

執行結果：

('evaHegonHyuanHHalexH', 5)

2.7 compile

當正則反復使用且正則較長的時候

import re

obj = re.compile('\d{3}')
#將正則表達式編譯成為一個 正則表達式對象，規則要匹配的是3個數字
ret = obj.search('abc123eeee') #正則表達式對象調用search，參數為待匹配的字符串
print(ret.group())

ret = obj.search('abcashgjgsdghkash456eeee3wr2') #正則表達式對象調用search，參數為待匹配的字符串
print(ret.group())

執行結果：

123
456

2.8 finditer

要找的東西特別多的時候

import re
ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一個存放匹配結果的迭代器
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #查看第一個結果
print(next(ret).group())  #查看第二個結果
print(next(ret).group()) 
print([i.group() for i in ret])  #查看剩余的左右結果

ret = re.finditer('\d', 'ds3sy4784a')
for i in ret:
    print(i.group())

執行結果：

<callable_iterator object at 0x000001A7D966F278>
3
4
7
['8', '4']

3
4
7
8
4

2.9 其他注意事項：優先級查詢

search的分組優先

import re

ret = re.search('^[1-9](\d{14})(\d{2}[0-9x])?$','110105199912122277')
print(ret.group())
print(ret.group(1))    # 取第一個分組內的內容
print(ret.group(2))    # 取第二個分組內的內容

執行結果：

110105199912122277
10105199912122
277

findall取消分組優先

import re

ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['oldboy']     這是因為findall會優先把匹配結果組里內容返回,如果想要匹配結果,取消權限即可

ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')    # 使用?:用來取消分組優先
print(ret)  # ['www.oldboy.com']

執行結果：

['oldboy']
['www.oldboy.com']

split的優先級查詢

import re

ret=re.split("\d+","eva3egon4yuan")
print(ret) #結果 ： ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #結果 ： ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上（）之后所切出的結果是不同的，
#沒有（）的沒有保留所匹配的項，但是有（）的卻能夠保留了匹配的項，
#這個在某些需要保留匹配部分的使用過程是非常重要的。

執行結果：

['eva', 'egon', 'yuan']
['eva', '3', 'egon', '4', 'yuan']

2.10 爬蟲例子1

import re
from urllib.request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    com = re.compile(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)評價</span>', re.S)

    ret = com.finditer(s)
    for i in ret:
        yield {
            "id": i.group("id"),
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }


def main(num):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
    print(ret)
    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")
    f.close()

count = 0
for i in range(10):    # 10頁
    main(count)
    count += 25

# url從網頁上把代碼搞下來
# bytes decode ——> utf-8 網頁內容就是我的待匹配字符串
# ret = re.findall(正則，帶匹配的字符串)  #ret是所有匹配到的內容組成的列表

執行結果：
生成一個move_info7的文件

{'id': '1', 'title': '肖申克的救贖', 'rating_num': '9.6', 'comment_num': '1283490人'}
{'id': '2', 'title': '霸王別姬', 'rating_num': '9.6', 'comment_num': '947284人'}
{'id': '3', 'title': '這個殺手不太冷', 'rating_num': '9.4', 'comment_num': '1177716人'}
{'id': '4', 'title': '阿甘正傳', 'rating_num': '9.4', 'comment_num': '1011706人'}
{'id': '5', 'title': '美麗人生', 'rating_num': '9.5', 'comment_num': '592034人'}
...
{'id': '246', 'title': '荒島余生', 'rating_num': '8.5', 'comment_num': '163691人'}
{'id': '247', 'title': '勇士', 'rating_num': '8.9', 'comment_num': '100117人'}
{'id': '248', 'title': '槍火', 'rating_num': '8.7', 'comment_num': '119054人'}
{'id': '249', 'title': '遷徙的鳥', 'rating_num': '9.1', 'comment_num': '57898人'}
{'id': '250', 'title': '攻殼機動隊', 'rating_num': '8.9', 'comment_num': '72306人'}

2.11 爬蟲簡易例子2（不生成文件）

import re
from urllib.request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    ret = re.findall(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
       '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)評價</span>',s,re.S)
    return ret

def main(num):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
    print(ret)

count = 0
for i in range(10):   # 10頁
    main(count)
    count += 25

執行結果：

[('1', '肖申克的救贖', '9.6', '1283490人'), ('2', '霸王別姬', '9.6', '947284人'), ('3', '這個殺手不太冷', '9.4', '1177716人'), ('4', '阿甘正傳', '9.4', '1011706人'), ('5', '美麗人生', '9.5', '592034人'), ('6', '泰坦尼克號', '9.3', '947372人'), ('7', '千與千尋', '9.3', '940412人'), ('8', '辛德勒的名單', '9.5', '530119人'), ('9', '盜夢空間', '9.3', '1023257人'), ('10', '機器人總動員', '9.3', '680657人'), ('11', '忠犬八公的故事', '9.3', '668630人'), ('12', '三傻大鬧寶萊塢', '9.2', '917833人'), ('13', '海上鋼琴師', '9.2', '763056人'), ('14', '放牛班的春天', '9.3', '633150人'), ('15', '大話西游之大圣娶親', '9.2', '704012人'), ('16', '楚門的世界', '9.2', '687852人'), ('17', '龍貓', '9.2', '620786人'), ('18', '星際穿越', '9.2', '698752人'), ('19', '教父', '9.2', '463326人'), ('20', '熔爐', '9.3', '401050人'), ('21', '無間道', '9.1', '578870人'), ('22', '當幸福來敲門', '9.0', '742183人'), ('23', '瘋狂動物城', '9.2', '776574人'), ('24', '觸不可及', '9.2', '489976人'), ('25', '怦然心動', '9.0', '806397人')]
...

2.12 flags

flags有很多可選值：

re.I(IGNORECASE)忽略大小寫，括號內是完整的寫法
re.M(MULTILINE)多行模式，改變^和$的行為
re.S(DOTALL)點可以匹配任意字符，包括換行符
re.L(LOCALE)做本地化識別的匹配，表示特殊字符集 \w, \W, \b, \B, \s, \S 依賴于當前環境，不推薦使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取決于unicode定義的字符屬性。在python3中默認使用該flag
re.X(VERBOSE)冗長模式，該模式下pattern字符串可以是多行的，忽略空白字符，并可以添加注釋

使用方法：

import re
re.findall('\d','awir17948jsdc',re.S)
# 返回值：列表 列表中是所有匹配到的項

3. 練習

3.1 匹配標簽

import re

ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#還可以在分組中利用?<name>的形式給分組起名字
#獲取的匹配結果可以直接用group('名字')拿到對應的值
print(ret.group('tag_name'))   #結果 ：h1
print(ret.group())             #結果 ：<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不給組起名字，也可以用\序號來找到對應的組，表示要找的內容和前面的組內容一致
#獲取的匹配結果可以直接用group(序號)拿到對應的值
print(ret.group(1))
print(ret.group())  #結果 ：<h1>hello</h1>

執行結果：

h1
<h1>hello</h1>

h1
<h1>hello</h1>

3.2 匹配整數

import re

ret=re.findall(r"\d+\.\d+|(\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']
ret.remove('')
print(ret)

ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '-2', '60', '', '5', '-4', '3']
ret.remove("")
print(ret) #['1', '-2', '60', '5', '-4', '3']

執行結果：

['1', '2', '60', '', '5', '4', '3']
['1', '2', '60', '5', '4', '3']
['1', '-2', '60', '', '5', '-4', '3']
['1', '-2', '60', '5', '-4', '3']

3.3 數字匹配

1、 匹配一段文本中的每行的郵箱
      http://blog.csdn.net/make164492212/article/details/51656638

2、 匹配一段文本中的每行的時間字符串，比如：‘1990-07-12’；

   分別取出1年的12個月（^(0?[1-9]|1[0-2])$）、
   一個月的31天：^((0?[1-9])|((1|2)[0-9])|30|31)$

3、 匹配qq號。(騰訊QQ號從10000開始)  ［1,9］[0,9]{4,}

4、 匹配一個浮點數。       ^(-?\d+)(\.\d+)?$   或者  -?\d+\.?\d*

5、 匹配漢字。             ^[\u4e00-\u9fa5]{0,}$ 

6、 匹配出所有整數

4. 復習正則與re模塊

# 正則表達式
# 字符組 [字符]
# 元字符
    # \w \d \s
    # \W \D \S
    # . 除了換行符以外的任意字符
    # \n \t
    # \b
    # ^ $ 匹配字符串的開始和結束
    # （） 分組  是對多個字符組整體量詞約束的時候用的
                #re模塊：分組是有優先的
                    # findall
                    # split
    # | 從左到右匹配，只要匹配上就不繼續匹配了。所以應該把長的放前面
    # [^] 除了字符組內的其他都匹配
# 量詞
    # *   0~
    # +   1~
    # ？  0~1
    # {n} n
    # {n,} n~
    # {n,m} n~m

# 轉義的問題
# import re
# re.findall(r'\\s',r'\s')

# 惰性匹配
# 量詞后面加問號
    # .*?abc 一直取遇到abc就停

# re模塊
# import re
# re.findall('\d','awir17948jsdc',re.S)
# 返回值：列表 列表中是所有匹配到的項

# ret = search('\d(\w)+','awir17948jsdc'）
# ret = search('\d(?P<name>\w)+','awir17948jsdc'）
# 找整個字符串，遇到匹配上的就返回，遇不到就None
# 如果有返回值ret.group()就可以取到值
# 取分組中的內容 ： ret.group(1)   /  ret.group('name')

# match
# 從頭開始匹配，匹配上了就返回，匹配不上就是None
# 如果匹配上了 .group取值

# 分割 split
# 替換 sub 和 subn
# finditer 返回迭代器
# compile 編譯 ：正則表達式很長且要多次使用

最后編輯于：2019.01.27 16:12:27

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,182評論 6贊 543
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,489評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事?！?“怎么了？”我有些...
開封第一講書人閱讀 178,290評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,776評論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,510評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,866評論 1贊 328
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,860評論 3贊 447
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,036評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,585評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,331評論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,536評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,058評論 5贊 363
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,754評論 3贊 349
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,154評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,469評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,273評論 3贊 399
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,505評論 2贊 379

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

14_Python正則表達式與re模塊_全棧開發學習筆記

14_Python正則表達式與re模塊_全棧開發學習筆記

1. 正則表達式的引出

1.1 正則表達式在線工具

1.2 正則表達式使用規范表

2. RE模塊

2.1 findall（重要）

2.2 search（重要）

2.3 match（重要）

2.4 split

2.5 sub（常用）

2.6 subn

2.7 compile

2.8 finditer

2.9 其他注意事項：優先級查詢

2.10 爬蟲例子1

2.11 爬蟲簡易例子2（不生成文件）

2.12 flags

3. 練習

3.1 匹配標簽

3.2 匹配整數

3.3 數字匹配

4. 復習正則與re模塊

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

14_Python正則表達式與re模塊_全棧開發學習筆記

1. 正則表達式的引出

1.1 正則表達式在線工具

1.2 正則表達式使用規范表

2. RE模塊

2.1 findall（重要）

2.2 search（重要）

2.3 match（重要）

2.4 split

2.5 sub（常用）

2.6 subn

2.7 compile

2.8 finditer

2.9 其他注意事項：優先級查詢

2.10 爬蟲例子1

2.11 爬蟲簡易例子2（不生成文件）

2.12 flags

3. 練習

3.1 匹配標簽

3.2 匹配整數

3.3 數字匹配

4. 復習正則與re模塊

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频