Python網絡爬蟲學習筆記

Python 爬蟲學習筆記

學習自崔慶才的個人博客http://www.cnblogs.com/xin-xin/p/4297852.html,以及靜覓http://cuiqingcai.com/
第7章的安裝方法是我自己摸索出來的，因為按照崔慶才的文章沒有安裝成功。

1. Urllib庫的使用

import urllib2

response = urllib2.urlopen("http://www.baidu.com")
print response.read()

首先我們調用的是urllib2庫里面的urlopen方法，傳入一個URL，這個網址是百度首頁，協議是HTTP協議。

urlopen(url, data, timeout)

第一個參數url即為URL，第二個參數data是訪問URL時要傳送的數據，第三個timeout是設置超時時間。

response對象有一個read方法，可以返回獲取到的網頁內容。

其實上面的urlopen參數可以傳入一個request請求,它其實就是一個Request類的實例，構造時需要傳入Url,Data等等的內容.

import urllib2

request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

2.數據傳送方式

post

post方式就是在向服務器發送request的時候將data數據包含其中。

import urllib
import urllib2

values = {}
values['username'] = "1016903103@qq.com"
values['password'] = "XXXX"
data = urllib.urlencode(values) 
url = "http://passport.csdn.net/account/login？from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

而GET方式則是直接將data數據融入到請求鏈接之中

import urllib
import urllib2

values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values) 
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

3. Urllib庫的高級用法

設置Headers

目的是完全模擬瀏覽器瀏覽網頁的特征，以防有些網站禁止爬蟲程序的運行。

首先是設置User-Agent

import urllib  
import urllib2  

url = 'http://www.server.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  
values = {'username' : 'cqc',  'password' : 'XXXX' }  
headers = { 'User-Agent' : user_agent }  
data = urllib.urlencode(values)  
request = urllib2.Request(url, data, headers)  
response = urllib2.urlopen(request)  
page = response.read()

下來有對付反盜鏈的方式，在headers中加入referer，即將這個屬性設置為服務器自己。

headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'  ,
                    'Referer':'http://www.zhihu.com/articles' }

總之呢，盡量來模擬真實瀏覽器的headers的內容，構建的時候寫入同樣的數據

Proxy代理設置

這個主要是對付有的網站會檢測IP的訪問次數，次數過多，則會禁止訪問，所以設置代理服務器。

import urllib2
enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
    opener = urllib2.build_opener(proxy_handler)
else:
    opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)

超時的設置

urlopen函數的第三個參數是超時的設置，它有一個默認參數，因此如果要設置timeout的話，需要以默認參數的形式設置timeout=10

import urllib2
response = urllib2.urlopen('http://www.baidu.com', timeout=10)

4. URLError的處理

即是用try except語句來捕獲異常并加以處理，其中有一個小tip是，父類的異常應當寫到子類異常的后面，這樣子類異常捕獲不到就可以捕獲父類異常。

這里HTTPError是URLError的子類，因此捕獲異常的代碼可以這么寫，另外加入 hasattr屬性提前對屬性進行判斷，首先對異常的屬性進行判斷，以免出現屬性輸出報錯的現象：

import urllib2

req = urllib2.Request('http://blog.csdn.net/cqcre')
try:
    urllib2.urlopen(req)
except urllib2.HTTPError, e:
    if hasattr(e,"code"):
        print e.code
except urllib2.URLError, e:
    if hasattr(e,"reason"):
        print e.reason
else:
    print "OK"

5. Cookie的使用

Cookie是網站為了辨別用戶身份，進行session跟蹤而存儲到用戶本地終端上的數據。（加密）

登錄之后才能訪問的頁面，可以利用Urllib2庫保存登錄的Cookie，然后再抓取頁面。

目的就是模擬登錄的狀態。

opener

前面使用的opener都是默認的，使用urlopen來獲取的，相當于opener的一個特殊實例，但是使用cookie等高級功能，必須創建更加一般的opener才能實現這些功能。

下面就是使用一個cookie處理器然后調用build_opener函數來創建一般的opener對象，然后調用open方法打開url或者request

獲取Cookie保存到變量

使用Cookielib模塊，該模塊作用是提供可存儲cookie的對象，用CookieJar類的對象捕獲cookie。

import urllib2
import cookielib
#這里聲明一個CookieJar對象實例來保存cookie
cookie=coolielib.CookieJar()
#然后使用urllib2的HTTPCookieProcessor對象來創建cookie處理器
handler=urllib2.HTTPCookieProcessor(cookie)
#然后通過handler來創建opener
opener=urllib2.build_opener(handler)
#然后調用opener的open方法，當然也可以傳入request
response=opener.open('http://www.baidu.com')

這樣就把cookie保存到變量之中了

保存Cookie到文件

則使用FileCookieJar這個類的對象了，在這里使用MozillaCookieJar對象

CookieJar —-派生—->FileCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

cookie的獲取和處理和上面類似，只不過最后調用了save方法存入之前已經傳入MozillaCookieJar的文件里了。

import cookielib
import urllib2

#設置保存cookie的文件，同級目錄下的cookie.txt
filename = 'cookie.txt'
#聲明一個MozillaCookieJar對象實例來保存cookie，之后寫入文件
cookie = cookielib.MozillaCookieJar(filename)
#利用urllib2庫的HTTPCookieProcessor對象來創建cookie處理器
handler = urllib2.HTTPCookieProcessor(cookie)
#通過handler來構建opener
opener = urllib2.build_opener(handler)
#創建一個請求，原理同urllib2的urlopen
response = opener.open("http://www.baidu.com")
#保存cookie到文件
cookie.save(ignore_discard=True, ignore_expires=True)

最后的ignore_discard是即使cookies被丟棄也將其保存下來，ignore_exporres是如果cookie文件存在則覆蓋原文件寫入。

從文件中獲取Cookie并訪問

先創建MozillaCookie實例對象，然后調用load方法，載入上次生成的文件，接著創建帶有cookie的opener對象，這里傳入build_opener函數的是一個cookie處理器對象。和之前的一樣。

import cookielib
import urllib2

#創建MozillaCookieJar實例對象
cookie = cookielib.MozillaCookieJar()
#從文件中讀取cookie內容到變量
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
#創建請求的request
req = urllib2.Request("http://www.baidu.com")
#利用urllib2的build_opener方法創建一個opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
response = opener.open(req)
print response.read()

總之流程就是這樣，創建管理cookie的實例，，創建cookie處理器，創建opener，然后創建request，open該request。

模擬登錄

這里是先登錄進去獲取cookie寫入文件，這樣就可以訪問登陸后才能訪問的頁面了。主要是使用了一個opener對象。

import urllib
import urllib2
import cookielib

filename = 'cookie.txt'
#聲明一個MozillaCookieJar對象實例來保存cookie，之后寫入文件
cookie = cookielib.MozillaCookieJar(filename)
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
postdata = urllib.urlencode({
        'stuid':'201200131012',
        'pwd':'23342321'
    })
#登錄教務系統的URL
loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login'
#模擬登錄，并把cookie保存到變量
result = opener.open(loginUrl,postdata)
#保存cookie到cookie.txt中
cookie.save(ignore_discard=True, ignore_expires=True)
#利用cookie請求訪問另一個網址，此網址是成績查詢網址
gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre'
#請求訪問成績查詢網址
result = opener.open(gradeUrl)
print result.read()

一個處理有驗證碼的模擬登錄代碼,不過暫時不能成功登錄，原因還不知道為什么，但是里面表單有一個lt值每次登錄都在變化，估計是因為這個原因。

#coding=utf-8
import urllib2
import cookielib
import urllib
import re
import sys
'''模擬登錄'''
reload(sys)
sys.setdefaultencoding("utf-8")
# 防止中文報錯
CaptchaUrl = "http://cas.nwpu.edu.cn/cas/Captcha.jpg"
PostUrl = "http://cas.nwpu.edu.cn/cas/login"
# 驗證碼地址和post地址
filename="cookies.txt"
cookie = cookielib.MozillaCookieJar(filename)
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
# 將cookies綁定到一個opener，cookie由cookielib自動管理
username = '******'
password = '******'
# 用戶名和密碼
picture = opener.open(CaptchaUrl).read()
# 用openr訪問驗證碼地址,獲取cookie
#文件輸入輸出，local為文件引用句柄
local = open('e:/image.jpg', 'wb')
local.write(picture)
local.close()
# 保存驗證碼到本地
SecretCode = raw_input('輸入驗證碼： ')
# 打開保存的驗證碼圖片 輸入
postData = {
    'encodedService':'http%3a%2f%2fportal.nwpu.edu.cn%2fdcp%2findex.jsp',
    'service':'http://portal.nwpu.edu.cn/dcp/index.jsp',
    'serviceName':'null',
    'loginErrCnt':'0',
    'username': username,
    'password': password,
    'lt':'LT_nwpuapp1_-527299-2Mb1S8cdQco6UOnf7WNb',
    'autoLogin':'false',
    'captcha':SecretCode
    }
# 根據抓包信息 構造表單
headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.8',
    'Connection': 'keep-alive',
    'Content-Type': 'application/x-www-form-urlencoded',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36',
    'Referer':'http://cas.nwpu.edu.cn/cas/login?service=http%3A%2F%2Fportal.nwpu.edu.cn%2Fdcp%2Findex.jsp'
}
# 根據抓包信息 構造headers
data = urllib.urlencode(postData)
# 生成post數據 ?key1=value1&key2=value2的形式
request = urllib2.Request(PostUrl, data, headers)
# 構造request請求
try:
    response = opener.open(request)
    cookie.save(ignore_discard=True, ignore_expires=True)
    anotherurl='http://portal.nwpu.edu.cn/dcp/forward.action?path=/portal/portal&p=HomePage'
    response = opener.open(anotherurl)
    result = response.read()
    print result
    # 打印登錄后的頁面
except urllib2.HTTPError, e:
    print e.code
    # 利用之前存有cookie的opener登錄頁面

6. 正則表達式

對字符串進行過濾，Python里的數量詞默認是貪婪的，匹配盡可能多的字符，不過一般使用非貪婪模式進行提取，？是一個非貪婪字符。

反斜杠問題將使用原生字符串解決，比如匹配\，則使用這樣的正則表達式：r"\"
這個問題得實踐驗證，因為在Python核心編程里有這么一個pattern來進行匹配的：

patt='\w+@(\w+\.)?\w+\.com'

這個是匹配一個電子郵件地址的，@之前是匹配至少一個字符或者數字的字符，之后是進行分組，匹配添加主機名稱，然后是域名。

這里\也沒說受到什么影響，因此實踐是檢驗真理的唯一選擇。

Python里的Re模塊

首先在進行匹配之前，最好使用compile()函數進行預編譯，預編譯之后是返回regex對象，再使用re模塊里面的方法即可完成匹配。

如果沒有進行預編譯的話，則使用的是re模塊里面的函數，函數名與作用與上述方法是一致的。

compile()用法如下：pattern=re.compile(r'hello')

另外除了regex對象，還有另外一種對象類型，匹配對象，是match或者search被成功調用后返回的結果，有兩個主要的方法是group和groups

group方法返回所有匹配對象或者是根據要求返回某個特定子組

groups方法是返回一個包含唯一或者所有子組的元組

re模塊里面的函數與方法

`match(pattern,string,flags=0)`

使用正則表達式匹配string，是從字符串開頭開始匹配，失敗則返回None

一個匹配實例，最后一個匹配子組是給該子組取了個別名sign，它的作用就是匹配?。ㄈ我庾址?/p>

import re
# 匹配如下內容：單詞+空格+單詞+任意字符
m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!')

`re.search(pattern,string,flags=0)`

search()是搜索字符串中模式首次出現的位置，是在任意位置而不是嘗試在起始處匹配。

import re

# 將正則表達式編譯成Pattern對象
pattern = re.compile(r'world')
# 使用search()查找匹配的子串，不存在能匹配的子串時將返回None
# 這個例子中使用match()無法成功匹配
match = re.search(pattern,'hello world!')
if match:
    # 使用Match獲得分組信息
    print match.group()
### 輸出 ###
# world

`re.findall(pattern,string[,flags])`

搜索string，以列表形式返回全部能匹配的子串。

import re

pattern = re.compile(r'\d+')
print re.findall(pattern,'one1two2three3four4')

### 輸出 ###
# ['1', '2', '3', '4']

`re.split(pattern,string[,maxsplit])`

使用了正則表達式的split方法將成為一個功能更為強大的工具。maxsplit指定最大分隔次數，不指定則全部分隔。

import re

pattern = re.compile(r'\d+')
print re.split(pattern,'one1two2three3four4')

### 輸出 ###
# ['one', 'two', 'three', 'four', '']

`re.sub(pattern,repl,string,max=0)`

使用repl替換string中所有被正則表達式匹配的地方，max最大替換次數，如果不指定則將所有替換。當repl是一個字符串時，可以使用\id或\g、\g引用分組，但不能使用編號0。

import re

pattern = re.compile(r'(\w+) (\w+)')
s = 'i say, hello world!'

print re.sub(pattern,r'\2 \1', s)
### output ###
# say i, world hello!

另外subn方法將返回替換次數，替換后的字符串和表示替換次數的數字作為一個元組的元素返回。

### output ###
# ('say i, world hello!', 2)

7. 爬蟲框架Scrapy的安裝與配置

安裝Python

這個自不必說，安裝完最重要的是將Python安裝文件夾和底下的Scripts文件夾加入環境變量，這樣cmd命令行就可以直接執行Python命令了。

安裝pywin32

安裝地址：http://sourceforge.net/projects/pywin32/

安裝完進入Python執行環境，輸入import win32com如果沒有錯誤則安裝成功。

安裝pyOPENSSL

下載地址：https://launchpad.net/pyopenssl

下載下來之后拷貝到Python根目錄下的Scripts文件夾里，然后在cmd命令里進入到Scripts文件夾，執行easy_install.exe pyOpenSSL-0.11-py3.2-win32.egg就可以進行安裝了。

或者是在Scripts文件夾下執行easy_install pyOpenSSLcryptography

或者是下載可執行安裝文件進行安裝，在打開的頁面找到all downloads然后找到pyOpenSSL-0.11.winxp32-py2.7.exe,直接點擊該鏈接可以下載Python2.7的，如果需要其他版本前往該網站下載。

同樣安裝完成后在Python環境里執行import OpenSSL驗證是否安裝成功。

pyOpenSSL出錯解決嘗試

首先安裝了Twisted，easy_install Twisted，還是不行。

下來安裝了cffi,easy_install cffi，提示VC++9.0for Python命令錯誤

然后下載了VC++9.0 for python，發現電腦已經安裝過了，仍然沒有解決。

然后看到槍桿子的博客文章，Windows7 （64位）系統下安裝Scrapy詳細教程，他將所有需要的依賴打包到百度網盤里了，然后正在下載的時候，網絡沒流量了，只能等到下午充了之后再下載試試了。

根據他的文章所述，要安裝Scrapy框架，必須安裝如下依賴:

lxml,pywin32,Twisted,pyOpenSSL,zope.interface

回來下載好這些文件，但是安裝時候報錯沒有找到Python2.7可是我裝的就是Python2.7，不解，然后又按照之前的教程去下載了pyOpenSSL for Python2.7，執行easy_install.exe pyOpenSSL-0.11-py2.7-win32.egg然后居然好了，pyOpenSSL安裝成功。

安裝lxml

一個Python庫，可以迅速靈活的處理xml

pip install lxml進行安裝或者easy_install lxml

安裝Scrapy

最后一步就是安裝Scrapy框架。

pip install Scrapy或者easy_install Scrapy

驗證一下，輸入Scrapy，即可驗證是否成功。

7.1 安裝依賴文件tips：

再看了個教程，直接在官網上下載對應需要的依賴文件(.egg格式),然后下載下來使用easy_install來安裝，直接就搞定，如果通過網絡自動下載安裝，會出現各種問題。在這里將所有依賴文件以及鏈接歸納如下：

pywin32:http://sourceforge.net/projects/pywin32/files/pywin32/Build%20219/

選擇對應版本下載安裝，這里都是可執行文件，直接點擊安裝。

pyOpenSSL:https://launchpad.net/pyopenssl/+download

選擇.egg格式的文件下載，下載之后放到Python根目錄下的Scripts文件夾里，進入CMD執行easy_install 文件名即可完成安裝。

Twisted:easy_install Twisted
cffi: easy_install cffi
lxml: easy_install lxml
cryptography:https://pypi.python.org/pypi/cryptography

選擇對應Python版本，同pyOpenSSL安裝方法。

zope.interface：easy_install zope.interface
最后一步就是安裝Scrapy框架。pip install Scrapy或者easy_install Scrapy

最后編輯于：2017.11.27 06:08:00

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,565評論 6贊 539
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,115評論 3贊 423
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,577評論 0贊 382
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,514評論 1贊 316
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,234評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,621評論 1贊 326
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,641評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,822評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,380評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,128評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,319評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,879評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,548評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,970評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,229評論 1贊 291
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,048評論 3贊 397
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,285評論 2贊 376

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Python網絡爬蟲學習筆記

Python網絡爬蟲學習筆記

Python 爬蟲學習筆記

1. Urllib庫的使用

2.數據傳送方式

3. Urllib庫的高級用法

4. URLError的處理

5. Cookie的使用

6. 正則表達式

`match(pattern,string,flags=0)`

`re.search(pattern,string,flags=0)`

`re.findall(pattern,string[,flags])`

`re.split(pattern,string[,maxsplit])`

`re.sub(pattern,repl,string,max=0)`

7. 爬蟲框架Scrapy的安裝與配置

7.1 安裝依賴文件tips：

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Python網絡爬蟲學習筆記

Python 爬蟲學習筆記

1. Urllib庫的使用

2.數據傳送方式

3. Urllib庫的高級用法

4. URLError的處理

5. Cookie的使用

6. 正則表達式

match(pattern,string,flags=0)

re.search(pattern,string,flags=0)

re.findall(pattern,string[,flags])

re.split(pattern,string[,maxsplit])

re.sub(pattern,repl,string,max=0)

7. 爬蟲框架Scrapy的安裝與配置

7.1 安裝依賴文件tips：

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

`match(pattern,string,flags=0)`

`re.search(pattern,string,flags=0)`

`re.findall(pattern,string[,flags])`

`re.split(pattern,string[,maxsplit])`

`re.sub(pattern,repl,string,max=0)`