摘要:python3.x 版本將urllib與urllib2合并為urllib,便于操作。簡單介紹一下用過的urllib.request和urllib.parse
urllib is a package that collects several modules for working with URLs:
- urllib.request for opening and reading URLs
- urllib.error containing the exceptions raised by urllib.request
- urllib.parse for parsing URLs
- urllib.robotparser for parsing robots.txt files
urllib.request.Request()
Request是一個url請求抽象類,將一個url封裝成為一個Request對象。
class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
urllib.request.urlopen()
能夠打開一個string類型或者Request對象的url鏈接。
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
urllib.request.urlopen('http://www.python.org/')
#或者是打開一個封裝好的Request對象
urllib.request.urlretrieve()
同樣也是打開一個鏈接進行檢索,并且,將返回的內容保存到文件中。
urllib.request.urlretrieve(url, filename=None, reporthook=None, data=None)
urllib.parse.urlencode() 、urllib.parse.urlquote() 和urllib.parse.urlunquote()
前兩個是將一個utf-8類型的字符串url,解碼成ascii格式的方法,其中
urllib.parse.urlencode()
只將連接中utf-8編碼不在ascii表中的字符翻譯成帶百分號的ascii表示形式urllib.parse.quote()
將所有的字符,除09、aZ外,全部轉換成百分號的ascii形式。urllib.parse.unquote()
是上述方法的逆操作,將帶百分號的ascii編碼恢復成utf-8的字符形式。
>>>params = {'query':'中文','submit':'search'}
>>>data = urllib.parse.urlencode(params)
>>>data
'query=%E4%B8%AD%E6%96%87&submit=search'
>>>url='http://wwww.baidu.com/search?q=中文'
>>>quotedurl = urllib.parse.quote(url)
'http%3A//wwww.baidu.com/search%3Fq%3D%E4%B8%AD%E6%96%87'
>>>unquotedurl = urllib.parse.unquote(quotedurl)
>>>unquotedurl
'http://wwww.baidu.com/search?q=中文'
串聯一下
>>> import urllib.request
>>> import urllib.parse
>>> url = 'http://pythonprogramming.net/?'
>>> values={'submit':'search','query':'basic'}
>>> data = urllib.parase.urlencode(values)
>>> req = urllib.request.Request(url+data)
>>> resp = urllib.request.urlopen(req)
>>> content = resp.read()
>>> print(content[:100])