亚洲性线免费观看视频成熟,完美搭档韩国电影,日本又色又爽又黄的A片吻戏

當我們在瀏覽器中輸入一個url后回車，后臺會發生什么？比如說你輸入http://www.lxweimin.com/u/82f41ee3b584，你就會看到七月尾巴_葵花的首頁。

簡單來說這段過程發生了以下四個步驟：

查找域名對應的IP地址。
向IP對應的服務器發送請求。
服務器響應請求，發回網頁內容。
瀏覽器解析網頁內容。

簡單來說，就是實現瀏覽器的功能。通過指定url，直接返回給用戶所需要的數據，而不需要一步步人工去操縱瀏覽器獲取。

抓取

這一步，你要明確要得到的內容是什么？是HTML源碼，還是Json格式的字符串等。

1. 最基本的抓取

抓取大多數情況屬于get請求，即直接從對方服務器上獲取數據。

首先，Python中自帶urllib及urllib2這兩個模塊，基本上能滿足一般的頁面抓取。另外，requests也是非常有用的包，與此類似的，還有httplib2等等。

Requests：
    import requests
    response = requests.get(url)
    content = requests.get(url).content
    print "response headers:", response.headers
    print "content:", content
Urllib2：
    import urllib2
    response = urllib2.urlopen(url)
    content = urllib2.urlopen(url).read()
    print "response headers:", response.headers
    print "content:", content
Httplib2：
    import httplib2
    http = httplib2.Http()
    response_headers, content = http.request(url, 'GET')
    print "response headers:", response_headers
    print "content:", content

此外，對于帶有查詢字段的url，get請求一般會將來請求的數據附在url之后，以?分割url和傳輸數據，多個參數用&連接。

data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests：data為dict，json
    import requests
    response = requests.get(url=url, params=data)
Urllib2：data為string
    import urllib, urllib2    
    data = urllib.urlencode(data)
    full_url = url+'?'+data
    response = urllib2.urlopen(full_url)

2. 對于登陸情況的處理

2.1 使用表單登陸

這種情況屬于post請求，即先向服務器發送表單數據，服務器再將返回的cookie存入本地。

data = {'data1':'XXXXX', 'data2':'XXXXX'}
Requests：data為dict，json
    import requests
    response = requests.post(url=url, data=data)
Urllib2：data為string
    import urllib, urllib2    
    data = urllib.urlencode(data)
    req = urllib2.Request(url=url, data=data)
    response = urllib2.urlopen(req)

2.2 使用cookie登陸

使用cookie登陸，服務器會認為你是一個已登陸的用戶，所以就會返回給你一個已登陸的內容。因此，需要驗證碼的情況可以使用帶驗證碼登陸的cookie解決。

import requests         
requests_session = requests.session() 
response = requests_session.post(url=url_login, data=data)

若存在驗證碼，此時采用response = requests_session.post(url=url_login, data=data)是不行的，做法應該如下：

response_captcha = requests_session.get(url=url_login, cookies=cookies)
response1 = requests.get(url_login) # 未登陸
response2 = requests_session.get(url_login) # 已登陸，因為之前拿到了Response Cookie！
response3 = requests_session.get(url_results) # 已登陸，因為之前拿到了Response Cookie！

3. 對于反爬蟲機制的處理

3.1 使用代理

適用情況：限制IP地址情況，也可解決由于“頻繁點擊”而需要輸入驗證碼登陸的情況。

這種情況最好的辦法就是維護一個代理IP池，網上有很多免費的代理IP，良莠不齊，可以通過篩選找到能用的。對于“頻繁點擊”的情況，我們還可以通過限制爬蟲訪問網站的頻率來避免被網站禁掉。

proxies = {'http':'http://XX.XX.XX.XX:XXXX'}
Requests：
    import requests
    response = requests.get(url=url, proxies=proxies)
Urllib2：
    import urllib2
    proxy_support = urllib2.ProxyHandler(proxies)
    opener = urllib2.build_opener(proxy_support, urllib2.HTTPHandler)
    urllib2.install_opener(opener) # 安裝opener，此后調用urlopen()時都會使用安裝過的opener對象
    response = urllib2.urlopen(url)

3.2 時間設置

適用情況：限制頻率情況。

Requests，Urllib2都可以使用time庫的sleep()函數：

import time
time.sleep(1)

3.3 偽裝成瀏覽器，或者反“反盜鏈”

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法，一般再加上Referer。

headers = {'User-Agent':'XXXXX'} # 偽裝成瀏覽器訪問，適用于拒絕爬蟲的網站
headers = {'Referer':'XXXXX'}
headers = {'User-Agent':'XXXXX', 'Referer':'XXXXX'}
Requests：
    response = requests.get(url=url, headers=headers)
Urllib2：
    import urllib, urllib2   
    req = urllib2.Request(url=url, headers=headers)
    response = urllib2.urlopen(req)

4. 對于斷線重連

不多說。

def multi_session(session, *arg):
    retryTimes = 20
    while retryTimes>0:
        try:
            return session.post(*arg)
        except:
            print '.',
            retryTimes -= 1

或者

def multi_open(opener, *arg):
    retryTimes = 20
    while retryTimes>0:
        try:
            return opener.open(*arg)
        except:
            print '.',
            retryTimes -= 1

這樣我們就可以使用multi_session或multi_open對爬蟲抓取的session或opener進行保持。

5. 多進程抓取

這里針對華爾街見聞進行并行抓取的實驗對比：Python多進程抓取與 Java單線程和多線程抓取

6. 對于Ajax請求的處理

對于“加載更多”情況，使用Ajax來傳輸很多數據。

它的工作原理是：從網頁的url加載網頁的源代碼之后，會在瀏覽器里執行JavaScript程序。這些程序會加載更多的內容，“填充”到網頁里。這就是為什么如果你直接去爬網頁本身的url，你會找不到頁面的實際內容。

這里，若使用Google Chrome分析”請求“對應的鏈接(方法：右鍵→審查元素→Network→清空，點擊”加載更多“，出現對應的GET鏈接尋找Type為text/html的，點擊，查看get參數或者復制Request URL)，循環過程。

如果“請求”之前有頁面，依據上一步的網址進行分析推導第1頁。以此類推，抓取抓Ajax地址的數據。
對返回的json格式數據(str)進行正則匹配。json格式數據中，需從'\uxxxx'形式的unicode_escape編碼轉換成u'\uxxxx'的unicode編碼。

7. 自動化測試工具Selenium

Selenium是一款自動化測試工具。它能實現操縱瀏覽器，包括字符填充、鼠標點擊、獲取元素、頁面切換等一系列操作。總之，凡是瀏覽器能做的事，Selenium都能夠做到。

這里列出在給定城市列表后，使用selenium來動態抓取[去哪兒網]的票價信息的代碼。

8. 驗證碼識別

對于網站有驗證碼的情況，我們有三種辦法：

使用代理，更新IP。
使用cookie登陸。
驗證碼識別。

使用代理和使用cookie登陸之前已經講過，下面講一下驗證碼識別。

可以利用開源的Tesseract-OCR系統進行驗證碼圖片的下載及識別，將識別的字符傳到爬蟲系統進行模擬登陸。當然也可以將驗證碼圖片上傳到打碼平臺上進行識別。如果不成功，可以再次更新驗證碼識別，直到成功為止。

爬取有兩個需要注意的問題：

如何監控一系列網站的更新情況，也就是說，如何進行增量式爬取？
對于海量數據，如何實現分布式爬取？

分析

抓取之后就是對抓取的內容進行分析，你需要什么內容，就從中提煉出相關的內容來。

常見的分析方法有[正則表達式]等等。

存儲

分析出我們需要的內容之后，接下來就是存儲了。

我們可以選擇存入文本文件，也可以選擇存入MySQL或MongoDB數據庫等。

存儲有兩個需要注意的問題：

如何進行網頁去重？
內容以什么形式存儲？

Scrapy

Scrapy是一個基于Twisted的開源的Python爬蟲框架，在工業中應用非常廣泛。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

爬蟲方法介紹

爬蟲方法介紹

抓取

1. 最基本的抓取

2. 對于登陸情況的處理

3. 對于反爬蟲機制的處理

4. 對于斷線重連

5. 多進程抓取

6. 對于Ajax請求的處理

7. 自動化測試工具Selenium

8. 驗證碼識別

分析

存儲

Scrapy

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

爬蟲方法介紹

抓取

1. 最基本的抓取

2. 對于登陸情況的處理

3. 對于反爬蟲機制的處理

4. 對于斷線重連

5. 多進程抓取

6. 對于Ajax請求的處理

7. 自動化測試工具Selenium

8. 驗證碼識別

分析

存儲

Scrapy

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频