一、關(guān)于urllib庫

網(wǎng)上urllib庫的教程文章非常多而且詳細(xì)具體，我就不過多敘述和重復(fù)了，個(gè)人更加傾向于將精力放在實(shí)戰(zhàn)上，而不是反反復(fù)復(fù)拷貝教程（其實(shí)是因?yàn)槲覒校瑏韼灼韶泤⒖肌?/p>

python2:

Python爬蟲入門三之Urllib庫的基本使用

http://cuiqingcai.com/947.html

Python爬蟲入門四之Urllib庫的高級(jí)用法

http://cuiqingcai.com/954.html

python3:
3.python爬蟲從入門到放棄（三）之 Urllib庫的基本使用

http://www.cnblogs.com/zhaof/p/6910871.html

正則表達(dá)式re:
1.菜鳥教程--python正則表達(dá)式

http://www.runoob.com/python3/python3-reg-expressions.html

2.python爬蟲從入門到放棄（五）之正則的基本使用

http://www.cnblogs.com/zhaof/p/6925674.html

二、思路：

以爬取www.ygdy8.com這個(gè)電影下載網(wǎng)站為例子。

1.打開瀏覽器，搜狗或者chrome都可以，訪問該網(wǎng)站，以爬取最新電影這個(gè)欄目的電影為例，我們可以找到這個(gè)板塊首頁的url為：
http://www.ygdy8.com/html/gndy/dyzz/index.html，
再點(diǎn)擊下一頁，會(huì)發(fā)現(xiàn)頁碼的url為
http://www.ygdy8.com/html/gndy/dyzz/list_23_2.html，
由此可知，每一頁的url為：
http://www.ygdy8.com/html/gndy/dyzz/list_23_+頁數(shù).html

image.png

2.在將鼠標(biāo)移動(dòng)到電影名字上右鍵，審查元素，這里易會(huì)發(fā)現(xiàn)電影詳情頁的鏈接為<a href="/html/gndy/dyzz/20171112/55519.html">

image.png

將鼠標(biāo)移動(dòng)到末頁字眼右鍵，審查元素，這里會(huì)發(fā)現(xiàn)總共有167頁。

image.png

3.根據(jù)上面的分析查找，基本可以按照這樣的思路進(jìn)行爬取了。

1.先請求index最新電影板塊首頁，獲取到最大的頁數(shù)。
2.循環(huán)構(gòu)造頁碼鏈接，請求獲取所有的帶有電影列表的頁面。
3.在獲取到頁面基礎(chǔ)上，獲得電影列表的所有電影詳情頁鏈接，為下一步提取電影的標(biāo)題，迅雷鏈接做準(zhǔn)備。

三、開始動(dòng)手

1、構(gòu)造一個(gè)urllib請求頁面的opener，盡量模仿瀏覽器，減少被禁的風(fēng)險(xiǎn)。

# -*- coding:utf-8 -*-
#!/usr/bin  python
import urllib.request
import re
import time
import random
from decorator import fun_timer

#構(gòu)建一個(gè)模仿瀏覽器的opener
base_url = 'http://www.ygdy8.com'
#瀏覽器請求頭，這里用的是搜狗瀏覽器
user_agents=[('User-Agent','Mozilla/5.0(Macintosh;U;IntelMacOSX10_6_8;
  en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50'), ]
    Headers = [ random.choice(user_agents),
            ("Connection","keep-alive") ]
    #構(gòu)建opener
opener = urllib.request.build_opener()
    #添加請求頭
opener.addheaders=Headers

2、構(gòu)造請求首頁，獲取最大頁碼數(shù)的方法。

# 1、獲取最大的頁碼數(shù)
# 2、你可以到頁面查看最大頁碼數(shù)，但是頁碼數(shù)是會(huì)不斷增加的，
      #如果你要自動(dòng)化反復(fù)去爬取，就需要進(jìn)行頁碼數(shù)的自動(dòng)獲取。

def get_pageNum():
    url = "http://www.ygdy8.com/html/gndy/dyzz/index.html"
    data = opener.open(url).read()
   #上面的分析已經(jīng)知道頁碼的鏈接是以 list_23_頁數(shù).html結(jié)尾的，可以匹配正則表達(dá)式來查找。
    res = re.findall(r'list\_23\_[0-9]*', str(data))
    if res:
        page_num = res[-1].split("_")[-1]
        print('獲取到頁碼數(shù)%s'%page_num)
        return int(page_num)

3、知道頁數(shù)后，就可以循環(huán)構(gòu)造鏈接進(jìn)行爬取了。

#根據(jù)頁數(shù)爬取每頁的電影列表
def find_by_page(page = 1):
    if page%10==0:
       #每隔10頁進(jìn)行延時(shí)，防止ip被禁
        time.sleep(random.randint(1,3))
    url = "http://www.ygdy8.com/html/gndy/dyzz/list_23_%s.html" % (str(page))
    data = opener.open(url).read()

# 正則表達(dá)式獲取鏈接
#因?yàn)轫撁娴淖髠?cè)會(huì)有其他類別電影板塊的外鏈，所以要先定位到class為co_content8的目標(biāo)板塊，
       #再獲取板塊里的所有鏈接。

    res = re.findall(r'class\=\"co\_content8\"[\s\S]*\<\/ul\>', str(data))[0]
    res = re.findall(r'\/html\/gndy[/a-z]+[0-9/]{1,}\.html', str(res))
    urls = [base_url + url for url in res]
    print('爬取第%s頁: '%page+str(urls))
    return urls


#匯總所有的列表，上面的函數(shù)是每頁返回一個(gè)電影詳情頁鏈接列表

def get_urls(pages=1):
    all_url = []
    for page in range(1,pages+1):
         for r in find_by_page(page):
                 all_url.append(r)
    #去重
    all_url= set(all_url)
    print('獲取到%s條鏈接'%len(all_url))
    return all_url

4、最后開始爬取并輸出到TXT文件上。

if __name__ == "__main__":
    out = ''
    for url in get_urls(get_pageNum()):
        url = str(url)+'\n'
        out= out+url
    with open('all_urls.txt','w') as f:
        f.write(out)

image.png

四、總結(jié)

其實(shí)總結(jié)起來，簡單小規(guī)模的爬蟲無非就是分析頁面---請求頁面--獲取目標(biāo)元素--保存等若干步驟，但是真正動(dòng)起手來，就會(huì)遇到各種問題，解決問題也是一個(gè)進(jìn)步的過程。
解決ip被禁有很多種途徑，例如使用代理ip，模擬登陸，隨機(jī)延時(shí)請求，本次我是簡單粗暴地每隔10頁進(jìn)行隨機(jī)的延時(shí)。
這樣我們獲取到所有目標(biāo)電影的詳情頁鏈接，下一步就是進(jìn)行詳情頁的分析爬取了，這涉及到動(dòng)態(tài)加載頁面的爬取，將放到后面幾篇分享哈，下一篇，將介紹使用第三方庫requests庫和xpath匹配爬取詳情頁鏈接喲。

201711042223224161.jpg

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

實(shí)戰(zhàn)（一）之使用自帶urllib和re正則表達(dá)式獲取電影詳情頁鏈接

實(shí)戰(zhàn)（一）之使用自帶urllib和re正則表達(dá)式獲取電影詳情頁鏈接

一、關(guān)于urllib庫

二、思路：

三、開始動(dòng)手

四、總結(jié)

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

實(shí)戰(zhàn)（一）之使用自帶urllib和re正則表達(dá)式獲取電影詳情頁鏈接

一、關(guān)于urllib庫

二、思路：

三、開始動(dòng)手

四、總結(jié)

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频