python 爬蟲下載圖片(煎蛋)

我所用到的庫BeautifulSoup,requests


# encoding:utf-8

import os, urllib, re, urllib2, requests, gzip
from StringIO import StringIO
from bs4 import BeautifulSoup

# 加上頭部信息偽裝成瀏覽器
req_header = {
    'User-Agent': 'Mozilla/4.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) '
                  'Chrome/23.0.1271.64 Safari/537.11',
    'Accept': 'text/html;q=0.9,*/*;q=0.8',
    'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
    'Accept-Encoding': 'gzip',
    'Connection': 'close',
    'Referer': None  # 注意如果依然不能抓取的話,這里可以設(shè)置抓取網(wǎng)站的host
}

# 傳入URL獲取網(wǎng)頁文本信息
def get_html(url):
    # page = requests.get(url)
    req = urllib2.Request(url=url, headers=req_header)
    res = urllib2.urlopen(req, timeout=5)
    html = res.read()

    print 'Content-Encoding :', res.info().get('Content-Encoding')  # 如果網(wǎng)頁通過gzip壓縮,需要解壓
    if res.info().get('Content-Encoding') == 'gzip':
        buf = StringIO(html)
        f = gzip.GzipFile(fileobj=buf)
        html = f.read()
    return html


# 根據(jù)html網(wǎng)頁匹配其中所有 src=.....jpg 的信息 并返回鏈接列表
def get_imglink(html_text):
    img = re.compile(r'src="(.+?\.jpg)"')
    imglist = re.findall(img, html_text)
    return imglist


# 用bs獲取圖片鏈接
def get_imglink2(html_text):
    bs = BeautifulSoup(html_text, 'html.parser', from_encoding='utf-8')
    links = bs.find_all('img')
    imglist = []
    for link in links:
        imglist.append(link.get('src'))
    return imglist


# 根據(jù)鏈接列表獲取到圖片,寫入文件  用的是requests 比urllib穩(wěn)定
def get_img2(imgs, path):
    dirname = './%s' % path
    if not os.path.exists(dirname):
        os.makedirs(dirname)
    for imgurl in imgs:
        filename = imgurl.split('/')[-1]
        local = os.path.join(dirname, filename)
        print local
        try:
            with open(local, 'wb') as jpg:
                jpg.write(requests.get('http:'+imgurl, stream=True, headers=req_header).content)
        except requests.RequestException,e:
            print e

if __name__ == '__main__':
    for num in range(3):
        html = get_html('http://jandan.net/ooxx/page-%s#comments' % str(2000 - num))
        imgs = get_imglink2(html)
        get_img2(imgs, u'你要的圖')
    print u'圖片共:', len(imgs)
  • 煎蛋網(wǎng)的頁面是gzip壓縮后的,需要解壓再,從中解析element

  • try except 是有的imgurl前面有http前綴,有的沒有。所以循環(huán)是request會拋出異常

  • with 語句用來打開文件很好,可以自動關(guān)閉流。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 134,981評論 19 139
  • http header 消息通常被分為4個部分:general header即頭部, request header...
    徐薇薇閱讀 32,087評論 0 5
  • 關(guān)于bs4,官方文檔的介紹已經(jīng)非常詳細了,傳送:Beautifulsoup 4官方文檔,這里我把它組織成自己已經(jīng)消...
    徐薇薇閱讀 5,478評論 0 1
  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法,類相關(guān)的語法,內(nèi)部類的語法,繼承相關(guān)的語法,異常的語法,線程的語...
    子非魚_t_閱讀 31,767評論 18 399
  • c 影視天堂·這么美的抗日片,我還是頭一次見 作者:毒舌電影 看完《德惠翁主》,表妹心中最大的感受就是:遺憾和不甘...
    簡黛玉閱讀 8,712評論 3 57