十分鐘做一個有價值的爬蟲

⒈背景

大概就是前幾天吧,一個初中同學急匆匆的來找我,要我幫忙,做一張宣傳圖,當時大概腦熱,答應了,結果,答應之后,我在想沒有電腦,又沒有ps的素材,要我怎樣?
接著在網上找到了一個app,叫圖癢,這名字夠騷,當時就下載了,發現用起來還不錯,最后成功幫了同學的忙,沒完呢,我發現里面的素材真心好,可惜不能離線,于是就有了爬取ps素材的想法(?>?<?)
上幾張素材圖

圖片發自簡書App

圖片發自簡書App

圖片發自簡書App

漂亮得不要不要ヽ(≧Д≦)ノ的

⒉分析思路

但是,我們平常爬取的都是網頁,現在是app,HOW DO,于是我就想到了抓包,不得不說,這家公司的安全性,簡直太低了。直接就是get一個網址,返回一個json,json里面包括了素材的類型,圖片的地址,好了,數據有了,就是分析json了

3.json的分析

大概是我從來都沒學json,這個步驟,累得我快崩潰,還好最后還是細心分析了,做事要認真

{
  code: 0,
  data: [
    /////{
      id: "89",
      name: "復活節",
      is_new: true,
      images: [
        {
          id: "2165",
          name: "FH10",
          url: "http://fileicyouxxxxxxxxxxxx",
          big_url: "http://file.pxxxxx.png",
          category_id: "89",
          pure_color: "1",
          width: "750",
          height: "750",
          is_new: true
        },////
         ////{  
          id: "2165",
          name: "FH10",
          url: "http://fileicyouxxxxxxxxxxxx",
          big_url: "http://file.pxxxxx.png",
          category_id: "89",
          pure_color: "1",
          width: "750",
          height: "750",
          is_new: true
}///]]}

這是簡化的json,但都是如此循環的,data里有多個字典,但這里只給出一個,而字典里又有一個images的列表,列表里又有字典,只要在這個字典里獲取big_url的值,就是獲取了素材的下載地址,好亂,是不是,我一開始,也是懵比的

3.廢話少說,代碼

要用的話,文件的地址要改
要用的話,文件的地址要改
要用的話,文件的地址要改

#-*-coding:utf8;-*-
import os,re,requests,json,time
head={'User-Agent':'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/5.0.5 Mobile/8A93 Safari/6531.22.77'}

r=requests.get('http://api.picyoung.com/static/json/assets_lib_v2.json?tm=25048106',headers=head)#獲取json

data=json.loads(r.text.encode('utf8'))#將網頁加載給json解析

for item in data['data']['category'][0]['child']:#這里的0很重要,因為一共有6個主題,所以當0爬取完時,就填1,以此類推,填到5,當然你也可以通過一個循環自動爬取全部
  filename=item['name'].replace(' ','').encode('utf8') 
   if False==os.path.exists('/sdcard/to/%s'%filename):#判斷文件夾存在,不存在,就創建

   os.mkdir("/sdcard/to/%s"%filename)

  a=0

  for items in item['images']:#遍歷images列表里的字典
   url=items['big_url']#從字典里取圖片的下載地址
   r=requests.get(url,headers=head,timeout=10)#加載圖片

   with open('/sdcard/to/%s/%s.png'%(filename,a),'wb') as code:

    print '正在下載[%s]/%s'(item['name'].encode('utf8'),a)
    code.write(r.content)#寫入圖片
   a+=1
   time.sleep(0.5)#每爬取完一張,就休眠0.5秒,防止被網站發現

寫在最后

感謝圖癢這個公司,同時推薦大家使用
我的QQ1208662778,隨時可問問題
數據大概這么多

圖片發自簡書App

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容