我以我自己的想法來分析用Python爬網頁的步驟以及注意點~
首先我個人認為一個小爬蟲的步驟很簡單,無非就是“找網站-分析網頁源碼-請求-分析-匹配-輸出”,就這樣,這是我個人理解
那么手機爬蟲也就是和PC端一毛一樣,除了工具以外
那么開始吧~
我這里推薦三個手機app:packet capture(抓包工具,網上有漢化版)、termux(手機終端)、pydroid(網絡上比較少,但是可以到Google play下載,只支持Python2,我這里有自己漢化了的,有需求的可以找我)
這篇文章只用兩個軟件:termux和chrome瀏覽器即可
我們要爬取的網站是著名的老司機網站:i.jandan.net,我們只抓取100頁的圖片(60-160)
網址在這:http://i.jandan.net/ooxx/page-60,沒瞎的人都知道page-60是指的頁碼。。。我沒鄙視那些沒看懂的人;但是我們還不知道它網頁的構造,在瀏覽器的網址欄上加上“view-source”,加在網址的最前面,也就成了這樣
圖片發自簡書App
OK,現在該網頁的源碼已經呈現在我們眼前了,可能看著有點費勁,但還好有高亮,不算太坑爹
圖片發自簡書App
一般情況下:我們找到圖片的鏈接關鍵字,比如href、jpg、png之類的
但是這,我們只需要找“查看原圖”這四個字就可以了,找到之后,我們可以看到它的一個圖片都是用一個div給包裹著,每個都是
圖片發自簡書App
這個就好辦了,可以開始寫代碼來
那么開始把,打開termux,新建一個crawler.py文件,我這里是這個,你們隨意
圖片發自簡書App
然后導入我們那需要的包
import requests
import re
只需要這兩個包即可
然后分享一下我的代碼:
圖片發自簡書App
圖片發自簡書App
接下來,我們就只需要下載就可以完成了,看代碼吧:
圖片發自簡書App
下載過程:
圖片發自簡書App
完成:
圖片發自簡書App
簡單,代碼量很少,有用的代碼最多20行
感謝觀看,有錯的地方別噴,指出來,我學習。