Python爬蟲-Android手寫爬蟲

我以我自己的想法來分析用Python爬網頁的步驟以及注意點~

首先我個人認為一個小爬蟲的步驟很簡單,無非就是“找網站-分析網頁源碼-請求-分析-匹配-輸出”,就這樣,這是我個人理解

那么手機爬蟲也就是和PC端一毛一樣,除了工具以外

那么開始吧~

我這里推薦三個手機app:packet capture(抓包工具,網上有漢化版)、termux(手機終端)、pydroid(網絡上比較少,但是可以到Google play下載,只支持Python2,我這里有自己漢化了的,有需求的可以找我)

這篇文章只用兩個軟件:termux和chrome瀏覽器即可

我們要爬取的網站是著名的老司機網站:i.jandan.net,我們只抓取100頁的圖片(60-160)

網址在這:http://i.jandan.net/ooxx/page-60,沒瞎的人都知道page-60是指的頁碼。。。我沒鄙視那些沒看懂的人;但是我們還不知道它網頁的構造,在瀏覽器的網址欄上加上“view-source”,加在網址的最前面,也就成了這樣

圖片發自簡書App

OK,現在該網頁的源碼已經呈現在我們眼前了,可能看著有點費勁,但還好有高亮,不算太坑爹

圖片發自簡書App

一般情況下:我們找到圖片的鏈接關鍵字,比如href、jpg、png之類的

但是這,我們只需要找“查看原圖”這四個字就可以了,找到之后,我們可以看到它的一個圖片都是用一個div給包裹著,每個都是

圖片發自簡書App

這個就好辦了,可以開始寫代碼來

那么開始把,打開termux,新建一個crawler.py文件,我這里是這個,你們隨意

圖片發自簡書App

然后導入我們那需要的包

import requests
import re

只需要這兩個包即可

然后分享一下我的代碼:

圖片發自簡書App

圖片發自簡書App

接下來,我們就只需要下載就可以完成了,看代碼吧:

圖片發自簡書App

下載過程:

圖片發自簡書App

完成:

圖片發自簡書App

簡單,代碼量很少,有用的代碼最多20行

感謝觀看,有錯的地方別噴,指出來,我學習。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 173,381評論 25 708
  • 本內容為《用Python寫網絡爬蟲》書籍內容,有興趣的讀者可以購買本書,本章的代碼皆可在Python3中運行。為了...
    海人為記閱讀 2,270評論 0 5
  • 1 前言 作為一名合格的數據分析師,其完整的技術知識體系必須貫穿數據獲取、數據存儲、數據提取、數據分析、數據挖掘、...
    whenif閱讀 18,106評論 45 523
  • ??調伏身心:昨晚帶孩子去跳舞,等待的過程中,站樁半個鐘,晚上10點回到家,繼續熱水泡腳、身體熱敷。早晨醒來繼續站...
    陳俊寧閱讀 339評論 0 1
  • 最近被看了一部電視劇《大唐榮耀》。之所以說“被”,是因為遙控器掌握在老婆手里。先不說景田那叫一個漂亮,今天我拿廣平...
    一路凱哥閱讀 555評論 2 4