爬取圖片和文字鏈接并保存

1正則表達式

貪婪與非貪婪

例如r'src="(.+?/.jpg)”就是圖片

而r'src="(.+/.jpg)”jpg會到最后一個,不會出

urllib.urlretrieve(url,local,callback)存圖片

注意有些網站會對cookie進行檢測。要弄一下。‘

有些有登錄名的可以把string轉為url的格式再加載url后,加request就行了

結合網絡域名收集并與這個方法用連用就可以了

2實踐經驗

1.先下載個目標中的任意頁面到本地。進行抓取測試

2.過濾的時候要宏觀一點。不要太體到一條。否則可能會漏掉

3.好用一點findall(tag類,合適字典對),可以一點點縮小范圍。結合正則好用。

4.attr:標簽屬性 一般有class ?name

5.抓取時除了注意頭信息和cookie。最好再多使用幾個代理

6.最后要想著怎么把數據存進數據庫

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容