1正則表達式
貪婪與非貪婪
例如r'src="(.+?/.jpg)”就是圖片
而r'src="(.+/.jpg)”jpg會到最后一個,不會出
urllib.urlretrieve(url,local,callback)存圖片
注意有些網站會對cookie進行檢測。要弄一下。‘
有些有登錄名的可以把string轉為url的格式再加載url后,加request就行了
結合網絡域名收集并與這個方法用連用就可以了
2實踐經驗
1.先下載個目標中的任意頁面到本地。進行抓取測試
2.過濾的時候要宏觀一點。不要太體到一條。否則可能會漏掉
3.好用一點findall(tag類,合適字典對),可以一點點縮小范圍。結合正則好用。
4.attr:標簽屬性 一般有class ?name
5.抓取時除了注意頭信息和cookie。最好再多使用幾個代理
6.最后要想著怎么把數據存進數據庫