Paste_Image.png
Paste_Image.png
小豬前三頁的抓取。。。最基本的東西全忘了。導致只抓了3行數據經過老師開導自己研究。。發現時懶癌再生直接copy selector了上述是錯誤的。
Paste_Image.png
當selector如下后就抓取到了好多的網站。
然后就是關于不停測試導致
Paste_Image.png
出現好多重復的情況。如何去重昨天查了一下好像比較簡單。但是對于一個比較懶的人。。還是等需要的時候在研究下。。
Paste_Image.png
大致如上。。如何去重
手機號的爬取
Paste_Image.png
Paste_Image.png
這個是手機號的抓取。。然后太懶了。。沒寫headers。因為覺得單純加headers代碼的健壯性還是不夠。之后大作業會有大量數據抓取光是headers應該沒什么大用
Paste_Image.png
Paste_Image.png
58同城。。。
Paste_Image.png
先提取所有連接,主要還是觀察頁面。后面有用,,,
分頁具體的信息爬取但是還是無法剔除zhuanzhuan
Paste_Image.png
跳過404頁面
Paste_Image.png
主程序有時候導入不進去庫不知道為什么。。自己再看看吧
![Uploading Paste_Image_270456.png . . .]
算下數字。。
Paste_Image.png
還不知道能爬多少。等等再試試
Paste_Image.png
趕集大作業。。。
粗略看了下第三周課程。。。真他媽難。。
爬了上海的。。因為想看看是不是自己有用的到的地方。。
Paste_Image.png
代理上面還存在問題可能是代理的IP有問題。暫時無法做到很好的反爬數據爬個幾萬條就被抓到了。。。下次試試用各種手機端模仿登錄再試試。
![Uploading Paste_Image_394864.png . . .]
404抓取。。好怕下次發現不了有什么就不會了。。
![Uploading Paste_Image_465089.png . . .]
不太明白斷點續傳的問題。。。還是需要重新檢測一遍MONGDB里面存不存在再爬還是什么。。多進程。。不敢用不知道自己電腦是啥程度。。
![Uploading Paste_Image_514857.png . . .]
Paste_Image.png
記數字、、
![Uploading Paste_Image_581209.png . . .]