scrapy寫爬蟲時候的錯誤和問題總結

  • 請求的時候沒有返回response
    結論: 更改settings.py中的ROBOTSTXT_OBEYFalse
    爬取的時候,發現responseNone,本來以為是該頁面做了保密機制,以及一些防爬蟲的機制,所以之后偽裝成瀏覽器,發現也不可以,查了一些資料,發現問題所在在robots.txt
    scrapy shell中調試發現這一行
    2017-01-17 11:55:02 [scrapy] DEBUG: Crawled (200) <GET http://xxx.com/robots.txt> (referer: None)
    其中的robots.txt很耐人尋味,主要就是她的問題,在此不在深入解釋,具體可參考這位大大的文章
    [爬蟲出現Forbidden by robots.txt][1]
    [1]: http://blog.csdn.net/zzk1995/article/details/51628205

但是更改ROBOTSTXT_OBEYFalse后對爬蟲以及其他有沒有什么影響由于時間原因,暫時沒有深入研究,有了解的大神可留言進行討論~

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容