- 請求的時候沒有返回response
結論: 更改settings.py
中的ROBOTSTXT_OBEY
為False
爬取的時候,發現response
為None
,本來以為是該頁面做了保密機制,以及一些防爬蟲的機制,所以之后偽裝成瀏覽器,發現也不可以,查了一些資料,發現問題所在在robots.txt
在scrapy shell
中調試發現這一行
2017-01-17 11:55:02 [scrapy] DEBUG: Crawled (200) <GET http://xxx.com/robots.txt> (referer: None)
其中的robots.txt
很耐人尋味,主要就是她的問題,在此不在深入解釋,具體可參考這位大大的文章
[爬蟲出現Forbidden by robots.txt][1]
[1]: http://blog.csdn.net/zzk1995/article/details/51628205
但是更改ROBOTSTXT_OBEY
為False
后對爬蟲以及其他有沒有什么影響由于時間原因,暫時沒有深入研究,有了解的大神可留言進行討論~