學(xué)習(xí)
# 繼承 scrapy
start_urls
def parse(self,response)
scrapy runspider file.py -o file.csv
pip install scrapy // 安裝
scrapy startproject demo // 創(chuàng)建項(xiàng)目
cd demo
scrapy genspider gdqy_spider gdqy.gov.cn// 創(chuàng)建 爬蟲(chóng)
iterms.py // 編寫(xiě)字段
piplines.py // 處理獲取的 item 數(shù)據(jù)
# 編寫(xiě)代碼,分析源代碼,獲取 xpath 或者 css path
demo : scrapy crawl gdqy_spider // 運(yùn)行爬蟲(chóng)
問(wèn)題記錄:
- 運(yùn)行爬蟲(chóng)出現(xiàn) 500 錯(cuò)誤:
解決辦法:設(shè)置 settings.py 文件 去掉 USER_AGENT 的注銷(xiāo)
- response.xpath() 無(wú)法獲取數(shù)據(jù):
解決辦法:刪除 xpath 中出現(xiàn)的 tbody
- 出現(xiàn)提示:list index out of range
錯(cuò)誤原因,沒(méi)有獲取到數(shù)據(jù),可能是url 錯(cuò)誤或者是 xpath 錯(cuò)誤,也有可能是需要登陸
- 無(wú)法獲取或者下載到圖片
錯(cuò)誤原因:file_urls 字段的值類(lèi)型必須為 list ,加上 [ ] 括號(hào)
最后編輯于 :
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。