熱門標簽下名人名言的采集

采集過程:
在已建立的quotes項目下編寫爬蟲,并執行,同時保存為xml或者json格式。本次采集嘗試使用兩種方法,一個是css選擇器,另一個是xpath選擇器。
1、利用css編寫爬蟲tag1_spider.py

熱門標簽名人名言css.png

抓取結果:


名人名言css抓取結果.png

共獲得101條數據
保存為xml:scrapy crawl tag1 -o tag1.xml


保存為xml格式.png
cssxml.png

在這個過程中遇到的問題是無法設置xml的層級結構,也就是說不能將相應的名人名言歸在對應的所屬的tag的標簽里面,如上圖所示,不能將tag為reading的名人名言放在reading對應的標簽之下。
2.利用xpath編寫爬蟲tag3_spider.py

熱門標簽的名人名言xpath.png
名人名言xpath抓取結果.png

同樣獲得了101條數據
保存為xml:scrapy crawl tag3 -o tag3.xml

xpathxml.png
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容