采集過程:
在已建立的quotes項目下編寫爬蟲,并執行,同時保存為xml或者json格式。本次采集嘗試使用兩種方法,一個是css選擇器,另一個是xpath選擇器。
1、利用css編寫爬蟲tag1_spider.py
熱門標簽名人名言css.png
抓取結果:
名人名言css抓取結果.png
共獲得101條數據
保存為xml:scrapy crawl tag1 -o tag1.xml
保存為xml格式.png
cssxml.png
在這個過程中遇到的問題是無法設置xml的層級結構,也就是說不能將相應的名人名言歸在對應的所屬的tag的標簽里面,如上圖所示,不能將tag為reading的名人名言放在reading對應的標簽之下。
2.利用xpath編寫爬蟲tag3_spider.py
熱門標簽的名人名言xpath.png
名人名言xpath抓取結果.png
同樣獲得了101條數據
保存為xml:scrapy crawl tag3 -o tag3.xml
xpathxml.png