一、實驗目的和要求:
爬取川大公共管理學院網站新聞欄里的鏈接,進而獲取詳情頁信息。
二、實驗步驟:
(1)分析被采集對象:公共管理學院網站新聞欄里的新聞標題以及詳情頁的文本信息等。
利用開發者工具,我們可以查看標題鏈接代碼
在linux配置好scrapy的前提下,每次使用需要先激活虛擬環境
cd /home/slx/venv //進入venv虛擬環境的目錄
source bin/activate //激活
(2)創建一個新的Scrapy項目,運行下列命令
# scrapy startproject newsbox
(3)定義item
(4)編寫爬蟲
設置完items之后,在spiders目錄下新建一個ggglnews.py文件,代碼如下:
(5)運行命令,得到數 據,并得到命名為ggglnews的xml文件
scrapy crawl ggglnews -o ggglnews.xml
截取部分內容顯示如下:在終端顯示的內容
三、實驗結果:
爬取到的十二條item數據對應新聞欄的十二條新聞消息
四、討論和分析:
過程中遇到的難點:定位元素并利用xpath進行路徑選擇