實驗報告:采集川大公共管理學院新聞欄信息


一、實驗目的和要求

爬取川大公共管理學院網站新聞欄里的鏈接,進而獲取詳情頁信息。

二、實驗步驟

(1)分析被采集對象:公共管理學院網站新聞欄里的新聞標題以及詳情頁的文本信息等。

利用開發者工具,我們可以查看標題鏈接代碼


在linux配置好scrapy的前提下,每次使用需要先激活虛擬環境

cd /home/slx/venv //進入venv虛擬環境的目錄

source bin/activate //激活

(2)創建一個新的Scrapy項目,運行下列命令

# scrapy startproject newsbox

(3)定義item

(4)編寫爬蟲

設置完items之后,在spiders目錄下新建一個ggglnews.py文件,代碼如下:


(5)運行命令,得到數 據,并得到命名為ggglnews的xml文件

scrapy crawl ggglnews -o ggglnews.xml

截取部分內容顯示如下:在終端顯示的內容

三、實驗結果

爬取到的十二條item數據對應新聞欄的十二條新聞消息

四、討論和分析

過程中遇到的難點:定位元素并利用xpath進行路徑選擇

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容