三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

<output id="plfva"></output>

<ruby id="plfva"><rp id="plfva"></rp></ruby>

<acronym id="plfva"><cite id="plfva"></cite></acronym>

登錄注冊寫文章

實驗報告：采集川大公共管理學院新聞欄信息

實驗報告：采集川大公共管理學院新聞欄信息

一、實驗目的和要求：

爬取川大公共管理學院網站新聞欄里的鏈接，進而獲取詳情頁信息。

二、實驗步驟：

（1）分析被采集對象：公共管理學院網站新聞欄里的新聞標題以及詳情頁的文本信息等。

利用開發者工具，我們可以查看標題鏈接代碼

在linux配置好scrapy的前提下，每次使用需要先激活虛擬環境

cd /home/slx/venv //進入venv虛擬環境的目錄

source bin/activate //激活

（2）創建一個新的Scrapy項目，運行下列命令

# scrapy startproject newsbox

（3）定義item

（4）編寫爬蟲

設置完items之后，在spiders目錄下新建一個ggglnews.py文件,代碼如下:

（5）運行命令，得到數據，并得到命名為ggglnews的xml文件

scrapy crawl ggglnews -o ggglnews.xml

截取部分內容顯示如下：在終端顯示的內容

三、實驗結果：

爬取到的十二條item數據對應新聞欄的十二條新聞消息

四、討論和分析：

過程中遇到的難點：定位元素并利用xpath進行路徑選擇

最后編輯于：2017.12.07 02:12:51

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

推薦閱讀更多精彩內容

對四川大學公共管理學院新聞數據爬取的實驗報告
首先生成項目結構定義要抓取的數據為：新聞標題、新聞發生時間、新聞具體內容和uil 找到item文件并進行修改但...
愛FT的芋頭閱讀 429評論 0贊 1
四川大學公共管理學院教師信息采集（起始及修改）
本次信息采集的起始網址為：http://ggglxy.scu.edu.cn/index.php?c=article...
_dami閱讀 502評論 0贊 0
Scrapy采集川大公管學院新聞動態以及全職教師信息實驗報告
目錄： Report B1——采集川大公管學院新聞動態信息 1.確定采集內容 2.創建爬取項目 3.定義spide...
Echo真二閱讀 434評論 0贊 2
為什么要回老家
前幾天趁著假期回了趟老家。雖然距離過年的時候也就過了兩個月。可是那幾天特別特別特別的想家。不知道到底想的是...
晗筱閱讀 248評論 1贊 0
14/70
因為瑣事忙了一天，繼續簽道明天補上
梓占閱讀 204評論 0贊 0

贊1贊

贊賞

手機看全文

主站蜘蛛池模板：龙南县| 达日县| 星子县| 东海县| 宜昌市| 白玉县| 房产| 工布江达县| 三门县| 淳安县| 霍山县| 建湖县| 十堰市| 汶上县| 乃东县| 新竹市| 余庆县| 防城港市| 巴青县| 华蓥市| 余庆县| 五常市| 城步| 齐齐哈尔市| 图片| 上饶市| 松原市| 刚察县| 兴文县| 门头沟区| 芒康县| 海安县| 封开县| 黑龙江省| 鄂州市| 吉林省| 东源县| 剑阁县| 高平市| 永靖县| 江都市|

<pre id="jpa2w"><td id="jpa2w"></td></pre>

<u id="jpa2w"><rp id="jpa2w"></rp></u>