Scrapy學習篇(二)之命令行工具

簡介

Scrapy是通過Scrapy命令行工具進行控制的,包括創建新的項目,爬蟲的啟動,相關的設置,Scrapy提供了兩種內置的命令,分別是全局命令和項目命令,顧名思義,全局命令就是在任意位置都可以執行的命令,而項目命令只有在你新創建了項目之后,在項目目錄中才可以執行的命令。在這里,簡單的介紹一些常用的命令。

全局命令

  • startproject

    語法: scrapy startproject <project_name>
    這個命令是scrapy最為常用的命令之一,它將會在當前目錄下創建一個名為 <project_name>的項目。
  • settings

    語法: scrapy settings [options]
    該命令將會輸出Scrapy默認設定,當然如果你在項目中運行這個命令將會輸出項目的設定值。
  • runspider

    語法: scrapy runspider <spider_file.py>
    在未創建項目的情況下,運行一個編寫在Python文件中的spider。
  • shell

    語法: scrapy shell [url]
    以給定的URL(如果給出)或者空(沒有給出URL)啟動Scrapy shell。
    例如,scrapy shell http://www.baidu.com將會打開百度URL,
    并且啟動交互式命令行,可以用來做一些測試。
  • fetch

    語法: scrapy fetch <url>
    使用Scrapy下載器(downloader)下載給定的URL,并將獲取到的內容送到標準輸出。簡單的來說,就是打印url的html代碼。
  • view

    語法: scrapy view <url>
    在你的默認瀏覽器中打開給定的URL,并以Scrapy spider獲取到的形式展現。 有些時候spider獲取到的頁面和普通用戶看到的并不相同,一些動態加載的內容是看不到的, 因此該命令可以用來檢查spider所獲取到的頁面。
  • version

    語法: scrapy version [-v]
    輸出Scrapy版本。配合 -v 運行時,該命令同時輸出Python, Twisted以及平臺的信息。

項目命令

  • crawl

    語法: scrapy crawl <spider_name>
    使用你項目中的spider進行爬取,即啟動你的項目。這個命令將會經常用到,我們會在后面的內容中經常使用。
  • check

    語法: crapy check [-l] <spider>
    運行contract檢查,檢查你項目中的錯誤之處。
  • list

    語法: scrapy list
    列出當前項目中所有可用的spider。每行輸出一個spider。
  • genspider

    語法: scrapy genspider [-t template] <name> <domain>
    在當前項目中創建spider。該方法可以使用提前定義好的模板來生成spider。您也可以自己創建spider的源碼文件。

總結

上述命令中,startproject和crawl是兩個核心的命令,一個是用來創建項目,一個是用來運行項目,可以說是非常的重要了,至于其他的命令,你可以自己在電腦上運行一下,看一下會出現一些什么樣的信息,只需要了解一下即可,并非必須掌握。在下一個章節中,我們將會創建一個項目,并測試。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容