Scrapy項目文件介紹

使用scrapy命令新建一個scrapy爬蟲項目,命令行:scrapy startproject first_spider
初始化Scrapy項目中,各文件和文件夾的作用



first_spider文件夾內,有一個scrapy.cfg配置文件和first_spider的文件夾

  • 第一層[一級first_spider目錄]:
  • scrapy.cfg:配置文件,不需要更改
  • first_spider文件夾:第二層解釋
  • 第二層[二級first_spider目錄]:
  • init.py
    特定文件,指明二級first_spider目錄為一個python模塊
  • item.py:定義需要的item類【實驗中需要用到】
  • pipeline.py:管道文件,傳入item.py中的item類,清理數據,保存或入庫
  • settings.py:設置文件,例如設置用戶代理和初始下載延遲
  • spiders目錄:第三層解釋
  • 第三層【spiders目錄】
  • init.py
    特定文件,指明二級first_spider目錄為一個python模塊
  • 這里是放自定義爬蟲的py文件,負責從html中獲得數據,傳入上一層管道文件中進行數據清理
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容