使用scrapy命令新建一個scrapy爬蟲項目,命令行:scrapy startproject first_spider
初始化Scrapy項目中,各文件和文件夾的作用
first_spider文件夾內,有一個scrapy.cfg配置文件和first_spider的文件夾
- 第一層[一級first_spider目錄]:
- scrapy.cfg:配置文件,不需要更改
- first_spider文件夾:第二層解釋
- 第二層[二級first_spider目錄]:
- init.py
特定文件,指明二級first_spider目錄為一個python模塊- item.py:定義需要的item類【實驗中需要用到】
- pipeline.py:管道文件,傳入item.py中的item類,清理數據,保存或入庫
- settings.py:設置文件,例如設置用戶代理和初始下載延遲
- spiders目錄:第三層解釋
- 第三層【spiders目錄】
- init.py
特定文件,指明二級first_spider目錄為一個python模塊- 這里是放自定義爬蟲的py文件,負責從html中獲得數據,傳入上一層管道文件中進行數據清理