项目结构
约 353 字大约 1 分钟
2025-01-11
项目结构
- my_project# 项目根目录(你的项目名称)
- spiders# 爬虫文件目录
- __init__.py
- first_spider.py# 爬虫文件(你的爬虫文件名称)
- __init__.py
- generator.py# 用于创建更多爬虫文件的模块
- items.py# 配置抓取字段的模块
- middleware.py# 配置中间件hook的模块
- pipelines.py# 配置数据处理管道的模块
- settings.py# 项目配置文件
- spiders# 爬虫文件目录
模块功能说明
项目根目录
: 作为项目的跟目录文件夹,包含spiders
目录,generator.py
、items.py
、middleware.py
、pipelines.py
、settings.py
。spiders
: 用于管理和存放所有爬虫文件,在此目录下爬虫文件才可以正常执行任务。generator.py
: 用于新建更多的爬虫文件任务,通过传递不同的参数来创建不同的爬虫任务。items.py
: 用于配置抓取的字段信息,如字段名称,数据类型,默认值等,方便爬虫任务进行传递保存数据。middleware.py
: 用于配置和创建更多的中间件任务,来进行个性化和定制化系统执行功能。pipelines.py
: 用于配置数据处理管道,进行进一步的数据清洗和持久化操作。settings.py
: 项目全局配置文件,爬虫内部没有自定义配置的时候默认使用该配置文件中的设置。