爬虫
爬虫
在 Crawlab 中,爬虫是网络爬虫程序的基本单位。您可以将其看作一个爬虫软件项目,它由代码文件组成,例如 Scrapy 项目。请注意,这里提到的 项目 与 Crawlab 中的基础概念 项目 是不同的。
注意
爬虫 这个概念在 Crawlab 非常重要,因此我们强烈推荐您仔细阅读这一章节。
典型流程
以下是用户在 Crawlab 操作爬虫的典型流程。
创建爬虫
- 导航到
爬虫
页面,再点击左上方的新建爬虫
按钮 - 输入
名称
、执行命令
等相关信息 - 点击
确认
执行命令
是爬虫运行时的基础命令,例如 scrapy crawl myspider
,相当于在运行爬虫时执行的 bash/shell 命令。
增量同步文件
是指是在爬虫运行时,是否对爬虫程序的文件进行增量同步,而不是每次都下载全部文件。打开后,可以节省爬虫文件下载时间。
自动安装依赖
是指在爬虫运行时,是否自动安装爬虫所需的依赖包(例如 requirements.txt
中的依赖包)。(该功能仅限专业版)
上传爬虫
有几种上传爬虫文件的方式。
上传目录
- 导航到爬虫详情页
- 点击
文件
标签 - 点击导航条上的
上传文件
按钮 - 选择
目录
- 点击
点击选择目录上传
- 选择爬虫文件所在目录
- 点击
确认
上传文件
- 导航到爬虫详情页
- 点击
文件
标签 - 点击导航条上的
上传文件
按钮 - 选择
文件
- 拖拽爬虫文件到放置区,或直接点击放置区并选择爬虫文件
- 点击
确认
上传文件 (拖拽)
- 导航到爬虫详情页
- 点击
文件
标签 - 拖拽爬虫文件或目录到左侧导航栏的目录里
运行爬虫
您可以根据以下步骤来运行爬虫
- 如果您在爬虫详情页,点击导航条上名为
运行
的播放按钮 - 如果您在
爬虫列表
页面,点击右侧名为运行
的播放按钮 - 选择合适的爬虫运行设置
- 点击
确认
之类是爬虫运行设置的解释。
执行命令
: 将被实际运行的 cmd/bash/shell 基础命令执行参数
: 被传入执行命令
的参数模式
: 运行模式,默认为随机节点
.优先级
: 任务优先级,默认为 5