Python SDK

Crawlab 的 Python SDK 主要由 2 部分构成:

  1. CLI 命令行工具
  2. Utility 工具

CLI 命令行工具

CLI 命令行工具主要是为比较习惯用命令行的开发者设计的,他们可以利用这个命令行工具与 Crawlab 进行交互。

CLI 命令行工具的安装很简单:

pip install crawlab-sdk

然后,您就可以用 crawlab 这个命令在命令行中与 Crawlab 交互了。

可以利用下方命令来查找帮助,或者您可以参考 CLI 章节

crawlab --help

Utility 工具

Utility 工具主要提供一些 Helper 方法来让您的爬虫更好的集成到 Crawlab 中,例如保存结果数据到 Crawlab 中等等。

下面介绍 Scrapy 和一般 Python 爬虫与 Crawlab 集成的方式。

⚠️注意:请确保您已经通过 pip 安装了 crawlab-sdk

Scrapy 集成

settings.py 中找到 ITEM_PIPELINESdict 类型的变量),在其中添加如下内容。

ITEM_PIPELINES = {
    'crawlab.pipelines.CrawlabMongoPipeline': 888,
}

然后,启动 Scrapy 爬虫,运行完成之后,您就应该能看到抓取结果出现在 任务详情-结果 里。

通用 Python 爬虫集成

将下列代码加入到您爬虫中的结果保存部分。

# 引入保存结果方法
from crawlab import save_item

# 这是一个结果,需要为 dict 类型
result = {'name': 'crawlab'}

# 调用保存结果方法
save_item(result)

然后,启动爬虫,运行完成之后,您就应该能看到抓取结果出现在 任务详情-结果 里。

© 2020 Crawlab, Made by Crawlab-Team all right reserved,powered by Gitbook该文件最后修改时间: 2020-05-03 09:14:34

results matching ""

    No results matching ""

    results matching ""

      No results matching ""