数据源


数据源

Crawlab 支持数据源集成,这意味着您可以使用 Crawlab 管理您的数据源,例如 MongoDB、MySQL、PostgreSQL、SQL Server 等。

支持的数据源

类别数据源支持
非关系型MongoDBopen in new window
非关系型ElasticSearchopen in new window
关系型MySQLopen in new window
关系型PostgreSQLopen in new window
关系型SQL Serveropen in new window
关系型CockroachDBopen in new window
关系型Sqliteopen in new window
流处理Kafkaopen in new window

新建数据源

  1. 导航至 数据源 页面
    data-sources-menu
  2. 点击 新建数据源 按钮
    new-data-source-button
  3. 选择 类型 作为数据源类型,并输入 名称 以及连接信息
    mongo-form
  4. 点击 保存 按钮

使用数据源

  1. 导航至 爬虫详情 页面
  2. 数据源 中选择相应的数据源
    mongo-data-source
  3. 点击 保存 按钮
  4. 在保存结果数据的地方,添加相应的集成代码 (参考下面的 爬虫代码例子)
  5. 运行爬虫,您将能在 数据 标签中看到结果数据
    results

爬虫代码例子

通用 Python 爬虫

crawlab-sdkopen in new window 的方法 save_item 可被调用来保存数据到对应的数据源。


```py
from crawlab import save_item

...
  save_item(result_item)
...

Scrapy 爬虫

添加 crawlab.CrawlabPipelinesettings.py.

ITEM_PIPELINES = {
  'crawlab.CrawlabPipeline': 300,
}