数据集成
数据集成
您可以通过 Crawlab SDK 集成您的爬虫数据。这允许您在 Crawlab 上以可视化的方式查看爬取的结果。
Crawlab SDK 支持各种爬虫框架的集成,包括 Scrapy,以及各种编程语言,包括 Python,Node.js,Go。
NOTE
默认情况下,Crawlab SDK 已经安装在 Crawlab 的基础镜像中。如果您没有使用 Crawlab Docker 镜像,您也可以手动安装。
Scrapy
- 确保您已经在 Crawlab 上创建了 Scrapy 爬虫。
- 在
settings.py
文件中,将crawlab.CrawlabPipeline
添加到Item_PIPELINES
中。ITEM_PIPELINES = { 'crawlab.CrawlabPipeline': 888, }
- 完成!您现在可以在 Crawlab 上运行您的爬虫了。
Python
- 确保您已经在 Crawlab 上创建了 Python 爬虫。
- 在您的爬虫代码中,添加包导入语句,以导入
save_item
方法。from crawlab import save_item
- 调用
save_item
方法来保存爬取的条目。save_item({'title': 'example', 'url': 'https://example.com'})
Node.js
- 确保您已经在 Crawlab 上创建了 Node.js 爬虫。
- 在您的爬虫代码中,添加包导入语句,以导入
saveItem
方法。const { saveItem } = require('crawlab-sdk');
- 调用
saveItem
方法来保存爬取的条目。saveItem({ title: 'example', url: 'https://example.com' });
Go
- 确保您已经在 Crawlab 上创建了 Go 爬虫。
- 在您的爬虫代码中,添加包导入语句,以导入
SaveItem
方法。import "github.com/crawlab-team/crawlab-sdk-go"
- 调用
SaveItem
方法来保存爬取的条目。crawlab.SaveItem(map[string]interface{}{ "title": "example", "url": "https://example.com", })