一款开源、强悍的分布式爬虫管理平台

戳上方蓝字“极客之家”关注!

简介

基于 Golang 的分布式爬虫管理平台,支持 Python、NodeJS、Go、Java、PHP 等多种编程语言以及多种爬虫框架。

谁适合使用 Crawlab?

  • 网路爬虫工程师: 通过集成爬虫程序到 Crawlab,网路爬虫工程师可以聚焦于爬虫的核心解析逻辑,从而避免浪费过多时间在开发通用模块上,例如任务队列、存储、日志、消息通知等。

  • 运维工程师: Crawlab 对于运维工程师来说最大的好处是部署便利(对于爬虫程序和 Crawlab 本身)。Crawlab 支持 Docker 或 Kubernetes 一键安装。

  • 数据分析师: 数据分析师如果能写代码(例如 Python),则可以开发爬虫程序(例如 Scrapy)然后上传到 Crawlab,然后就可以把所有脏活累活交给 Crawlab,它能够自动抓取数据。

  • 其他: 准确的说,任何人都能够享受 Crawlab 自动化带来的便利。虽然 Crawlab 尤其擅长执行网络爬虫任务,但它不仅限于此,它能够被用来运行其他类型的任务,例如数据处理和自动化。

快速开始

请打开命令行并执行下列命令。请保证已经提前安装了 docker-compose。

git clone https://github.com/crawlab-team/examples
cd examples/docker/basic
docker-compose up -d

接下来,可以看 docker-compose.yml (包含详细配置参数),以及参考 文档 来查看更多信息。

文档:https://docs.crawlab.cn/zh/guide/

运行

Docker

请用docker-compose来一键启动,甚至不用配置 MongoDB 数据库,「当然我们推荐这样做」。在当前目录中创建docker-compose.yml文件,输入以下内容。

version: '3.3'
services:
  master:
    image: crawlabteam/crawlab:latest
    container_name: crawlab_example_master
    environment:
      CRAWLAB_NODE_MASTER: "Y"
      CRAWLAB_MONGO_HOST: "mongo"
    volumes:
      - "./.crawlab/master:/root/.crawlab"
    ports:
      - "8080:8080"
    depends_on:
      - mongo

  worker01:
    image: crawlabteam/crawlab:latest
    container_name: crawlab_example_worker01
    environment:
      CRAWLAB_NODE_MASTER: "N"
      CRAWLAB_GRPC_ADDRESS: "master"
      CRAWLAB_FS_FILER_URL: "http://master:8080/api/filer"
    volumes:
      - "./.crawlab/worker01:/root/.crawlab"
    depends_on:
      - master

  worker02:
    image: crawlabteam/crawlab:latest
    container_name: crawlab_example_worker02
    environment:
      CRAWLAB_NODE_MASTER: "N"
      CRAWLAB_GRPC_ADDRESS: "master"
      CRAWLAB_FS_FILER_URL: "http://master:8080/api/filer"
    volumes:
      - "./.crawlab/worker02:/root/.crawlab"
    depends_on:
      - master

  mongo:
    image: mongo:4.2
    container_name: crawlab_example_mongo
    restart: always

然后执行以下命令,Crawlab 主节点、工作节点+ MongoDB 就启动了。打开http://localhost:8080就能看到界面。

docker-compose up -d

Docker 部署的详情,请见相关文档。

文档:https://docs.crawlab.cn/zh/guide/installation/docker.html

界面截图

一款开源、强悍的分布式爬虫管理平台
一款开源、强悍的分布式爬虫管理平台
一款开源、强悍的分布式爬虫管理平台
一款开源、强悍的分布式爬虫管理平台
一款开源、强悍的分布式爬虫管理平台
一款开源、强悍的分布式爬虫管理平台
一款开源、强悍的分布式爬虫管理平台

与其他框架比较

现在已经有一些爬虫管理框架了,因此为啥还要用 Crawlab?

因为很多现有当平台都依赖于 Scrapyd,限制了爬虫的编程语言以及框架,爬虫工程师只能用 scrapy 和 python。当然,scrapy 是非常优秀的爬虫框架,但是它不能做一切事情。

Crawlab 使用起来很方便,也很通用,可以适用于几乎任何主流语言和框架。它还有一个精美的前端界面,让用户可以方便的管理和运行爬虫。

一款开源、强悍的分布式爬虫管理平台

开源地址

https://github.com/crawlab-team/crawlab

后端专属技术群
构建高质量的技术交流社群,欢迎从事编程开发、技术招聘HR进群,也欢迎大家分享自己公司的内推信息,相互帮助,一起进步!
文明发言,以交流技术职位内推行业探讨为主

广告人士勿入,切勿轻信私聊,防止被骗

一款开源、强悍的分布式爬虫管理平台

加我好友,拉你进群

一款开源、强悍的分布式爬虫管理平台

原文始发于微信公众号(极客之家):一款开源、强悍的分布式爬虫管理平台

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/289015.html

(0)
土豆大侠的头像土豆大侠

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!