* 戳上方蓝字“开源先锋”关注我
大家好,我是开源君,一个热爱开源的程序员!
今天介绍的开源项目是 SpiderFlow 。
无需敲代码,即可爬数据。
简介
SpiderFlow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫
特性
快速部署
基础环境
JDK >= 1.8
Mysql >= 5.7
Maven >= 3.0 下载地址:(http://maven.apache.org/download.cgi)
搭建本地环境
导入数据库
基础表:spider-flow/db/spiderflow.sql
导入项目到 idea

修改 application.propeties
修改 spider-flow-web 下面的application.propeties
# 数据库配置
spring.datasource.username=root
spring.datasource.password=root
spring.datasource.url=jdbc:mysql://localhost:3306/spiderflow?useSSL=false&useUnicode=true&characterEncoding=UTF8&autoReconnect=true
运行项目
运行 SpiderApplication 类,看到以下信息,即启动成功
Tomcat started on port(s): 8088 (http) with context path ''
Started SpiderApplication in 4.22 seconds (JVM running for 4.951)
使用
访问
基础组件介绍
开始节点
爬取节点
定义变量
该节点用于定义变量之后,可以与表达式配套使用,实现动态设置各项参数(如动态请求分页地址)
变量名:变量的名字,当变量名重复时,会覆盖前一个变量。
变量值:变量的值,可以是常量,可以是表达式。
输出节点
该节点主要用于调试,测试时会把输出打印到页面中,另外也可以用来自动保存到数据库或文件。
例子:抓取百度热搜问题
设置爬取的节点配置

设置变量规则

设置输出

运行爬虫
小结
我们直接将爬虫平台部署好后,一句代码也没写就可以直接根据网站情况,创建爬虫爬取数据。就问大家 SpiderFlow 这个项目香不香?
项目地址:https://github.com/ssssssss-team/spider-flow
原文始发于微信公众号(开源先锋):无码爬虫,真香!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/178404.html