《开源精选》是我们分享 Github、Gitee 等开源社区中优质项目的栏目,包括技术、学习、实用与各种有趣的内容。本期推荐的 Qualitis 是一个数据质量管理平台,支持对各种数据源进行质量验证、通知和管理。用于解决数据处理引起的各种数据质量问题。
项目概述
Qualitis 基于 Spring Boot 向 Linkis 平台提交质量模型任务。提供数据质量模型构建、数据质量模型执行、数据质量验证、数据质量生成报告等功能。
同时,Qualitis 提供财务级资源隔离、管理和访问控制的企业级特性。也保证了在高并发、高性能、高可用的场景下也能正常工作。
特征
-
• 数据质量模型定义
支持以下数据质量模型:
1.单表模型。
2.多表模型。
3.定制模型。
同时,Qualitis 预置了多个数据质量验证模板,包括空校验、空白校验、数校验、枚举校验等常用校验,简化了数据质量模型定义。
-
• 数据质量模型调度
支持数据质量模型调度。
-
• 数据质量报告
支持生成数据质量报告。
-
• 日志管理
支持数据质量任务的管理。
-
• 异常数据管理
支持异常数据存储,快速定位问题。
-
• 支持工作流 支持在工作流当中进行数据质量校验
工作流必装DataSphereStudio.
-
• 管理员控制台
提供管理员控制台界面,支持人员管理,权限管理,权限管理,元数据管理等管理功能。
系统架构图
快速部署
-
1. 基础软件安装
Gradle (4.9)
MySQL (5.5+)
JDK (1.8.0_141)
Hadoop (2.7.2)
Hive (1.2.1)
Zookeeper (3.4.9)
Linkis (0.9.1),需要 Spark 引擎。
2.下载
地址:https://github.com/WeBankFinTech/Qualitis/releases
3.编译
gradle clean distZip
安装
解压
zip
unzip qualitis-{version}.zip
tar
tar -zxvf qualitis-{VERSION}.tar.gz
连接 MySQL 并初始化数据
mysql -u {USERNAME} -p {PASSWORD} -h {IP} --default-character-set=utf8
source conf/database/init.sql
修改配置
vim conf/应用程序-dev.yml
修改以下配置:
## 数据库配置
spring.datasource.username=
spring.datasource.password=
spring.datasource.url=
##数据库配置,同上
task.persistence.username=
task.persistence.password=
task.persistence.address=
## 动物园管理员地址
zk.address=
启动服务
dos2unix bin/*
sh bin/start.sh
登录
打开浏览器并输入“localhost:8090”
配置
点击“配置”->“集群配置”添加集群。在下面输入配置信息:
集群名称(Hadoop 集群的名称)
集群类型 Linkis 地址 Linkis Token
提示:
Qualitis 将异常数据保存在数据库中。保存的数据库名称可以在系统设置中配置,如下图:
如图所示,Qualitis 提供了${USERNAME}作为用户名替换的表达式。不同用户运行的异常数据存储在各自的数据库中。
用户手册
创建项目
登录后,点击左侧菜单中的“规则配置”按钮。
在下面的二级菜单中,点击“项目”按钮进入项目模块。
然后,点击左上角的“新建项目”按钮,进入“新建项目页面”。
输入以下信息
1) 项目名称
项目名称,唯一。
2) 项目介绍
您可以通过单击“确定”来创建一个新项目。
运行应用
传送门
开源协议:Apache 2.0
开源地址:https://gitee.com/WeBank/Qualitis
-END-
原文始发于微信公众号(开源技术专栏):使用 Qualitis 和 Spring Boot 在 Linkis 平台上提升数据质量,一站式解决方案
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/79618.html