一、基础知识
海量、多样、高增速、高速
(一)采集:
Flume/Kafka/Sqoop
(二)存储:
Mysql/Hasoop/Hbase/HDFS/mongoBD/Kafka
(三)计算:
Hive/Tez/Spark/Flink/Storm/MapReduce/Presto
(四)查询:
Presto/Druid/Kylin/Impala
(五)可视化:
Superset/Echarts/QuickBI/DataV
(六)任务调度:
Azkaban
(七)集群监控:
Zabbix
(八)元数据管理:
Atlas
(九)数据质量监控:
Shell/Griffin/python
二、开发平台
(一)Hadoop大数据处理框架
特性:处理、存储、分析、分布式、非结构化数据、开源框架
低成本、高可靠、高扩展、高有效、高容错
语言:Java
意义:大数据分布式系统基础架构、数据管理系统、数据分析
大规模并行处理框架、生态圈
1、MapReduce 磁盘离线分布式计算框架
磁盘离线批处理
计算分析
大规模数据并行运算
分布式运算
Map(映射)、Reduce(归约)
基础工具包、RPC 框架
将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序
2、HDFS分布式文件系统
3、HBase 实时数据存储管理系统
列族数据库、非关系型数据库
4、Zookeeper集群分布式协调系统
集群管理、分布式锁
5、Hive离线数据仓库
6、Yarn运行调度资源管理平台
7、TeZ(DAG计算)
计算分析
8、Spark(内存计算)
计算分析
9、Pig:流数据处理
提供类似sql语句查询
轻量级编程语言
10、Oozie:作业流调度系统
11、Flume:日志相关收集
美团
12、Sqoop:完成数据导入导出
数据库ELT工具
关系型数据库到HDFS、HBase、Hive互导
13、Ambari(最上层):部署工具
Hadoop快速部署工具
(二)Spark通用内存并行计算框架
特性:快速、易用、通用、随处
语言:Scala、函数式、面向对象
意义:大数据计算分析引擎
内存、可落地到磁盘
1、Spark core
2、Spark SQL
3、Spark Streaming:流处理库
4、graph-parallel(GraphX):图并行处理库
5、ML(MLlib):机器学习库
6、Shark SQL:并行式SQL查询库
7、HDFS、Tachyon:分布式文件存储系统(大量数据的存储)
8、Mesos,YARN:资源管理框架(调度计算任务)
三、数据仓库
四、数据分析
五、机器学习
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/75288.html