BigData大数据开发路线详细完整结构知识体系学习大全（2022）

小半 • 2023年1月13日下午4:06 • 技术随笔 • 阅读 223

BigData

一、基础知识
二、开发平台
三、数据仓库
四、数据分析
五、机器学习

一、基础知识

海量、多样、高增速、高速

（一）采集：

Flume/Kafka/Sqoop

（二）存储：

Mysql/Hasoop/Hbase/HDFS/mongoBD/Kafka

（三）计算：

Hive/Tez/Spark/Flink/Storm/MapReduce/Presto

（四）查询：

Presto/Druid/Kylin/Impala

（五）可视化：

Superset/Echarts/QuickBI/DataV

（六）任务调度：

Azkaban

（七）集群监控：

Zabbix

（八）元数据管理：

Atlas

（九）数据质量监控：

Shell/Griffin/python

二、开发平台

（一）Hadoop大数据处理框架

特性：处理、存储、分析、分布式、非结构化数据、开源框架
	 低成本、高可靠、高扩展、高有效、高容错
语言：Java
意义：大数据分布式系统基础架构、数据管理系统、数据分析
	 大规模并行处理框架、生态圈

1、MapReduce 磁盘离线分布式计算框架

磁盘离线批处理
计算分析
大规模数据并行运算
分布式运算
Map（映射）、Reduce（归约）
基础工具包、RPC 框架
将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序

2、HDFS分布式文件系统

3、HBase 实时数据存储管理系统

列族数据库、非关系型数据库

4、Zookeeper集群分布式协调系统

集群管理、分布式锁

5、Hive离线数据仓库

6、Yarn运行调度资源管理平台

7、TeZ（DAG计算）

计算分析

8、Spark（内存计算）

计算分析

9、Pig：流数据处理

提供类似sql语句查询
轻量级编程语言

10、Oozie：作业流调度系统

11、Flume：日志相关收集

美团

12、Sqoop：完成数据导入导出

数据库ELT工具
关系型数据库到HDFS、HBase、Hive互导

13、Ambari(最上层)：部署工具

Hadoop快速部署工具

（二）Spark通用内存并行计算框架

特性：快速、易用、通用、随处
语言：Scala、函数式、面向对象
意义：大数据计算分析引擎
内存、可落地到磁盘

1、Spark core

2、Spark SQL

3、Spark Streaming：流处理库

4、graph-parallel（GraphX）：图并行处理库

5、ML(MLlib)：机器学习库

6、Shark SQL：并行式SQL查询库

7、HDFS、Tachyon：分布式文件存储系统（大量数据的存储）

8、Mesos，YARN：资源管理框架（调度计算任务）

三、数据仓库

四、数据分析

五、机器学习

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/75288.html

BigData大数据开发路线详细完整结构知识体系学习大全（2022）

BigData

一、基础知识

（一）采集：

（二）存储：

（三）计算：

（四）查询：

（五）可视化：

（六）任务调度：

（七）集群监控：

（八）元数据管理：

（九）数据质量监控：

二、开发平台

（一）Hadoop大数据处理框架

1、MapReduce 磁盘离线分布式计算框架

2、HDFS分布式文件系统

3、HBase 实时数据存储管理系统

4、Zookeeper集群分布式协调系统

5、Hive离线数据仓库

6、Yarn运行调度资源管理平台

7、TeZ（DAG计算）

8、Spark（内存计算）

9、Pig：流数据处理

10、Oozie：作业流调度系统

11、Flume：日志相关收集

12、Sqoop：完成数据导入导出

13、Ambari(最上层)：部署工具

（二）Spark通用内存并行计算框架

1、Spark core

2、Spark SQL

3、Spark Streaming：流处理库

4、graph-parallel（GraphX）：图并行处理库

5、ML(MLlib)：机器学习库

6、Shark SQL：并行式SQL查询库

7、HDFS、Tachyon：分布式文件存储系统（大量数据的存储）

8、Mesos，YARN：资源管理框架（调度计算任务）

三、数据仓库

四、数据分析

五、机器学习

相关推荐

分享到: