流行的大数据技术,涉及大数据处理的各个阶段,包括:架构,采集,存储,计算处理和可视化。我们下面对hadoop生态圈做下了解:
The hadoop includes these modules:
- Hadoop Common: 为其他hadoop模块提供基础设施。
- Hadoop Distributed File System
(HDFS™): 一个高可靠、高吞吐量的分布式文件系统 - Hadoop YARN: 一个新的MapReduce框架,任务调度与资源管理
- Hadoop MapReduce: 一个分布式的离线并进行计算框架 ——分布式计算框架
- Hadoop Ozone:
生态圈的一款新的对象存储系统,可用于小文件和大文件存储
Other Hadoop-related projects at Apache include:
- Ambari™: 一种用于供应,管理和监控Apache Hadoop集群的基于Web的工具,其中包括对 Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop. Ambari还提供了一个用于查看集群运行状况的仪表板,例如热图以及以可视方式查看MapReduce,Pig和Hive应用程序以及以用户友好的方式诊断其性能特征的功能。.
- Avro™:数据序列化系统。
- Cassandra™:无单点故障的可扩展多主数据库。
- Chukwa™:管理大型分布式系统的数据收集系统。
- HBase™:可扩展的分布式数据库,支持大型表格的结构化数据存储。
- Hive™:提供数据汇总和即席查询的数据仓库基础架构。
- Mahout™:可扩展的机器学习和数据挖掘库。
- Pig™:用于并行计算的高级数据流语言和执行框架。
- Spark™:用于Hadoop数据的快速和通用计算引擎。Spark提供了一个简单而富有表现力的编程模型,支持广泛的应用程序,包括ETL,机器学习,流处理和图计算。
- Tez™:一种基于Hadoop YARN的通用数据流编程框架,它提供了一个强大且灵活的引擎,可执行任意DAG任务来处理批处理和交互式用例的数据。Hado™,Pig™和Hadoop生态系统中的其他框架以及其他商业软件(例如ETL工具)正在采用Tez来替代Hadoop™MapReduce作为底层执行引擎。
- ZooKeeper™:分布式应用程序的高性能协调服务
- Flume: 日志收集工具
- Sqoop: 数据ETL/同步工具
- Oozie: 工作流程调度器
- Mesos: 分布式资源管理器
- Techyon: 分布式内存文件系统
- Giraph: 图计算模型
- MLib: 机器学习库
- Spark Streaming:流计算模型
- Kafka: 分布式消息队列
- Phoenix:HBase SQL接口
- Kylin+Druid
Kylin是一个开源的分布式分析引擎
Druid是目前最好的数据库连接池 - Superset: 是Airbnb开源的数据挖掘平台
- Storm: 分布式实时大数据处理系统
大数据解决方案
- Cloudera
- Hortonworks:基于hadoop apache开发的
- MapR:是一个比Hadoop分布式文件系统还要块3倍的产品。
- 华为FusionInsight
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/140817.html