大数据
大数据的定义
生成和消费模式发生了很大的变化
原模式:少数公司生成数据,人们消费数据。如电影、报纸
新模式:人们生产数据,人们消费数据。比如微信操作、搜索操作、买东西的痕迹
- 美国国家标准技术研究院给大数据的定义:大数据有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Velocity)、和变化多样性(Variability),且需要一个可扩展体系结构来有效存储、处理和分析广泛收集来的数据
- IBM早期提出4V特性,强调数据的数量(Volume)、多样性(Variety)、速度(Velocity)、难辨识(Veracity)等方面,后来加入数据的价值(Value)成为大数据的5V特性。
大数据特点
- 体量大:volume
- 类型多:variety
- 速度快: velocity
- 价值密度低:value
大数据分析与传统数据分析不同
传统数据分析(BI) | 大数据分析 | |
---|---|---|
关注点 | 描述性分析、诊断 性分析 | 预测性分析 |
数据集 | 有限的干净的数据集、简单模型 | 大规模的数据集、多类的原始数据、复杂的数据类型 |
分析结果 | 事件及其原因 | 新的规律和知识 |
大数据处理过程
1.数据的采集与清洗
2.数据的存储与管理
3.数据的处理与分析
4.数据的呈现与展示
数据获取->数据清洗->数据管理->数据分析->数据呈现
框架
数据采集的工具
scrapy 爬虫框架
flume 日志采集系统
kafka 消息中间件
sqoop数据转换的工具 RDBMS<->Hadoop
Hadoop家族
HDFS hadoop distributed files system
HDFS是一种用于Hadoop应用程序的主存储系统,也是一个高容错性系统,适合部署在廉价机上,同时,HDFS能提高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS为了做到可靠性创建了多份数据块的复制,并将它们放置在服务器群的计算节点中,MapReduce就可以在它们所造的几点上处理这些数据了。
HDFS默认设置
BlockSize最基本的存储单位是64M的数据块。
Replication Factor 用来设置主题的副本数默认为3
Web UI port: 默认的端口是50070
HDFS特性
- 流式数据访问
- 适合批量处理而不是用户交互式访问
- 重点是数据的吞吐量而不是数据访问的交互时间
- 简单的一次性模型
- 一次写入多次读取
- 数据局域性
HDFS适用场景
存储并管理大量的数据
非结构化的数据
高吞吐量的数据
应用模式为一次写入多次读取
HDFS不适用场景
存储的文件小
大量随机读取
多用户写入,任意修改文件
HBase
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
HBase 与 RDBMSRelational Database Management System:RDBMS)
HBase | RDBMS | |
---|---|---|
数据类型 | 只有字符串 | 丰富的数据类型 |
硬件环境 | 和Hadoop一样可以部署多台廉价的server上 | 昂贵的企业集群系统 |
数据操作 | 简单的增删改查 | 各种各样的函数表链接 |
错误容忍 | 单个节点的错误基本上不影响整体性能 | 高可靠性,宕机成本高 |
存储模式 | 基于列存储 | 基于表格结构和行存储 |
数据保护 | 更新后旧版本仍然会保留 | 替换 |
可伸缩性 | 很容易增加节点,可扩展性高 | 需要中间层 |
HBase数据模型
表:采用表来组织数据,表由行和列组成,列划分为若干个列族
行:每个表由若干个行组成,每个行由行键来标识
列族:一个HBase表被分成许多个“列族”的集合
列限定符:列族的数据通过列限定符来定位
单元格:通过列,行,列限定符来定位一个单元格
时间戳:每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳来索引
Hive
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
Hive应用场景
数据仓库(数据抽取、数据转换、数据加载)
数据汇总(用户的点击、流量统计)
非实时分析(日志分析、文本分析)
数据挖掘(用户行为分析、兴趣分析、区域展示)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/140830.html