大数据

大数据的定义

生成和消费模式发生了很大的变化
原模式：少数公司生成数据，人们消费数据。如电影、报纸
新模式：人们生产数据，人们消费数据。比如微信操作、搜索操作、买东西的痕迹

美国国家标准技术研究院给大数据的定义：大数据有规模巨大（Volume）、种类繁多(Variety)、增长速度快（Velocity）、和变化多样性(Variability),且需要一个可扩展体系结构来有效存储、处理和分析广泛收集来的数据
IBM早期提出4V特性，强调数据的数量（Volume）、多样性（Variety）、速度（Velocity）、难辨识（Veracity）等方面，后来加入数据的价值(Value)成为大数据的5V特性。

大数据特点

体量大:volume
类型多:variety
速度快: velocity
价值密度低:value

大数据分析与传统数据分析不同

	传统数据分析（BI）	大数据分析
关注点	描述性分析、诊断性分析	预测性分析
数据集	有限的干净的数据集、简单模型	大规模的数据集、多类的原始数据、复杂的数据类型
分析结果	事件及其原因	新的规律和知识

大数据处理过程

1.数据的采集与清洗
2.数据的存储与管理
3.数据的处理与分析
4.数据的呈现与展示

数据获取->数据清洗->数据管理->数据分析->数据呈现

框架

数据采集的工具

scrapy 爬虫框架
flume 日志采集系统
kafka 消息中间件
sqoop数据转换的工具 RDBMS<->Hadoop

Hadoop家族

HDFS hadoop distributed files system

HDFS是一种用于Hadoop应用程序的主存储系统，也是一个高容错性系统，适合部署在廉价机上，同时，HDFS能提高吞吐量的数据访问，非常适合大规模数据集上的应用。

HDFS为了做到可靠性创建了多份数据块的复制，并将它们放置在服务器群的计算节点中，MapReduce就可以在它们所造的几点上处理这些数据了。

HDFS默认设置
　　BlockSize最基本的存储单位是64M的数据块。
　　Replication Factor 用来设置主题的副本数默认为3
　　Web UI port: 默认的端口是50070

HDFS特性

流式数据访问

适合批量处理而不是用户交互式访问
重点是数据的吞吐量而不是数据访问的交互时间

简单的一次性模型

一次写入多次读取

数据局域性

HDFS适用场景

存储并管理大量的数据
非结构化的数据
高吞吐量的数据
应用模式为一次写入多次读取

HDFS不适用场景

存储的文件小
大量随机读取
多用户写入，任意修改文件

HBase

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase 与 RDBMSRelational Database Management System：RDBMS）

	HBase	RDBMS
数据类型	只有字符串	丰富的数据类型
硬件环境	和Hadoop一样可以部署多台廉价的server上	昂贵的企业集群系统
数据操作	简单的增删改查	各种各样的函数表链接
错误容忍	单个节点的错误基本上不影响整体性能	高可靠性，宕机成本高
存储模式	基于列存储	基于表格结构和行存储
数据保护	更新后旧版本仍然会保留	替换
可伸缩性	很容易增加节点，可扩展性高	需要中间层

HBase数据模型

表：采用表来组织数据，表由行和列组成，列划分为若干个列族
行：每个表由若干个行组成，每个行由行键来标识
列族：一个HBase表被分成许多个“列族”的集合
列限定符：列族的数据通过列限定符来定位
单元格：通过列，行，列限定符来定位一个单元格
时间戳：每个单元格都保存着同一份数据的多个版本，这些版本采用时间戳来索引

Hive

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。