大数据的基础知识普及

勤奋不是嘴上说说而已,而是实际的行动,在勤奋的苦度中持之以恒,永不退却。业精于勤,荒于嬉;行成于思,毁于随。在人生的仕途上,我们毫不迟疑地选择勤奋,她是几乎于世界上一切成就的催产婆。只要我们拥着勤奋去思考,拥着勤奋的手去耕耘,用抱勤奋的心去对待工作,浪迹红尘而坚韧不拔,那么,我们的生命就会绽放火花,让人生的时光更加的闪亮而精彩。

导读:本篇文章讲解 大数据的基础知识普及,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com,来源:原文

大数据

大数据的定义

生成和消费模式发生了很大的变化
原模式:少数公司生成数据,人们消费数据。如电影、报纸
新模式:人们生产数据,人们消费数据。比如微信操作、搜索操作、买东西的痕迹

  • 美国国家标准技术研究院给大数据的定义:大数据有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Velocity)、和变化多样性(Variability),且需要一个可扩展体系结构来有效存储、处理和分析广泛收集来的数据
  • IBM早期提出4V特性,强调数据的数量(Volume)、多样性(Variety)、速度(Velocity)、难辨识(Veracity)等方面,后来加入数据的价值(Value)成为大数据的5V特性。

大数据特点

  • 体量大:volume
  • 类型多:variety
  • 速度快: velocity
  • 价值密度低:value

大数据分析与传统数据分析不同

传统数据分析(BI) 大数据分析
关注点 描述性分析、诊断 性分析 预测性分析
数据集 有限的干净的数据集、简单模型 大规模的数据集、多类的原始数据、复杂的数据类型
分析结果 事件及其原因 新的规律和知识

大数据处理过程

1.数据的采集与清洗
2.数据的存储与管理
3.数据的处理与分析
4.数据的呈现与展示

数据获取->数据清洗->数据管理->数据分析->数据呈现

框架

数据采集的工具

scrapy 爬虫框架
flume 日志采集系统
kafka 消息中间件
sqoop数据转换的工具 RDBMS<->Hadoop

Hadoop家族

HDFS hadoop distributed files system

HDFS是一种用于Hadoop应用程序的主存储系统,也是一个高容错性系统,适合部署在廉价机上,同时,HDFS能提高吞吐量的数据访问,非常适合大规模数据集上的应用。

HDFS为了做到可靠性创建了多份数据块的复制,并将它们放置在服务器群的计算节点中,MapReduce就可以在它们所造的几点上处理这些数据了。

HDFS默认设置
  BlockSize最基本的存储单位是64M的数据块。
  Replication Factor 用来设置主题的副本数默认为3
  Web UI port: 默认的端口是50070

HDFS特性

  1. 流式数据访问
  • 适合批量处理而不是用户交互式访问
  • 重点是数据的吞吐量而不是数据访问的交互时间
  1. 简单的一次性模型
  • 一次写入多次读取
  1. 数据局域性

HDFS适用场景

存储并管理大量的数据
非结构化的数据
高吞吐量的数据
应用模式为一次写入多次读取

HDFS不适用场景

存储的文件小
大量随机读取
多用户写入,任意修改文件

HBase

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase 与 RDBMSRelational Database Management System:RDBMS)

HBase RDBMS
数据类型 只有字符串 丰富的数据类型
硬件环境 和Hadoop一样可以部署多台廉价的server上 昂贵的企业集群系统
数据操作 简单的增删改查 各种各样的函数表链接
错误容忍 单个节点的错误基本上不影响整体性能 高可靠性,宕机成本高
存储模式 基于列存储 基于表格结构和行存储
数据保护 更新后旧版本仍然会保留 替换
可伸缩性 很容易增加节点,可扩展性高 需要中间层

HBase数据模型

表:采用表来组织数据,表由行和列组成,列划分为若干个列族
行:每个表由若干个行组成,每个行由行键来标识
列族:一个HBase表被分成许多个“列族”的集合
列限定符:列族的数据通过列限定符来定位
单元格:通过列,行,列限定符来定位一个单元格
时间戳:每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳来索引

Hive

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

Hive应用场景

数据仓库(数据抽取、数据转换、数据加载)
数据汇总(用户的点击、流量统计)
非实时分析(日志分析、文本分析)
数据挖掘(用户行为分析、兴趣分析、区域展示)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/140830.html

(0)
飞熊的头像飞熊bm

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!