Hadoop的数据仓库Hive的基础知识和安装部署

1、数据仓库和 Hive

数据仓库是为了协助分析报告，支持决策，为需要业务智能的企业提供业务流程的改进和指导，从而节省时间和成本，提高质量。它与数据库系统的区别是，数据库系统可以很好地解决事务处理，实现对数据的“增、删、改、查”操作，而数据仓库则是用来做查询分析的数据库，通常不会用来做单条数据的插入、修改和删除。

Hive主要应用于传统的数据仓库任务ETL（Extract‐Transformation‐Loading）和报表生成。Hive作为一个数据仓库工具，非常适合数据的统计分析，它可以将数据文件组成表格并具有完整的类SQL查询功能，还可将类SQL语句自动转换成MapReduce任务来运行。因此，如果使用Hive，可以大幅提高开发效率。

Hive可以处理超大规模的数据，可扩展性和容错性非常强
Hive有类SQL的查询语言，学习成本相对比较低。

2、Hive和关系数据库的区别

Hive和数据库的主要区别在查询语言、存储位置、数据格式、数据更新、索引、执行、执行延迟、可扩展性和数据规模几方面。

3、Hive的运行架构

1>、Hadoop部分
其中HDFS、MapReduce是Hadoop的相关内容，主要实现数据的存储和计算。

2>、Driver
解释器、编辑器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。

3>、元数据存储Metastore
Metastore主要用来存储元数据，Hive是将元数据存储在数据库中，如MySQL、derby。在Hive中的元数据包括表的名字、表的列和分区及其属性、表的属性（是否为外部表等）、表的数据所在目录等。Metastore包括两部分：服务和后台数据的存储。Hive有3种Metastore的配置方式，分别是内嵌模式、本地模式和远程模式。

内嵌模式使用的是内嵌的Derby数据库来存储数据，配置简单，但是一次只能与一个客户端连接，适用于做单元测试，不适用于生产环境。
本地模式和远程模式都采用外部数据库来存储数据，目前支持的数据库有MySQL、Oracle、SQL Server等。本地元存储和远程元存储的区别是本地元数据不需要单独启动Metastore服务，因为本地元存储用的是和本地Hive在同一个进程里的Metastore服务。

4>、用户接口

Hive的用户接口主要有3个，分别是CLI（Command Line）、Client和WUI。其中CLI是最常用的。

在CLI启动时，一个Hive的副本也会随之启动。Client，顾名思义是Hive的客户端，用户会连接至Hive Server，在启动Client模式时，需要指出Hive Server在哪个节点上，同时在该节点启动Hive Server。WUI则是通过浏览器来访问Hive。

HiveServer是Hive的一种实现方式，客户端可以对Hive中的数据进行相应操作，而不启动CLI，HiveServer和CLI两者都允许远程客户端使用Java、Python等多种编程语言向Hive提交请求，并取回结果。

5、Mysql数据库安装

Hive的元数据存储有三种模式，我们这里选择使用本地模式，并使用Mysql存储元数据。所以，在部署Hive之前，我们先安装Mysql。Mysql数据库在Centos环境的安装，请参考《Centos7下使用yum安装Mysql5.7》。

6、Hive安装

1>、下载Hive

wget https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz

2>、解压

tar -zxvf apache-hive-3.1.2-bin.tar.gz -C ../servers/

3>、配置hive-site.xml文件

<property>
    <name>javax.jdo.option.ConnectionURL</name>
	<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
    <!--<value>jdbc:derby:;databaseName=metastore_db;create=true</value>-->
  </property>
  
<property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <!--<value>org.apache.derby.jdbc.EmbeddedDriver</value>-->
	<value>com.mysql.jdbc.Driver</value>
  </property>

<property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
    <!--<value>APP</value>-->
  </property>
<property>
    <name>javax.jdo.option.ConnectionPassword</name>
	<value>123456</value>
    <!--<value>mine</value>-->
  </property>

<property>
    <name>system:java.io.tmpdir</name>
    <value>/tmp/hive/java</value>
  </property>
  <property>
    <name>system:user.name</name>
    <value>${user.name}</value>
  </property>
  
  <property>
    <name>hive.metastore.schema.verification</name>
    <value>false</value>
  </property>

<property>
	<name>datanucleus.schema.autoCreateAll</name>
	<value>true</value>
</property>

4、配置环境变量

通过如下命令，

vim /etc/profile

添加该配置：

export HIVE_HOME=/export/servers/apache-hive-3.1.2-bin
export PATH=:$HIVE_HOME/bin:$PATH

执行下面命令，让配置的环境变量生效：

source/etc/profile

5、hive shell命令访问Hive

./bin/hive

进入下面页面，说明Hive配置成功了。

7、简单使用

1>、显示数据库

hive> show databases;
OK
default
Time taken: 37.711 seconds, Fetched: 1 row(s)

2>、创建数据库

语法：CREATE DATABASE|SCHEMA [IF NOT EXISTS] <database name>

hive> create database if not exists test;
OK
Time taken: 2.54 seconds

3>、查看数据库详情

hive> desc database test;
OK
test		hdfs://node01:8020/user/hive/warehouse/test.db	root	USER	
Time taken: 0.195 seconds, Fetched: 1 row(s)

4>、创建表

语法：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]

其中，

CREATE TABLE 创建一个指定名字的表。
IF NOT EXISTS 创建表时，如果存在会抛异常，这个选项用来忽略这个异常。
EXTERNAL关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION）。Hive创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。
COMMENT：为表和列添加注释。
PARTITIONED BY创建分区表
CLUSTERED BY创建分桶表
SORTED BY不常用
ROW FORMAT 可选值：DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char][MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, …)]。用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive通过 SerDe 确定表的具体的列的数据。
STORED AS 可选值EQUENCEFILE | TEXTFILE | RCFILE，指定存储文件类型。如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCEFILE
LOCATION ：指定表在HDFS上的存储位置。

例子：

hive> create table person(id INT,
    > name STRING,
    > age INT,
    > fav ARRAY<STRING>,
    > addr MAP<STRING,STRING>
    > )
    > COMMENT 'This is the person table'
    > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    > COLLECTION ITEMS TERMINATED BY '-'
    > MAP KEYS TERMINATED BY ':'
    > LINES TERMINATED BY '\n'
    > STORED AS TEXTFILE;
OK
Time taken: 8.436 seconds

5>、查看表结构

hive> desc formatted person;
OK
# col_name            	data_type           	comment             
	 	 
id                  	int                 	                    
name                	string              	                    
age                 	int                 	                    
fav                 	array<string>       	                    
addr                	map<string,string>  	                    
	 	 
# Detailed Table Information	 	 
Database:           	default             	 
Owner:              	root                	 
CreateTime:         	Fri Aug 07 01:01:32 CST 2020	 
LastAccessTime:     	UNKNOWN             	 
Retention:          	0                   	 
Location:           	hdfs://node01:8020/user/hive/warehouse/person	 
Table Type:         	MANAGED_TABLE       	 
Table Parameters:	 	 
	COLUMN_STATS_ACCURATE	{\"BASIC_STATS\":\"true\"}
	comment             	This is the person table
	numFiles            	0                   
	numRows             	0                   
	rawDataSize         	0                   
	totalSize           	0                   
	transient_lastDdlTime	1596733292          
	 	 
# Storage Information	 	 
SerDe Library:      	org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe	 
InputFormat:        	org.apache.hadoop.mapred.TextInputFormat	 
OutputFormat:       	org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat	 
Compressed:         	No                  	 
Num Buckets:        	-1                  	 
Bucket Columns:     	[]                  	 
Sort Columns:       	[]                  	 
Storage Desc Params:	 	 
	colelction.delim    	-                   
	field.delim         	\u0001              
	mapkey.delim        	:                   
	serialization.format	\u0001              
Time taken: 0.222 seconds, Fetched: 38 row(s)

6>、导入数据

在目录export下准备test.txt文件，内容如下：

rod 18 study-game-driver std_addr:beijing-work_addr:shanghai
tom 21 study-game-driver std_addr:beijing-work_addr:beijing
jerry 33 study-game-driver std_addr:beijing-work_addr:shenzhen

然后执行导入命令：

load DATA LOCAL INPATH '/export/test.txt' OVERWRITE INTO TABLE person;

7>、查看数据

注：出现下面全部数据为空的情况，一般都是创建表时，分隔符和实际txt文件中的不匹配造成的。

hive> select * from person;
OK
NULL	NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL	NULL
NULL	NULL	NULL	NULL	NULL
Time taken: 1.0 seconds, Fetched: 3 row(s)

8>、清空表数据

语法：truncate table 表名;

hive> truncate table person;
Moved: 'hdfs://node01:8020/user/hive/warehouse/person' to trash at: hdfs://node01:8020/user/root/.Trash/Current
OK
Time taken: 0.652 seconds
hive> load DATA LOCAL INPATH '/export/test.txt' OVERWRITE INTO TABLE person;
Loading data to table default.person
OK
Time taken: 2.51 seconds
hive> select * from person;
OK
1	rod	18	["study","game","driver"]	{"std_addr":"beijing","work_addr":"shanghai"}
2	tom	21	["study","game","driver"]	{"std_addr":"beijing","work_addr":"beijing"}
3	jerry	33	["study","game","driver"]	{"std_addr":"beijing","work_addr":"shenzhen"}
Time taken: 0.614 seconds, Fetched: 3 row(s)