经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Ruby » 查看文章
hadoop--hive数据仓库
来源:cnblogs  作者:路人庄  时间:2018/9/25 20:34:30  对本文有异议

一、hive概述

       Hive是基于 Hadoop 的一个【数据仓库工具】,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。使用SQL来快速实现简单的MapReduce 统计,不必开发专门的MapReduce 应用,学习成本低,十分适合数据仓库的统计分析。

    【数据仓库】英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。一句话概括:  数据仓库是用来做 查询分析的数据库, 基本不用来做插入,修改,删除操作。

 1、数据处理分类

(1)联机事务处理 OLTP(on-linetransaction processing)  

  OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易OLTP系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作;

 

(2)联机分析处理P OLAP(On-Line AnalyticalProcessing)

  OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLAP系统则强调数据分析,强调SQL执行市场,强调磁盘I/O,强调分区等。

 

 

---类比表

 

 

2.hive架构原理

用户接口主要有三个:CLI命令行,Client 和 WUI。

(1)最常用的是 CLI 命令行,Cli启动的时候,会同时启动一个Hive副本; Client是Hive的客户端,用户连接至Hive Server。

在启动Client模式的时候,需要指出Hive Server所在节点,并且在该节点启动Hive Server。 WUI是通过浏览器访问Hive。

(2)Hive将 元数据存储在数据库中,如mysql、 derby 。 Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外

 部表等),表的数据所在目录等。

(3)解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,

并在随后有MapReduce调用执行。

(4)Hive的数据存储在HDFS中,大部分的查询、计算由MapReduce完成(包含*的查询,比如select * from tbl不会生成MapRedcue任务)

 

 二、hive搭建及三种模式

 1.hive的搭建

 

 1.1、安装 Hive安装环境以及前提说明:首先,Hive 是依赖于 hadoop 系统的,因此在运行 Hive 之前需要保证已经搭建好 hadoop 集群环境。

---安装一个关系型数据 mysql

 

1.2、配置环境变量:(类似于下面这样,跟之前hadoop1 /2.x 配置一样)

– HADOOP_HOME=/**/*
– HIVE_HOME=$*/**/*

1.3、替换和添加相关 jar 包--修改 HADOOP_HOME\share/hadoop/yarn/lib 目录下的 jline-*.jar将其替换成 HIVE_HOME\lib 下的 jline-2.12.jar。

--将 hive 连接 mysql 的 jar 包:mysql-connector-java-5.1.32-bin.jar拷贝到 hive 解压目录的 lib 目录下

1.4、修改配置文件(选择 3 种模式里哪一种)见三种安装模式
1.5、启动 hive:bin/hive

 

2.三种模式: (内嵌模式/本地模式/远程模式)

 2.1 内嵌模式

这种安装模式的元数据是内嵌在Derby数据库中的,只能允许一个会话连接,数据会存放到HDFS上。

这种方式是最简单的存储方式,只需要hive-site.xml做如下配置便可(注:使用 derby 存储方式时,运行 hive 会在当

前目录生成一个 derby 文件和一个 metastore_db)

  1. <?xml version="1.0"?>
  2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  3. <configuration>
  4. <property>
  5. <name>javax.jdo.option.ConnectionURL</name>
  6. <value>jdbc:derby:;databaseName=metastore_db;creat
  7. e=true</value> </property>
  8. <property>
  9. <name>javax.jdo.option.ConnectionDriverName</name>
  10. <value>org.apache.derby.jdbc.EmbeddedDriver</value>
  11. </property>
  12. <property>
  13. <name>hive.metastore.local</name>
  14. <value>true</value>
  15. </property>
  16. <property>
  17. <name>hive.metastore.warehouse.dir</name>
  18. <value>/user/hive/warehouse</value>
  19. </property>
  20. </configuration>

 

 2.2 本地模式

 这种安装方式和嵌入式的区别在于,不再使用内嵌的 Derby 作为元数据的存储介质,而是使用其他数据库比如 MySQL 来存储元数据且是一个多用户的模式

运行多个用户 client 连接到一个数据库中。这种方式一般作为公司内部同时使用 Hive。这里有一个前提,每一个用户必须要有对 MySQL 的访问权利,即每

一个客户端使用者需要知道 MySQL 的用户名和密码才行。这种存储方式需要在本地运行一个 mysql 服务器,并作如下配置(下面两种使用 mysql 的方式,

需要将 mysql 的 jar 包拷贝到$HIVE_HOME/lib 目录下)。

注: mysql-connector-java-5.1.32-bin.jar拷贝到 hive 解压目录的 lib 目录下

 (jar包 链接:https://pan.baidu.com/s/17LzbGrLpLAcs-guXz2ttLg 密码:4k6w)

 vim hive-site-xml   配置如下:

  1. <?xml version="1.0"?>
    <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
    <configuration>
    <property>
    <!--数据仓库的位置,默认是/user/hive/warehouse-->
    <name>hive.metastore.warehouse.dir</name>
    <value>/user/hive_rlocal/warehouse</value>
    </property>
    <property>
    <!--控制hive是否连接一个远程metastore服务器还是开启一个本地客户端jvm-->
    <name>hive.metastore.local</name>
    <value>true</value>
    </property>
    <property>
    <!--JDBC连接字符串,默认jdbc:derby:;databaseName=metastore_db;create=true-->
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://node03/hive_remote?createDatabaseIfNotExist=t
    rue</value>
    </property>
    <property>
    <!--JDBC的driver,默认org.apache.derby.jdbc.EmbeddedDriver-->
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    </property>
    <property>
    <!--username,默认APP-->
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
    </property>
    <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>123456</value>
    </property>

 

 

启动:

①开启集群(hive需要依赖集群);  service  iptables stop     zkServer.sh start   start-all.sh

②开启mysql服务器:先在mysql中链接到客户端,本机创建的数据库名为hive

 

 再到客户端:service  mysqld start    -----> mysql  -u root   -p   (用户名/密码)

 

 

 ③启动hive:  执行hive

 

小试牛刀:

  1. 创建一个数据库:zhangsan
  2. hive> show databases;
  3. OK
  4. default
  5. wuxiong
  6. Time taken: 0.051 seconds, Fetched: 2 row(s)
  7. hive> create database zhangsan;
  8. OK
  9. Time taken: 0.113 seconds
  10. hive> show databases;
  11. OK
  12. default
  13. wuxiong
  14. zhangsan
  15. Time taken: 0.046 seconds, Fetched: 3 row(s)
  16. hive>

 

是否生效:①查看集群对应的目录 :    hive-site-xml配置文件中已定义了目录的存放位置:/user/hive/warehouse    ------>打开node02节点(active)

②本地mysql数据库hive中查看:hive_remote  ----->dbs----->会发现:

 

 

 ok,数据库创建完毕!存放位置也能找到!

接上述'zhangsan'数据库继续创建一张表:

 use   zhangsan;

 

查找:①mysql--->hive----->hive_remote------>TBLS

 ②集群中:

 2.3 远程模式

       remote:这种存储方式需要在远端服务器运行一个 mysql 服务器,并且需要在 Hive 服务器启动 meta服务。本机配置了

三个节点:node01、node02、node03,node01上已配置了mysql,现在以node02为服务端,node03为客户端依次配置系统文件

hive-site.xml 

 node02配置如下:

 

  1. <?xml version="1.0"?>
  2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  3. <configuration>
  4. <property>
  5. <name>hive.metastore.warehouse.dir</name>
  6. <value>/user/hive/warehouse</value>
  7. </property>
  8. <property>
  9. <name>javax.jdo.option.ConnectionURL</name>
  10. <value>jdbc:mysql://node01:3306/hive2?createDatabaseIfNotExist=true</value>
  11. </property>
  12. <property>
  13. <name>javax.jdo.option.ConnectionDriverName</name>
  14. <value>com.mysql.jdbc.Driver</value>
  15. </property>
  16. <property>
  17. <name>javax.jdo.option.ConnectionUserName</name>
  18. <value>root</value>
  19. </property>
  20. <property>
  21. <name>javax.jdo.option.ConnectionPassword</name>
  22. <value>123456</value>
  23. </property>
  24. </configuration>

 

 

node03配置如下:

  1. <?xml version="1.0"?>
  2. <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
  3. <configuration>
  4. <property>
  5. <name>hive.metastore.warehouse.dir</name>
  6. <value>/user/hive/warehouse</value>
  7. </property>
  8. <property>
  9. <name>hive.metastore.local</name>
  10. <value>false</value>
  11. </property>
  12. <property>
  13. <name>hive.metastore.uris</name>
  14. <value>thrift://node01:9083</value>
  15. </property>
  16. </configuration>

 

启动:

node02 (服务端):  hive --server  metastore

node03(客户端):启动 hive

 

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号