专注Java教育14年 全国咨询/投诉热线:444-1124-454
赢咖4LOGO图
始于2009,口口相传的Java黄埔军校
首页 学习攻略 Java学习 数据库开发教程之Hive的使用

数据库开发教程之Hive的使用

更新时间:2020-06-04 14:17:17 来源:赢咖4 浏览1859次

Hive是建立在Hadoop上的数据仓库基础构架。对于有一定基础的大数据学习者来讲,Hive是必须掌握的核心技术。本文主要带大家来认识一下Hive,了解什么是Hive?为什么要用Hive?如果大家对这些问题好奇,就一起看看接下来的内容吧~

数据库开发教程之Hive的使用

什么是Hive?

1.Hive的定义

Hive一个可以将结构化的数据文件映射为一张数据库表并提供类SQL查询功能的数据仓库工具,而且它是基于Hadoop的。因此,从本质上来看,Hive是将SQL转换为MapReduce程序的工具。因为,比直接用MapReduce开发效率更高,Hive的主要作用就是用来做离线数据分析。

2.Hive架构

数据库开发教程之Hive的使用

用户接口:包括CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;JDBC/ODBC是Hive的JAVA实现,与传统数据库JDBC类似;WebGUI是通过浏览器访问Hive。

元数据存储:通常是存储在关系数据库如mysql/derby中。Hive将元数据存储在数据库中。Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

解释器、编译器、优化器、执行器:完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。

3.Hive数据模型

Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式。在创建表时指定数据中的分隔符,Hive就可以映射成功,解析数据。Hive中包含以下数据模型:

db:在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹;

table:在hdfs中表现所属db目录下一个文件夹;

external table:数据存放位置可以在HDFS任意指定路径;

partition:在hdfs中表现为table目录下的子目录;

bucket:在hdfs中表现为同一个表目录下根据hash散列之后的多个文件。

为什么要用Hive?

1.Hive与传统数据库对比

数据库开发教程之Hive的使用

Hive用于海量数据的离线数据分析。Hive具有sql数据库的外表,但应用场景完全不同,Hive只适合用来做批量数据统计分析。

2.Hive的优势

Hive利用HDFS存储数据,利用MapReduce查询分析数据。因为直接使用Hadoop MapReduce处理数据,会面临人员学习成本太高的问题,而且MapReduce实现复杂查询逻辑开发难度太大。而使用Hive,操作接口采用类SQL语法,提供快速开发的能力的同时还避免了去写MapReduce,从而减少开发人员的学习成本,功能扩展更加方便。

以上就是赢咖4java培训机构的小编针对“数据库开发教程之Hive的使用”的内容进行的回答,希望对大家有所帮助,如有疑问,请在线咨询,有专业老师随时为你服务。

提交申请后,顾问老师会电话与您沟通安排学习

免费课程推荐 >>
技术文档推荐 >>