`

大数据时代的技术hive:hive介绍

 
阅读更多

我最近研究了hive的相关技术,有点心得,这里和大家分享下。

  首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性:

  1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语 句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据仓库的统计分析。

  2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

  要理解hive,必须先理解hadoop和mapreduce,如果有不熟悉的童鞋,可以百度一下。

  使用hive的命令行接口,感觉很像操作关系数据库,但是hive和关系数据库还是有很大的不同,下面我就比较下hive与关系数据库的区别,具体如下:

  1. hive和关系数据库存储文件的系统不同,hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;
  2. hive使用的计算模型是mapreduce,而关系数据库则是自己设计的计算模型;
  3. 关系数据库都是为实时查询的业务进行设计的,而hive则是为海量数据做数据挖掘设计的,实时性很差;实时性的区别导致hive的应用场景和关系数据库有很大的不同;
  4. Hive很容易扩展自己的存储能力和计算能力,这个是继承hadoop的,而关系数据库在这个方面要比数据库差很多。

  以上都是从宏观的角度比较hive和关系数据库的区别,hive和关系数据库的异同还有很多,我在文章的后面会一一描述。

  下面我来讲讲hive的技术架构,大家先看下面的架构图:



 由上图可知,hadoop和mapreduce是hive架构的根基。Hive架构包括如下组件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor),这些组件我可以分为两大类:服务端组件和客户端 组件。

   首先讲讲服务端组件:

  Driver组件:该组件包括Complier、Optimizer和Executor,它的作用是将我们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的mapreduce计算框架。

  Metastore组件:元数据服务组件,这个组件存储hive的元数据,hive的元数据存储在关系数据 库里,hive支持的关系数据库有derby、mysql。元数据对于hive十分重要,因此hive支持把metastore服务独立出来,安装到远程 的服务器集群里,从而解耦hive服务和metastore服务,保证hive运行的健壮性,这个方面的知识,我会在后面的metastore小节里做详 细的讲解。

  Thrift服务:thrift是facebook开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发,hive集成了该服务,能让不同的编程语言调用hive的接口。

  客户端组件:

  CLI:command line interface,命令行接口。

  Thrift客户端:上面的架构图里没有写上Thrift客户端,但是hive架构的许多客户端接口是建立在thrift客户端之上,包括JDBC和ODBC接口。

  WEBGUI:hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件(hive web interface),使用前要启动hwi服务。

  下面我着重讲讲metastore组件,具体如下:

  Hive的metastore组件是hive元数据集中存放地。Metastore组件包括两个部分:metastore服务和后台数据的存 储。后台数据存储的介质就是关系数据库,例如hive默认的嵌入式磁盘数据库derby,还有mysql数据库。Metastore服务是建立在后台数据 存储介质之上,并且可以和hive服务进行交互的服务组件,默认情况下,metastore服务和hive服务是安装在一起的,运行在同一个进程当中。我 也可以把metastore服务从hive服务里剥离出来,metastore独立安装在一个集群里,hive远程调用metastore服务,这样我们 可以把元数据这一层放到防火墙之后,客户端访问hive服务,就可以连接到元数据这一层,从而提供了更好的管理性和安全保障。使用远程的 metastore服务,可以让metastore服务和hive服务运行在不同的进程里,这样也保证了hive的稳定性,提升了hive服务的效率。

  Hive的执行流程如下图所示:



 

图描述的很清晰了,我这里就不在累述了。

下面我给大家展示一个简单的例子,看看hive是怎么操作的。

首先我们创建一个普通的文本文件,里面只有一行数据,该行也只存储一个字符串,命令如下:

echo  ‘sharpxiajun’ > /home/hadoop/test.txt

 然后我们建一张hive的表:

hive –e “create table test (value string);

 接下来加载数据:

Load data local inpath ‘home/hadoop/test.txt’ overwrite into table test

 最后我们查询下表:

hive –e ‘select * from test’;

   大家看到了吧,hive十分简单,很好入门,操作和sql很像,下面我就要深入分析下hive与关系数据库的区别,这部分可能有些人看的不是 很明白,但是很有必要提前提出,以后我的文章里将进一步讲述hive,那时不太明白的童鞋在看看这部分,很多问题就会清晰很多,具体如下:

  1. 关系数据库里,表的加载模式是在数据加载时候强制确定的(表的加载模式是指数据库存储数据的文件格式),如果加载数据时候发现加载的数据不符合模 式,关系数据库则会拒绝加载数据,这个就叫“写时模式”,写时模式会在数据加载时候对数据模式进行检查校验的操作。Hive在加载数据时候和关系数据库不 同,hive在加载数据时候不会对数据进行检查,也不会更改被加载的数据文件,而检查数据格式的操作是在查询操作时候执行,这种模式叫“读时模式”。在实 际应用中,写时模式在加载数据时候会对列进行索引,对数据进行压缩,因此加载数据的速度很慢,但是当数据加载好了,我们去查询数据的时候,速度很快。但是 当我们的数据是非结构化,存储模式也是未知时候,关系数据操作这种场景就麻烦多了,这时候hive就会发挥它的优势。
  2. 关系数据库一个重要的特点是可以对某一行或某些行的数据进行更新、删除操作,hive不支持对某个具体行的操作,hive对数据的操作只支持覆盖 原数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都是关系数据库的特征,这些hive都不支持,也不打算支持,原因是hive的设计是海 量数据进行处理,全数据的扫描时常态,针对某些具体数据进行操作的效率是很差的,对于更新操作,hive是通过查询将原表的数据进行转化最后存储在新表 里,这和传统数据库的更新操作有很大不同。
  3. Hive也可以在hadoop做实时查询上做一份自己的贡献,那就是和hbase集成,hbase可以进行快速查询,但是hbase不支持类SQL的语句,那么此时hive可以给hbase提供sql语法解析的外壳,可以用类sql语句操作hbase数据库。

  今天的hive就写到这里,关于hive我打算一共写三篇文章,这是第一篇,下一篇主要讲hive支持的数据模型,例如:数据库 (database)、表(table)、分区(partition)和桶(bucket),还有hive文件存储的格式,还有hive支持的数据类型。 第三篇文章就会讲到hiveQL的使用、以及结合mapreduce查询优化的技术和自定义函数,以及我们现在在公司项目里运用hive的实例。

  马云在退休的时候说互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoop和 mapreduce操作专业型太强,所以facebook在这些的基础上开发了hive框架,毕竟世界上会sql的人比会java的人多的多,hive是 可以说是学习hadoop相关技术的一个突破口,哪些自立于投身hadoop技术开发的童鞋们,可以先从hive开始哦。

  • 大小: 201.5 KB
  • 大小: 117.1 KB
分享到:
评论

相关推荐

    大数据时代基于Hadoop的一个数据仓库工具hive

    大数据时代基于Hadoop的一个数据仓库工具hive

    大数据云计算技术 Hadoop的相关技术与应用案例分享 全套PPT 共9套PPT课件.rar

    【完整课程列表】 大数据云计算技术 Hadoop集群监控与Hive高可用-暴风影音技术团队...大数据云计算技术 云计算介绍-划时代的技术(共83页).pptx 大数据云计算技术 云计算与数据挖掘 云计算与数据分析(共114页).pptx

    大数据时代银行业的机遇与挑战.docx

    大数据时代银行业的机遇与挑战全文共11页,当前为第1页。大数据时代银行业的机遇与挑战全文共11页,当前为第1页。大数据时代银行业的机遇与挑战 大数据时代银行业的机遇与挑战全文共11页,当前为第1页。 大数据时代...

    大数据技术概述.docx

    形成和发展阶段——Hadoop开源技术生态引爆大数据时代 雅虎公司依据谷歌的论文理念开发出了Hadoop,在其搜索业务上进行实际落地应用并不断测试和完善Hadoop源代码,后来雅虎将自身核心产品Hadoop项目推向开源,成为...

    大数据时代政务大数据安全的研究与设计.pdf

    行 业 信 息 化 安 全 与 容 灾 安 全 与 容 灾 文|朱春琴 大数据时代政务大数据安全的研究与设计 随着技术的发展,数据存储与处理成本显著降低, 人们有能力从支离破碎的看似毫无关系的数据中抽炼出真 知灼见,这...

    大数据培训视频.zip

    1.1_大数据时代 1.2_大数据的应用领域-大数据解决方案 2.1_HDFS概述及应用场景-HDFS系统架构 2.2_关键特性介绍 3.1_MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.2_Yarn的资源管理和任务调度-增强特性 4.1_...

    Hive大数据离线应用开发

    本章将为大家解答以下问题:基于Hadoop的Hive工具的基本概念以及配置和启动。Hive的数据类型、表以及数据操作。如何用Hive进行数据查询。...Hive的UDF自定义函数介绍和应用。azkaban的介绍和实际应用。

    Hive 的权威文档

    大数据时代必备工具 Facebook经典奉献

    大数据时代快速SQL引擎-Impala

    随着大数据时代的到来,Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十、几百M也要放到Hadoop上作分析,只会适得其反,但是当面对真正...

    Hadoop大数据分析与挖掘实战 高清版

    在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述大数据时代针对大数据的分析方法与过程,最后完成模型构建的顺序进行,对建模过程等关键环节进行了详细的分析。最后通过上机实践,加深对大数据挖掘...

    深入学习Hive应用场景及架构原理

    互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoop的mapreduce操作专业性太强,所以facebook在这些基础上开发了hive框架,毕竟世界上会sql的人比会java的人...

    大数据技术概述.pdf

    全样⽽⾮抽样,以前采⽤统计学抽样⽅式(存储设备贵、存储数据少、CPU和技术能⼒不强、⽆法短时间迅速计算),⼤数 据时代有⾜够能⼒存储⾜够算例去计算。效率⽽⾮精确,不苛求精确度,全样数据不存在误差放⼤问题,...

    用户行为大数据分析 PPT

    在大数据用户行为数据分析,这方面很多的问题,以及解决方案

    大数据概述——精选推荐.pdf

    2)存储设备容量不断增加,cpu处理能⼒⼤幅度提升,⽹络带宽不断增加为⼤数据时代提供技术⽀持。 3)数据产⽣⽅式从1.运营式阶段>2.⽤户原创内容阶段>3.感知式阶段 的变⾰促成了⼤数据时代的到来。 4)⼤数据发展...

    HCIA-Big Data V2.0视频.zip

    1.2 大数据时代的机遇与挑战 2.1 HDFS的概述和架构 2.2 关键特性介绍 2.2.1 关键特性介绍 (1) 2.2.2 HDFS关键特性介绍 (2) 3.1 MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.1 MapReduce和Yar.zip 3.2 ...

    华为HCIA-Big Data V2.0 LVC公开课培训视频教程【共25集】.rar

    1.2.1 大数据时代的机遇与挑战 2.1.1 HDFS的概述和架构 2.2.1 关键特性介绍 (1) 2.2.2 HDFS关键特性介绍 (2) 3.1.1 MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.2.1 YARN的功能与架构 3.3.1 ...

    一种大数据智能分析平台的数据分析方法及实现技术.doc

    一种大数据智能分析平台的数据分析方法及实现技术 作者:蓝科 李婧 来源:《数字技术与应用》2017年第03期 摘要:文章介绍了一种用于大数据智能分析平台的数据分析方法及实现技术, 介绍了这种方法的需求和意义;...

    华为HCIA-Big Data V2.0 LVC公开课培训.rar

    1.1_大数据时代 1.2_大数据的应用领域-华为大数据解决方案 第二章 HDFS分布式文件系统 2.1_HDFS概述及应用场景-HDFS系统架构 2.2_关键特性介绍 第三章 MapReduce分布式离线批处理和Yarn资源协调 3.1_MapReduce和...

    数据分析方法与技术.pptx

    大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴 大数据时代正在来临… 数据分析时代的背景 数据分析方法与技术全文...

Global site tag (gtag.js) - Google Analytics