数智资源网
首页 首页 大数据 大数据入门 查看内容

Apache Hive与Apache HBase

木马童年 2020-10-16 15:57 19 0

人们总是问我是否应该使用Apache Hive,Apache HBase,Apache SparkSQL或某些流行语数据引擎。 我的回答是:将它们全部用于适当的用例和数据。 首先问自己一些问题: 您的数据是什么样的? 您将拥有几行? 更重要的 ...

人们总是问我是否应该使用Apache Hive,Apache HBase,Apache SparkSQL或某些流行语数据引擎。

我的回答是:将它们全部用于适当的用例和数据。

首先问自己一些问题:

您的数据是什么样的?

您将拥有几行?

更重要的是:读取,写入,附加,更新或删除?

您需要SQL吗?

您是否需要深而丰富的完整ANSI SQL?

您将对数据有什么接口?JDBC?Hive?Apache Spark?

有多少并发用户将访问此数据?

多久插入一次?更新?删除了吗?读?加入了吗?出口了?

这是结构化的吗?非结构化?半结构化的?AVRO?JSON?

您要与OLAP集成吗?

这是临时使用吗?

这是实时流的一部分吗?

您是否有稀疏数据?

您正在使用哪种BI或查询工具?

您需要扫描吗?

您的数据是键值吗?

我的下一个问题是:您如何选择它?在大多数情况下,将Apache NiFi用于Apache Hive或Apache  HBase目标是有意义的。有时,Apache SQOOP也很有意义。源格式是什么?您是否需要以原始格式存储它?已经是JSON或CSV吗?

Apache HBase在2.0版中进行了一些非常有趣的更新,使其非常适合许多用例。

Apache Hive非常适合其完整的SQL,内存中缓存,排序,联接数据,ACID以及与BI工具的集成,Druid和Spark SQL集成。

有了Apache Phoenix,HBase可以有了SQL驱动,当然也可以用别的完成SQL on HBase,但是它远没有Apache  Hive的SQL成熟或丰富。

Apache HBase优点:

对于庞大的稀疏数据集来说强大的武器

NoSQL

对象存储

键值用法

协处理器

UDF

适用于SQL的Apache Phoenix

Apache Spark连接器

Scan

Apache HBase缺点:

需要更丰富的SQL

需要架构访问方法

不适合小数据

Apache Hive优点:

真实的SQL数据库

海量数据集

ACID表

BI工具集成

大数据的数仓常用工具

HBase整合

Apache HiveMall用于机器学习

强大的Apache Spark支持

强大的安全集成

UDF

HDFS上的各种文件存储,包括Apache ORC,Apache Parquet,CSV和JSON

Hadoop上的混合过程SQL(HPL / SQL)

Apache Hive缺点:

不适用于键值数据

不适用于微小数据,请使用RDBMS

您需要运行最新的LLAP版本

如果不使用Apache Ambari,则配置很棘手

那么,谁赢了?曾经有一段时间我尝试将Apache  Phoenix用于所有内容,因为它的JDBC驱动程序确实可靠,可以轻松快速地放入大量数据,并可以进行快速查询。对于我以前使用过MongoDB之类的东西(具有不同的JSON数据)的用例来说,它也很棒。

Apache Hive具有Apache Spark SQL集成和丰富的SQL,使其非常适合表格数据,其Apache ORC格式令人惊叹。

在大多数用例中,Apache Hive胜出。对于NoSQL,稀疏数据,真正的高端要求,Apache  HBase胜出。好消息是,它们都可以在同一个Hadoop集群上很好地协同工作,并且可以利用您庞大的HDFS存储。我很少看到不同时使用两者的地方。两者都使用-如果其中一个无效,则使用另一个。两者共同解决了我在数十个不同企业中针对100个不同用例所具有的每个查询和存储需求。

如何获得Apache HBase的好处并仍然运行Apache Hive查询?

简单!

您可以在所有Apache Hive应用程序中使用HBase表。

数据引擎 数据集 小数据 数据库 大数据 机器学习
0
为您推荐
深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入门到高级应用及优化课程下载

深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入

课程名称深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入门到高级应用及优化课程…...

云计算视频实战经典Hadoop学习,资源教程下载

云计算视频实战经典Hadoop学习,资源教程下载

课程名称云计算视频实战经典Hadoop学习,资源教程下载课程目录1.Hadoop的源起与体系介…...

Spark原理精讲与推荐系统实践案例,资源教程下载

Spark原理精讲与推荐系统实践案例,资源教程下载

课程名称Spark原理精讲与推荐系统实践案例,资源教程下载课程目录Spark 概述Spark Cor…...

北风网数据结构学习视频,资源教程下载

北风网数据结构学习视频,资源教程下载

课程名称北风网数据结构学习视频,资源教程下载课程目录01第一讲数组02第二讲简单排序…...

大数据时代互联网社交媒体数据的分析与应用课程,资源教程下载

大数据时代互联网社交媒体数据的分析与应用课程,资源

课程名称大数据时代互联网社交媒体数据的分析与应用课程,资源教程下载课程介绍大数据…...

炼数成金完整17周Hadoop完全入门学习视频教程 Hadoop数据分析平台第三版视频教程下载

炼数成金完整17周Hadoop完全入门学习视频教程 Hadoop

课程名称炼数成金完整17周Hadoop完全入门学习视频教程 Hadoop数据分析平台第三版视频…...