数智资源网
首页 首页 大数据 大数据入门 查看内容

大数据Hadoop-Hive基础入门?

木马童年 2020-10-14 13:52 22 0

大数据Hadoop-Hive基础入门?在大数据学习大潮当中,零基础入门学习大数据的不在少数,目前大数据行业人才紧缺,只要掌握过硬的技术实力,是能够得到很不错的发展的。今天就来为大家介绍下大数据Hadoop-Hive基础入门 ...

大数据Hadoop-Hive基础入门?在大数据学习大潮当中,零基础入门学习大数据的不在少数,目前大数据行业人才紧缺,只要掌握过硬的技术实力,是能够得到很不错的发展的。今天就来为大家介绍下大数据Hadoop-Hive基础入门?

Hive是什么?

Hive作为Hadoop框架下的重要组件之一,为大数据处理提供数据仓库解决方案。通过Hive,我们可以实现数据提取、转换、加载等一系列操作,也就是ETL,基于Hive,对Hadoop当中的大规模数据,可以进行存储、查询和分析。

Hive定义了一种类SQL的语言,HQL,通过HQL,可以可以将结构化的数据文件映射为一张数据库表,Hive在执行的过程中会将HQL转换为MapReduce去执行,免去了一般用户在使用Hadoop时的技术门槛,不需要编写MapReduce程序,就能实现数据处理。

所以本质上来说,Hive是基于Hadoop的一种分布式计算框架,底层仍然是MapReduce。

Hive数据存储

Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织Hive中的表,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。

Hive中包含四种数据模型:Table(内部表),External Table(外部表),Partition(分区),Bucket(分桶)。

Hive适用场景

Hive的最佳使用场景:大规模数据的离线批处理作业,例如网络日志分析等。

由于Hadoop本身是一个批处理,高延迟的计算框架,Hive使用Hadoop作为执行引擎,自然也就有了批处理,高延迟的特点,在数据量很小的时候,Hive执行也需要消耗较长时间来完成,所以Hive并不能在大规模数据上实现低延迟快速的查询。

因此,Hive擅长的是非实时的、离线的、对响应及时性要求不高的海量数据批量计算,即席查询,统计分析等大规模数据的离线批处理作业。

大数据Hadoop-Hive基础入门?以上就是详细的内容了,零基础学大数据,Hadoop是必学的技术框架,而Hadoop当中的诸多功能组件,也需要多多去学习掌握。

大数据 大数据学习 大数据处理 数据仓库 解决方案 数据提取
0
为您推荐
徐老师大数据Spark学习视频,资源教程下载

徐老师大数据Spark学习视频,资源教程下载

课程名称徐老师大数据Spark学习视频,资源教程下载课程介绍Apache Spark 是专为大规模…...

深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入门到高级应用及优化

深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入

课程名称深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入门到高级应用及优化课程…...

北风网Spark大型项目实战138讲,资源教程下载

北风网Spark大型项目实战138讲,资源教程下载

课程名称北风网Spark大型项目实战138讲,资源教程下载课程目录001.课程介绍002.课程环…...

Hadoop&Spark企业应用实战,资源教程下载

Hadoop&Spark企业应用实战,资源教程下载

课程名称HadoopSpark企业应用实战,资源教程下载课程目录第一周:企业级Hadoop应用概…...

小象《金融数据分析》第二期,资源教程下载

小象《金融数据分析》第二期,资源教程下载

课程名称小象《金融数据分析》第二期,资源教程下载课程目录01 数据分析基本知识复习0…...

加强版吴超Hadoop七天培训视频完整版,Hadoop视频教程精华版下载

加强版吴超Hadoop七天培训视频完整版,Hadoop视频教程

课程名称加强版吴超Hadoop七天培训视频完整版,Hadoop视频教程精华版下载课程介绍云计…...