数智资源网
首页 首页 大数据 大数据入门 查看内容

MPP与Hadoop是什么关系?

木马童年 2020-10-16 16:33 14 0

先从NUMA说起吧,NUMA全称为Non-UniformMemoryAccess,是主流服务服务器为了提高SMP的可扩展性而采用的一种体系结构。主流服务器一般由多个NUMA节点组成,每个NUMA节点是一个SMP结构,一般由多个CPU组成,并且具有本 ...

MPP与Hadoop是什么关系?

 

先从NUMA说起吧,NUMA全称为Non-Uniform Memory Access,是主流服务服务器为了提高SMP的可扩展性而采用的一种体系结构。主流服务器一般由多个NUMA节点组成,每个NUMA节点是一个SMP结构,一般由多个CPU组成,并且具有本地内存和IO设备。NUMA节点可以直接访问本地内存,也可以通过NUMA互联模块访问其他NUMA节点的内存,但是访问本地内存的速度远远高于远程访问速度,因此,开发程序要尽量减少不同NUMA节点之间的信息交互。

MPP是一种海量数据实时分析架构。 MPP作为一种不共享架构,每个节点运行自己的操作系统和数据库等,节点之间信息交互只能通过网络连接实现。MPP架构目前被并行数据库广泛采用,一般通过scan、sort和merge等操作符实时返回查询结果。目前采用MPP架构的实时查询系统有EMC Greenplum、HP Vertica和Google Dremel,这些都是实时数据处理领域非常有特点的系统,尤其是Dremel可以轻松扩展到上千台服务器,并在数秒内完成TB级数据的分析。

Hadoop作为一个开源项目群本身和MPP并没有什么直接关系,Hadoop中的子项目MapReduce虽然也是做数据分析处理的,但是一般只适用于离线数据分析,区别与MPP较为明显。因为Map和Reduce两个过程涉及到输出文件的存取和大量网络传输,因此往往达不到实时处理的要求。与MapReduce 相似的系统还有Microsoft Dryad和Google pregel。

综上所述,NUMA是一种体系结构,MPP是一种实时海量数据分析架构,而Hadoop是一个关于数据存储处理的项目群,其中的MapReduce是一种离线海量数据分析架构。

实测对比GreenPlum和Hive,GP比Hive性能高出至少一个数量级,但是大部分场景下,依然是秒级甚至分钟级的延迟,距离具体通常意义的实时毫秒级,差距巨大。

另外说一句,广义的Hadoop包括Impala,Presto | Distributed SQL Query Engine for Big Data 这些MPP架构的SQL引擎。Hadoop社区还在持续发展,Spark还在持续给人们带来惊喜,开源软件的迷人之处也在于此。

可扩展性 信息交互 海量数据 操作系统 数据库 数据处理
0
为您推荐
北风网Spark大型项目实战138讲,资源教程下载

北风网Spark大型项目实战138讲,资源教程下载

课程名称北风网Spark大型项目实战138讲,资源教程下载课程目录001.课程介绍002.课程环…...

Hadoop&Spark企业应用实战,资源教程下载

Hadoop&Spark企业应用实战,资源教程下载

课程名称HadoopSpark企业应用实战,资源教程下载课程目录第一周:企业级Hadoop应用概…...

小象《金融数据分析》第二期,资源教程下载

小象《金融数据分析》第二期,资源教程下载

课程名称小象《金融数据分析》第二期,资源教程下载课程目录01 数据分析基本知识复习0…...

加强版吴超Hadoop七天培训视频完整版,Hadoop视频教程精华版下载

加强版吴超Hadoop七天培训视频完整版,Hadoop视频教程

课程名称加强版吴超Hadoop七天培训视频完整版,Hadoop视频教程精华版下载课程介绍云计…...

SWPU-ACM每周算法讲堂,资源教程下载

SWPU-ACM每周算法讲堂,资源教程下载

课程名称SWPU-ACM每周算法讲堂,资源教程下载课程目录1.动态规划入门2.搜索算法入门3.…...

2017最新某团购网站大型离线电商数据分析平台实战演练视频教程配套软件文档齐全138课 ...

2017最新某团购网站大型离线电商数据分析平台实战演练

课程名称2017最新某团购网站大型离线电商数据分析平台实战演练视频教程配套软件文档齐…...