数智资源网
首页 首页 大数据 大数据入门 查看内容

Hadoop MapReduce的作用和价值

木马童年 2020-10-16 13:36 16 0

Hadoop MapReduce简介 Apache Hadoop MapReduce是一个用于在Hadoop集群上并行处理大量数据集的系统。 数据分析利用两个阶段,即映射和简化过程,作业是MapReduce中的顶级单位,其供应的配置具有Map and Reduce分析功 ...

Hadoop MapReduce简介 Apache Hadoop MapReduce是一个用于在Hadoop集群上并行处理大量数据集的系统。

数据分析利用两个阶段,即映射和简化过程,作业是MapReduce中的顶级单位,其供应的配置具有Map and  Reduce分析功能,而Hadoop系统则提供了计划,分配和并行化功能。

在Map阶段中,输入数据被隔离为输入拆分,以供在Hadoop上并行运行的Map  Tasks分析,当然,MapReduce系统从Hadoop分布式文件系统(HDFS)获取输入数据。Reduce阶段将Map阶段的结果用作一组并行的Reduce任务的输入,减少任务将数据组合成确定的结果。

尽管Reduce阶段依赖于Map阶段的收益,但Map and  Reduce处理并不是真正连续的。也就是说,Reduce任务可以在任何Map任务完成时启动。在启动任何Reduce任务之前,完成所有Map任务并不是根本。

MapReduce适用于键值集。从理论上讲,MapReduce工作需要大量信息键值对,并通过Map和Reduce功能传输数据,从而创建一组输出键值对。Map任务生成键值集的一半排列,Reduce任务将这些键值集用作输入。  MapReduce作业周期 在客户端向Hadoop提交MapReduce作业时:

本地Job Client使作业准备好提交,并将其传输到Job Tracker。

作业跟踪器计划作业并在任务跟踪器之间分配Map作业以进行并行工作。

每个任务跟踪器都会生成一个映射任务。作业跟踪器从任务跟踪器获取进度数据。

由于最终可以访问Map结果,因此Job Tracker将Reduce任务分散在Task Trackers中以进行并行处理。

每个任务跟踪器都会提出一个简化任务以完成工作。作业跟踪器从任务跟踪器获取进度数据。

工作客户 Job Client的主要作用是准备要执行的作业。每当您将MapReduce作业提交给Hadoop时,本地Job  Client都会执行以下操作:

作业配置和验证。

输入拆分的生成,并检查Hadoop如何对Map输入数据进行分区。

将作业资产或资源(作业JAR文档,输入拆分,配置)复制到共享区域,例如HDFS目录,作业跟踪器和任务跟踪器可以在其中使用该文件或资源。

最后将作业提交给作业跟踪器。

工作追踪器  作业跟踪器负责计划作业,将作业划分为Map和Reduce活动,在工作节点之间传达Map和Reduce任务,任务故障恢复以及跟踪活动或作业状态。准备运行作业时,作业跟踪器:

从Job Client设置数据的共享位置获取信息。

为每个拆分创建一个Map活动。

将每个地图活动或任务分配给任务跟踪器。作业跟踪器监视任务跟踪器的强度和作业的进度。完成地图任务并可以访问结果后,作业跟踪器将:

生成Reduce任务,直到作业配置启用的最大极限。

将每个Map结果段分配给Reduce任务。

将每个Reduce任务分配给任务跟踪器。

当所有Map和Reduce任务成功完成时,或者队列中没有Map任务时,如果没有Reduce步骤,则作业完成。

任务追踪器  任务跟踪器处理一个工作节点的任务,并将状态报告给作业跟踪器。通常,任务跟踪程序会在相关的工作程序节点上继续运行,但是不需要位于同一主机上。当作业跟踪器将“映射”或“简化”任务委派给任务跟踪器时,任务跟踪器将:

在本地获取作业资产。

在工作节点上生成子JVM,以执行Map或Reduce任务。

向作业跟踪器报告状态。

地图任务 Hadoop MapReduce结构使一个Map Task可以处理每个信息拆分。以下是“地图任务”中涉及的活动:

它使用输入格式功能将输入数据引入本地并生成输入键值对。

作业提供的Map函数和键值对的链接。

执行结果的本地排序和合并。

如果作业包含合并器,则它将运行合并器以进行进一步累积。

它将结果存储在本地,内存中和本地记录框架中。

将进度或任何进度和状态传达给任务跟踪器。

当地图任务通知任务跟踪器达到高潮时,任务跟踪器将通知作业跟踪器。此时的作业跟踪程序使结果可用于化简任务。 减少任务  Reduce阶段将Map阶段的结果编译为最终结果。通常,最后一个结果集比输入集小,但这取决于应用程序。约简由并行的约简任务完成。还原通常分三个阶段执行,即复制,排序和合并。减少任务包括以下内容:

分配本地工作资源

它进入复制阶段,以从工作节点或资源节点获取分配的Map结果的所有本地副本。

当重复阶段结束时,执行排序阶段以将复制的结果合并为(键,自尊表)集合的单独布置。

排序阶段完成后,它将执行Reduce阶段,并在每个键值对上引发作业提供的Reduce应用程序。

将最终结果保存到所需的目的地,例如HDFS。

结论 当前时代是关于数据管理和利用的。数据正以惊人的速度增长,因此需要部署特殊的工具。Hadoop具有管理这些大数据的能力。Hadoop  MapReduce可以被视为Hadoop系统的核心,因为它使Hadoop能够以高度灵活,高效的方式处理数据

数据集 数据分析 分布式文件系统 应用程序 数据管理 大数据
0
为您推荐
深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入门到高级应用及优化课程下载

深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入

课程名称深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入门到高级应用及优化课程…...

云计算视频实战经典Hadoop学习,资源教程下载

云计算视频实战经典Hadoop学习,资源教程下载

课程名称云计算视频实战经典Hadoop学习,资源教程下载课程目录1.Hadoop的源起与体系介…...

Spark原理精讲与推荐系统实践案例,资源教程下载

Spark原理精讲与推荐系统实践案例,资源教程下载

课程名称Spark原理精讲与推荐系统实践案例,资源教程下载课程目录Spark 概述Spark Cor…...

北风网数据结构学习视频,资源教程下载

北风网数据结构学习视频,资源教程下载

课程名称北风网数据结构学习视频,资源教程下载课程目录01第一讲数组02第二讲简单排序…...

大数据时代互联网社交媒体数据的分析与应用课程,资源教程下载

大数据时代互联网社交媒体数据的分析与应用课程,资源

课程名称大数据时代互联网社交媒体数据的分析与应用课程,资源教程下载课程介绍大数据…...

炼数成金完整17周Hadoop完全入门学习视频教程 Hadoop数据分析平台第三版视频教程下载

炼数成金完整17周Hadoop完全入门学习视频教程 Hadoop

课程名称炼数成金完整17周Hadoop完全入门学习视频教程 Hadoop数据分析平台第三版视频…...