首页 首页 大数据 大数据入门 查看内容

hadoop究竟是什么

木马童年 2019-5-17 11:23 2 0

不少读者反馈本站的内容太专业、太技术,虽然很想看懂点什么,但是满眼的专有名词,心累!为了和广大吃瓜群众融为一体,我们特别推出了《白话大数据》系列,从此麻麻再也不用担心我看不懂啦,今天先推第一集《Hadoop ...

不少读者反馈本站的内容太专业、太技术,虽然很想看懂点什么,但是满眼的专有名词,心累!

为了和广大吃瓜群众融为一体,我们特别推出了《白话大数据》系列,从此麻麻再也不用担心我看不懂啦,今天先推第一集《Hadoop究竟是个什么鬼》

所以充满了使命感的我们,是时候站出来解释一下了!!

3 Hadoop核心设计:HDFS和MapReduce

我们首先要分配好这些零件。大数据时代我们面临的是以TB、PB甚至EB为单位的数据,因此,我们需要建立一个既能存的下如此大量的数据,而且还能高速高效地读写文件的文件管理系统——HDFS。HDFS也就是Hadoop分布式文件系统,将一份巨型的文件分散到多台存储设备中,并配合一个调度程序来管理这些文件。那么HDFS是如何运作的呢?先听个故事某零件厂的老板(客户Client)手里有一大批零件要存放。然而一个单独的仓库根本无法存放如此之多的零件。于是老板想到了建立一个仓库集群(HDFS),把自己的零件分批存放在不同的仓库(主机host)里,再建立一个覆盖所有仓库的管理系统。

具体的流程图是这样的:

当文件都通过HDFS存放好之后,我们就要考虑如何来利用这些数据了。人们常常通过数据之间的关联来挖掘出数据中的潜在价值,而杂乱无章的数据会对数据挖掘产生很大的阻碍。这时候就需要建立一个编程模型来对数据进行排序整理,这就是Hadoop的另一个核心——Mapreduce。我们再来看另外一个故事:

总体说来,HDFS是Hadoop的储存基础,是数据层面的,提供储存海量数据的方法(分布式储存)。而MapReduce,是一种引擎或是一种编程模型,可以理解为数据的上一层,我们可以通过编写MapReduce程序对HDFS中海量的数据进行计算处理(分布统计整合)。这就类似于我们通过MapReduce(读取)所有文件(HDFS)并进行统计,从而找到我们想要的结果。所以说Hadoop是一种能帮助我们大量储存数据并且能处理数据的工具。 (好像又很多名词了……..)

其实HDFS和MapReduce仅仅只是Hadoop最基础的部分(其余的我们会在后续的文章中慢慢提到)。Hadoop从2006年诞生至今的十年里,已经经历了数次更新,更是开发出了多种延伸功能。各种以Hadoop为基础开发产品的公司早已遍布世界各地,各种Hadoop技术应用的案例也是数不胜数。所以小编想告诉大家:不要将Hadoop想象得遥不可及,Hadoop早已成为我们生活的一部分。


在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

大数据 大数据时代 管理系统 分布式文件系统 存储设备 数据挖掘
0
为您推荐
大数据时代,主要需要什么类型的人才?

大数据时代,主要需要什么类型的人才?

什么是大数据,大数据是主要指的是,无法在可承受的时间范围内用常规软件工具进行捕捉…...

数据科学,数据分析和机器学习之间,有什么本质区别?

数据科学,数据分析和机器学习之间,有什么本质区别?

我们都知道机器学习,数据科学和数据分析是未来的发展方向。有些公司不仅利用大数据帮…...

什么样的人才是大数据人才呢?我们应该怎么定义和分类?

什么样的人才是大数据人才呢?我们应该怎么定义和分类

在未来世界,国家之间、区域之间甚至是公司之间的大数据人才的争夺战,将是愈演愈烈的…...

大数据技术怎么学习,在学习大数据之前,需要具备什么基础?

大数据技术怎么学习,在学习大数据之前,需要具备什么

  大数据又称黑暗数据,是指人脑无法处理的海量数据聚合成的信息资产,在民生、IT、…...

大数据现在处于什么阶段,入行大数据,需要学习哪些基础知识?

大数据现在处于什么阶段,入行大数据,需要学习哪些基

大数据的发展历程总体上可以划分为三个重要阶段,萌芽期、成熟期和大规模应用期…...

对于大数据开发的学习,最经典的学习路线是什么?

对于大数据开发的学习,最经典的学习路线是什么?

对于现代社会,大数据开发的重要性不言而喻,通过大量的数据处理、分析获取有价值的信…...