数智资源网
首页 首页 大数据 大数据入门 查看内容

Hadoop与HDFS的特性和缺点

木马童年 2020-10-12 20:23 29 0

几年前,Hadoop曾被吹捧为数据仓库的替代品。本文将为大家提供作为分析平台的Hadoop/HDFS的特性和缺点的客观摘要,并将其与基于云的Snowflake数据仓库进行比较。 Hadoop:基于文件的分布式架构 由Doug Cutting在Yaho ...

image.png

几年前,Hadoop曾被吹捧为数据仓库的替代品。本文将为大家提供作为分析平台的Hadoop/HDFS的特性和缺点的客观摘要,并将其与基于云的Snowflake数据仓库进行比较。

Hadoop:基于文件的分布式架构

由Doug  Cutting在Yahoo!上首次开发。从2012年开始开源,Hadoop获得了巨大的吸引力,因为它可能替代昂贵的MPP设备上的分析工作负载(数据仓库应用程序)。

Hadoop分布式文件系统(HDFS)虽然在某种程度上类似于数据库,但它并不具有相应工作负载、读取一致性和并发管理系统的数据库。Hadoop与MPP数据库有许多相似之处,包括其多节点可伸缩性,对列数据格式的支持,SQL的使用以及基本的工作流管理,但这存在着许多差异:

不符合ACID:与Snowflake不同,Snowflake支持多个并发的读取一致的读取和更新,并且完全符合ACID的要求,HDFS只是写入不可变文件,不允许进行更新或更改。要更改文件(大部分情况下),你必须将其读入,并在应用更改后将其写出。这使HDFS更适合于非常大量的数据转换,但对于即席查询而言却是一个较差的解决方案。

HDFS适用于大型数据集:与Snowflake不同,Snowflake将数据存储在可变长度的微分区上,HDFS将数据分解为固定大小(通常为128Mb)的块,并在三个节点之间复制。对于小型数据文件(小于1GB)来说,这是一个糟糕的解决方案,在这种情况下,整个数据集通常保存在单个节点上。但Snowflake可以轻松处理微小的数据集和TB级数据。

HDFS不能弹性伸缩:尽管有可能(由于停机)向Hadoop集群添加其他节点,但是集群大小只能增加。相比之下,Snowflake可以在几毫秒内立即从X-Small扩展到4X-Large庞然大物,然后迅速缩小或什至完全暂停计算资源。

Hadoop非常复杂:也许Hadoop最大的单一缺点是部署、配置和维护的传奇成本。相比之下,Snowflake不需要部署硬件或安装和配置软件,统计信息将自动捕获,并由基于成本的复杂查询工具使用,并且DBA管理几乎为零。

数据仓库 Hadoop HDFS 数据库 管理系统 数据格式
0
为您推荐
深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入门到高级应用及优化课程下载

深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入

课程名称深入浅出实战讲解-Spark框架实战 集中轰炸Spark-从入门到高级应用及优化课程…...

云计算视频实战经典Hadoop学习,资源教程下载

云计算视频实战经典Hadoop学习,资源教程下载

课程名称云计算视频实战经典Hadoop学习,资源教程下载课程目录1.Hadoop的源起与体系介…...

Spark原理精讲与推荐系统实践案例,资源教程下载

Spark原理精讲与推荐系统实践案例,资源教程下载

课程名称Spark原理精讲与推荐系统实践案例,资源教程下载课程目录Spark 概述Spark Cor…...

北风网数据结构学习视频,资源教程下载

北风网数据结构学习视频,资源教程下载

课程名称北风网数据结构学习视频,资源教程下载课程目录01第一讲数组02第二讲简单排序…...

大数据时代互联网社交媒体数据的分析与应用课程,资源教程下载

大数据时代互联网社交媒体数据的分析与应用课程,资源

课程名称大数据时代互联网社交媒体数据的分析与应用课程,资源教程下载课程介绍大数据…...

炼数成金完整17周Hadoop完全入门学习视频教程 Hadoop数据分析平台第三版视频教程下载

炼数成金完整17周Hadoop完全入门学习视频教程 Hadoop

课程名称炼数成金完整17周Hadoop完全入门学习视频教程 Hadoop数据分析平台第三版视频…...