数智资源网
首页 首页 大数据 查看内容

为什么使用Spark?Spark有哪些优势?

木马童年 2020-10-14 20:25 12 0

虽然是一直以来都流传着Spark取代Hadoop的说法,但是时至今日,也没有敢说Spark安全替代了Hadoop,但是确实,Spark作为计算引擎,是存在极大的优势的。为什么使用Spark?Spark有哪些优势?今天就来和大家聊一聊。 Sp ...

虽然是一直以来都流传着Spark取代Hadoop的说法,但是时至今日,也没有敢说Spark安全替代了Hadoop,但是确实,Spark作为计算引擎,是存在极大的优势的。为什么使用Spark?Spark有哪些优势?今天就来和大家聊一聊。

Spark作为公认的第二代计算框架,相比于Hadoop最大的优势,就是计算速度的提升。可以说,Spark是在继承Hadoop优势的基础上进行的改进,同样基于map+reduce模式的分布式计算,但是在计算过程中,主要面向内存进行计算,中间结果也保存在内存当中,计算性能得到极大的提升。

为什么使用Spark

回到刚刚的问题,为什么使用Spark?很简单,就是因为Spark在计算性能上的提升。

第一代的Hadoop,主要针对的是大数据离线计算场景,在稳定性上一枝独秀,但是随着大数据的发展,实时流计算成为主流的需求,Hadoop  MapReduce已经不能满足了。而Spark正是在这样的背景下产生,Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。

Spark有哪些优势?

1、高效性

运行速度提高100倍。使用最先进的DAG调度程序,查询优化程序和物理执行引擎,实现批量和流式数据的高性能。

2、易用性

Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。

3、通用性

Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark  MLlib)和图计算(GraphX)等多种数据处理场景。

4、兼容性

Spark可以非常方便地与其他的开源产品进行融合。比如,Spark可以使用Hadoop的YARN和Apache  Mesos作为它的资源管理和调度器,此外Spark还提供了在EC2上部署Standalone的Spark集群的工具。

为什么使用Spark?Spark有哪些优势?相信看完以上的内容,大家也都有了基本的认识了。在实时流数据计算上,Spark的表现是公认的,作为第二代框架来说,其性能是值得肯定的。

计算速度 分布式计算 大数据 高级算法 流处理 机器学习 Spark
0
为您推荐
HIVE数据仓库完美实战课程,资源教程下载

HIVE数据仓库完美实战课程,资源教程下载

课程名称【快速掌握HIVE视频教程】HIVE数据仓库完美实战课程课程目录├第一周:hive基…...

尚硅谷大数据Flink技术与实战,资源教程下载

尚硅谷大数据Flink技术与实战,资源教程下载

课程名称尚硅谷大数据Flink技术与实战课程目录理论_Flink基础 001__Flink理论_Flink…...

廖雪峰-2019大数据分析精品资料价值1980元,资源教程下载

廖雪峰-2019大数据分析精品资料价值1980元,资源教程

课程介绍:廖雪峰大神历时3个月打磨出来的《数据分析必备技能》的视频学习资料,由浅…...

尚硅谷-大数据项目之电商数仓教程下载

尚硅谷-大数据项目之电商数仓教程下载

课程介绍:本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以…...