数智资源网
首页 首页 大数据 查看内容

行业厂商推出管理Hadoop集群新的可视化工具

木马童年 2019-4-2 21:00 77 0

Hadoop生态系统组成部分的广度是其优势之一,但这也是一个弱点:行业开发商可以找到一个流媒体框架,适合几乎任何大数据用柱状数据存储或其他类型的架构模块,而如何将这些碎片组合在一起,对于应用程序来说是具有挑 ...

Hadoop生态系统组成部分的广度是其优势之一,但这也是一个弱点:行业开发商可以找到一个流媒体框架,适合几乎任何大数据用柱状数据存储或其他类型的架构模块,而如何将这些碎片组合在一起,对于应用程序来说是具有挑战性的。

用于管理Hadoop大数据系统的新工具以不同的方式寻求解决这一问题。其中包括来自BlueData软件的Hadoop部署自动化工具,来自LinkedIn公司的开放源代码软件,以及Hortonworks的ApacheAmbari诊断增强工具,这些软件和工具可以获得更好的可视化操作,并帮助Hadoop集群健康发展。

当Hadoop的系统投入生产使用,可以得到更好的管理工具的需求是最迫切的。这通常意味着一次性的Hadoop工作转移到集中集群运行与其他部门一起工作,通常将各种各样的Hadoop组件放在一个单一的系统。设置不同的配置,并在处理作业中分配优先级,而这个工作是艰巨的。

BlueData公司发言人表示,启动BlueData正在寻求应对EPIC软件平台的挑战,简称弹性私人即时集群。该软件支持ApacheSpark处理引擎,以及来自Cloudera和Hortonworks的Hadoop分布。此外,BlueData平台使用Docker容器技术,其封装的应用及其配套软件作为一个独立的单元,对Hadoop的部署提供多租户的方式。

BlueData的诞生

BlueData继续关注用户的痛点,今年3月为多租户部署推出了一个支持Hadoop的工作的基于服务质量优先级分配政策,并提高了处理和增加配额的执法能力。

“Hadoop的配置是一种痛苦,我必须为陪审团提供一个陪审员。”佐治亚大学计算机科学助理教授奎因说。奎因和参与自己的研究项目的一部分学生需要创建Hadoop环境。作为首席研究员,他的工作涉及使用Hadoop来支持计算机视觉和模式识别,可以整合各种数据类型,包括推特(Twitter)数据的大规模研究。

奎因使用BlueData的EPIC平台证明了一个概念项目,取得了一部分的良好效果的。“现在我们可以细分出就业机会,他们都有自己的虚拟池,在这里我们可以设置优先级。”他说。

他认为使用容器的一个好处是,他们提供了一个更轻的软件堆栈。奎因能够与BlueData的工具运行自己的自定义容器。虽然这种工作仍然需要精通技术,他说,他看到BlueData工作可以缓解开发技能的要求。

对于奎因来说,从POC到生产要解决成本的问题。他判断BlueData的经济学有利于在亚马逊网络服务(AWS)云建立,但表示,他仍然需要吸引其他研究人员分担投产的成本。(EPICBlueData企业的定价为每个物理核心处理器的成本为500美元,但有批量折扣。)

亚马逊公司的Hadoop的平台在延时系统与运行弹性MapReduce方面,可以其弹性计算云相媲美。奎因说,“在一般情况下,与AWS平台相比,其速度比AWS更快。”

采用Hadoop与以往的技术相比,从开发到经营管理的飞跃是痛苦的。一个问题是调整工作,确保他们不互相争夺Hadoop集群资源。

LinkedIn公司的数据科学家和工程师经常会发现自己辛辛苦苦跟踪性能问题时,他们的工作已经写入开始在生产中定期运行,LinkedIn公司的Hadoop开发团队的技术主管,资深软件工程师卡尔·施泰因巴赫表示,让工作有效运行是一项艰巨的任务,因为Hadoop的许多组件,认为ApachePig,HBase,Spark,MapReduce等许多组件可以结合起来,对这些一大堆的虚拟表盘和旋钮,需要正确设置。

“Hadoop是强大的,但是从用户的角度来看它是混乱的。”施泰因巴赫说。“如果你喜欢按钮,它会给你想要的更多的按钮。”

一段时间以来,LinkedIn公司已经分析了Hadoop的处理流程,并建议他们的开发人员如何改进。而随着Hadoop在更多的应用中运行,这变得更加困难。因此,LinkedIn公司已经创建了自动化的工艺性能监控和调节工具。作为对Hadoop的吉祥物,其监控软件被称为大象博士。

一个Hadoop集群的视图

对Hadoop的部署较佳做法进行“训练”,通过大象博士观察处理活动,并在数据中心就如何调整自己的Hadoop工作,这需要数据科学家和其他人的意见。

“它的工作方式非常接近类比医学。”施泰因巴赫说,“如果你去做检查,发现你的血压很高,医生就会告诉你需要减少盐分,并坚持吃药。

大象博士具备同样的功能,他说,工作在集群上运行,创建日志和指标。该软件从Hadoop集群的YARN资源管理器检索这些数据并运行,它决定了工作的执行。Hadoop作业所有者可以通过一个可视化仪表板看到由此产生的可用信息。

施泰因巴赫表示,LinkedIn公司日前推出了Apache2.0版本许可证的开源项目,并提供了大象博士代码。预计在未来的版本中,将更好地整合Spark和资源使用的可视化,以及对算法的更新。

Hadoop的可视化管理指标

新的仪表盘和可视化数据也被添加到Ambari,这是Hortonworks公司开发的一个开源的Hadoop管理工具。而推出的Ambari2.2.2版本将包括预建的仪表盘,可以让Hadoop的系统管理员对使用的跨集群资源和集群整体健康指标实现可视化。

Hortonworks公司产品和联盟营销副总裁马修·摩根表示,通过仪表板提供的信息可以显著扩大监测能力,以及通过Ambari管理大型集群的能力。

Hortonworks也正在整合分别提供了数据管理和安全管理能力的Atlas和Ranger的开源技术,。该联动目前作为技术预览,让通过应用Atlas元数据标签的IT团队对数据进行分类,然后用Ranger执行基于标签的数据访问策略。

Hortonworks,LinkedIn和BlueData并不孤单,而通过技术人员的努力将为大数据管理员带来更清晰的Hadoop集群视图。Hortonworks公司的竞争对手Cloudera已经推出了ClouderaManager的更新版本,旨在更加深入地了解Hadoop的工作负荷活动,并启动Pepperdata创造了一个支持自动调整工作负载的Hadoop集群管理器。

欢迎加入本站公开兴趣群

软件开发技术群

兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流

QQ群:26931708

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

开发商 大数据 数据存储 应用程序 大数据系统 容器技术
0
为您推荐
廖雪峰-2019大数据分析精品资料价值1980元,资源教程下载

廖雪峰-2019大数据分析精品资料价值1980元,资源教程

课程介绍:廖雪峰大神历时3个月打磨出来的《数据分析必备技能》的视频学习资料,由浅…...

尚硅谷-大数据项目之电商数仓教程下载

尚硅谷-大数据项目之电商数仓教程下载

课程介绍:本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以…...

社交网络分析与挖掘,视频教程下载

社交网络分析与挖掘,视频教程下载

课程介绍:社交网络和数据挖掘是计算机学科相关研究中的热点,其具体研究涵盖理论、关…...

python金融实务从入门到精通,视频教程下载

python金融实务从入门到精通,视频教程下载

课程介绍:Python已成为国内很多顶级投行、基金咨询等泛金融、商科领域的必备技能。中…...