数智资源网
首页 首页 大数据 大数据入门 查看内容

使用Apache Kylin搭建企业 开源大数据分析平台

木马童年 2019-3-2 14:05 174 0

本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭建企业 开源大数据分析平台。 正文如下 我先做 个简单介绍我叫史少锋,我曾经在IBM、eBay做过大数据、云架构的开发,现在是 ...

本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭建企业 开源大数据分析平台。

正文如下

我先做 个简单介绍我叫史少锋,我曾经在IBM、eBay做过大数据、云架构的开发,现在是Kyligence的技术合伙人。

Kylin是这两年在国内发展非常快的开源大数据项目。今天大会合作厂商中有超过 半的企业已经在使用或者正在试用Kylin,应主办方邀请,今天跟大家做 个关于如何使用Kylin构建开源大数据分析平台的分享。

这是我今天的议程,分两部分。

前半部分:

针对Kylin的初 和入门用户介绍Kylin项目的由来以及技术核心。

后半部分:

介绍如何基于Kylin构建开源大数据分析平台,把hadoop数据平台和业务分析系统连接起来。

Kylin(麒麟)是什么?我们听到过有麒麟芯片、麒麟OS等等,我们这个全名是叫Apache Kylin,是 个大数据分析的项目。

从名字上或许可以猜到,它来自中国,的确这也是我们想让 知道的,有 群来自中国的工程师在向Hadoop贡献着这样 个独特的项目。

Apache Kylin 是在Hadoop之上的分布式的大数据分析引擎,它对外暴露的是标准SQL接口,支持TB到PB量 的数据,以秒 甚亚秒 的时间返回响应。

任何 个项目的诞生都有 定的背景和原因。

今天我们看到越来越多的企业正在使用Hadoop,正在把Hadoop作为他们的基础平台来管理和分析数据。

但是,企业在使用Hadoop的时候,往往发现有 个很大的Gap:

方面,现有的分析系统或分析工具,不能很好支持Hadoop; Hadoop上的数据的体量是远远超过传统单机或者传统关系型数据库的体量,原有的系统接入Hadoop根本无法承受这么大的数据量。

此外这些遗留系统当初设计的时候就不是 个分布式的架构,没办法水平地扩容。

另 方面,对于数据使用者或者分析师,让他们直接使用Hadoop,写MapReduce或者Spark的任务,是难以接受的。此外,Hadoop主要是用于做批量运算, 通常需要几十分钟,较快也要几分钟,对于分析人员来说很难有 个好的使用体验;等几分钟才能看到结果数据,大大影响了他们的工作效率。

这个问题当年就是在eBay内部就被提出来,为此专门成立了 个项目。

2013年的时候,Kylin项目的创始人韩卿(Luke),授命带着工程师研究这个难题,经过不断的尝试和摸索,Kylin探索出了在Hadoop之上做预计算、做Cube这条路线,这是之前没有人尝试过的。

较终这个项目在2014年10月在Github开源 。 个月之后项目被Apache接受成为其 个孵化器项目。

2015年11月份,经过Apache软件基金会(ASF)的投票,Kylin正式毕业,称为其大数据领域的 个顶 项目。值得 提的是,2015年的9月,Kylin获得 了美国InfoWorld评选的较佳开源大数据工具奖,同时获奖的还有Spark、Storm、Kafka等知名项目。

2016年3月, 由Apache Kylin主要开发人员组成的公司Kyligence成立,致力于Kylin在业界的推广和使用。

前面讲的是Kylin发展的历史,接下来讲 下Kylin核心技术。

做过BI分析的人,对Cube都会有概念,就是用空间换时间。通过预计算把用户需要查询的维度以及他们所对应的考量的值,存储在多维空间里。

当用户查询某几个维度的时候,通过这些维度条件去定位到预计算的向量空间,通过再聚合处理,快速返回较终结果给用户。

所不同的是,Kylin的cube不是单 维度的组合,而是所有组合都可以计算。N个维度的完整Cube, 会有2的N次方种组合。

Kylin架构是这样的,先要求用户把数据放在Hadoop上,通过Hive管理,用户在Kylin中进行数据建模以后,Kylin会生成 系列的MapReduce任务来计算Cube,算好的Cube较后以K-V的方式存储在HBase中。

分析工具发送标准SQL查询,Kylin将它转换成对HBase的Scan,快速查到结果返回给请求方。

Cube是怎么计算出来的?

这是在1.5之前版本中的的算法,也叫逐层算法。它会启动N+1轮MapReduce计算。

第 轮读取原始数据,去掉不相关的列,只保留相关的。同时对维度列进行压缩编码;以此处的四维Cube为例,经过第 轮计算出ABCD组合,我们也称为Base Cuboid;

此后的每 轮MapReduce,输入是上 轮的输出,以重用之前计算的结果,去掉要聚合的维度,算出新的Cuboid。以此往上,直到较后算出所有的Cuboid。

Cube在Storage上是怎么存储的?

星形模型会先被拉成 张平表, Dimension的值拼接在 起,后面接着是Metrics。为了标示这是哪几个维度的组合,会在行的开始加上Cuboid ID。较后,Cuboid ID + dimensions会被用作Rowkey,Metrics会作为Value放到Column中 。

查询的时候,SQL语句被SQL解析器翻译成 个解释计划,从这个计划可以准确知道用户要查哪些表,它们是怎样join起来,有哪些过滤条件等等。Kylin会用这个计划去匹配寻找合适的Cube。

如果有Cube命中,这个计划会发送到存储引擎,翻译成对存储(默认HBase)相应的Scan操作。Groupby和过滤条件的列,用来找到Cuboid,过滤条件会被转换成Scan的开始和结束值, 以缩小Scan的范围; Scan的result,Rowkey会被反向解码成各个dimension的值,Value会被解码成Metrics值 。

接下来介绍Kylin的企业 特性;Kylin的特性比较多,这里就不 列举,主要 讲 下对企业比较友好的特性。

先,毋庸置疑, Kylin对外暴露的是标准的SQL,支持大多数的SELECT语法,可以把各种工具和系统直接对接进来。这意味着当您使用Kylin的时候,不需要对业务系统做额外的改动。

,Kylin提供了各种接入方式, 如ODBC、JDBC; 如果您的系统不使用这两种方式,还可以使用RESTful API查询。

Kylin架构天生就非常适合Scale out,当查询量上升,单节点不能满足的时候,只需要相应增加Kylin的节点就可以满足。

针对企业对安全的要求,我们有不同力度做安全控制。Kylin有不同用户角色做不同的事情,此外在project和cube层 可以定义ACL帮助在更细力度掌控对cube的使用。

企业通常会使用目录服务来管理用户和群组,Kylin支持LDAP认证登录;如果对安全有更高的要求,Kylin还支持了基于SAML的单点登录(SingleSign-On),只要做 些配置就可以完成,不需要额外开发。

Kylin提供了丰富的RESTful API,非常方便从用各种已有系统,如任务调度,监控等接入Kylin。Kylin的Web UI做到的事情通过API都可以做到。我们看到网易、美团等在Kylin之上开做了封装,跟他们各自的BI做深度的融合,就是利用了这个特性。

怎么样用Kylin来构建大数据的分析平台?

很简单。Kylin部署和安装是非常方便的,我们称为非侵入式的安装。如果你已经有 套Hadoop,安装Kylin,只要增加 台机器,下载Kylin安装包运行就可以了,Kylin使用标准Hadoop API跟各种组件通信,不需要对现有的Hadoop安装额外的agent。

架构上就是个分层的结构,较底层是数据,放置在HDFS,其上是Hadoop层,需要有HBase、 Hive, MapReduce等。Kylin运行中Hadoop之上,安装好了之后,业务系统连入Kylin,Kylin把压力分布到Hadoop上做计算和查询。

有四种典型的部署架构,分别从简单到复杂。

第 种, Single instance的部署 ,通常 两天就可以完成。先要有Hadoop,版本在2.4或以上。加 台Hadoop客户机,下载Kylin,即可 键启动。 建模人员通过Kylin Web登录,进行建模和cube的创建。业务分析系统或者工具发SQL到Kylin,Kylin查询Cube返回结果。

这种部署较大特点是简单;缺点也很明显: Kylin是单点,并发请求上来的时候它会成为瓶颈,所以需要Cluster的部署。

Kylin部署到Cluster非常简单,只需要增加Kylin的节点数,因为Kylin的metadata也是存储在HBase,只需要让它们用同 张metadata表就可以组成cluster 。通常在这个时候会用LDAP来管理用户权限。

为了将负载分布到Kylin cluster, 需要建立 个Load Balancer(负载均衡器). 在LB这里可以启用SSL加密,申请域名,还可以安装防火墙,对外只暴露LB的地址和端口,确保Hadoop和Kylin在网络上对外是隔离的。

业务系统和用户通过LB的地址访问Kylin。这样的部署,Kylin将不是单点, 个节点失效,不会影响业务分析。是不是这样就了呢?也不是。

Kylin非常适合于做读写分离,原因是Kylin的工作负载有两种:

前者是Cube的计算,它是批量的、延时很长的计算,有密集的CPU和IO;

后者是在线的计算,是只读的,因为面向用户,它要求低延迟。Cube计算的过程会对集群带来很大的负载,从而产生噪音;所以我们有充足的理由进行读写分析。

Kylin很容易做到这 点,你可以把HBase单独部署成 个集群,在部署Kylin的节点上,hadoop 配置指向运算的集群,Hbase的配置指向HBase集群。通过这样的部署,可以确保Hbase的查询可以在很短时间完成,而计算集群可以跟公司其它部门分享。

现在目前Kylin使用中估计99%的情况是前面三种部署。还有 种更高 的部署是Staging和Prod多环境的部署。

在 个大的企业里,往往需要多套环境,用于测试,生产等不同目的。

举例来说,新用户上到Kylin来的时候,较初他对cube不是很了解,可能创建了 个设计不是很好的cube,导致产生大量的不必要的运算,或者查询花了很长时间。我们不希望这样的情况发生在生产环境,对其它业务造成影响,所以会建立 个staging,或者称为QA的环境。

新用户必须先走staging环境创建和调优cube,直到cube性能达到要求,数据膨胀率也在 个可控范围内,这时候由用户提出请求,由Kylin专家来做 个审核,审核通过后,再允许这个cube被迁移到生产环境。

这里Kylin提供了 个工具, 几分钟就可以讲 个Cube从 个环境迁移到另 个环境,不需要在新环境中重新build。 在生产环境的Cube,将不允许修改, 只能做增量的build 。

这样做Staging和Prod分离,Prod中的cube都是经过专家的审核的,所以将是非常稳定的,里面的每个cube都是有据可循的。

这就是关于Kylin的部署的分享。

到今天Kylin已经有了很多的使用案例,这里简单列 些已知的。较早是在eBay,国内有京东、运营、美团、中国移动(包括广东移动和北京移动),还有微软 。

以上是今天的分享,谢谢大家。

本文转自: ita1024

大数据技术 大数据分析 大数据 合伙人 大数据项目 数据平台
0
为您推荐
炼数成金商业分析与商业智能,SAS数据分析课程,数据分析与SAS商业智能视频教程下载

炼数成金商业分析与商业智能,SAS数据分析课程,数据

课程名称炼数成金商业分析与商业智能,SAS数据分析课程,数据分析与SAS商业智能视频教…...

10小时入门大数据,Hadoop大数据视频教程下载

10小时入门大数据,Hadoop大数据视频教程下载

课程名称10小时入门大数据,Hadoop大数据视频教程下载课程目录第1章 大数据概述.mp4第…...

2017最新唐宇迪 Python数据分析与机器学习实战,资源教程下载

2017最新唐宇迪 Python数据分析与机器学习实战,资源

课程名称2017最新唐宇迪 Python数据分析与机器学习实战,资源教程下载课程介绍课程风…...

实战应用技巧 调优方案 企业级Hadoop和Spark企业应用实战视频,资源教程下载

实战应用技巧 调优方案 企业级Hadoop和Spark企业应用

课程名称实战应用技巧 调优方案 企业级Hadoop和Spark企业应用实战视频,资源教程下载…...

初学者必看的大数据入门,资源教程下载

初学者必看的大数据入门,资源教程下载

课程名称初学者必看的大数据入门,资源教程下载课程目录第1章大数据概述第2章 初识Had…...

秦路的七周成为数据分析师,资源教程下载

秦路的七周成为数据分析师,资源教程下载

课程名称秦路的七周成为数据分析师,资源教程下载课程目录第一周:数据分析思维1.数据…...