首页 首页 大数据 查看内容

八条建立数据仓库的基本准则

木马童年 2019-5-27 15:05 44 0

数据仓库应用具有从多个分散的部门级系统中捕捉大量共享信息的能力。它们可以将机构的原始数据有效地转化为有用的知识信息,于是这些知识信息就可以被用来进行战略决策支持,从而提高企业效益。在一个先进的数据仓库应 ...

数据仓库应用具有从多个分散的部门级系统中捕捉大量共享信息的能力。它们可以将机构的原始数据有效地转化为有用的知识信息,于是这些知识信息就可以被用来进行战略决策支持,从而提高企业效益。在一个先进的数据仓库应用的帮助下,企业决策者可以从质量、区域收入和产量等基本面上对企业性能进行跟踪,并基于这些可靠的信息采取快速、明智的行动。

本文将阐述建立数据仓库的八条规则,尤其是如何建立第一个数据仓库。实际上,对于如何建立一个成功的数据仓库,现实中不存在也根本不可能存在一个涵盖万千、放之四海而皆准的"宝书"。几乎可以肯定的是,在建立第一个数据仓库的时候,用户肯定会犯错误,这是不可避免的。本文的规则的意义仅仅在于,帮助用户避免一些已知的缺陷。而对于那些不可避免的必然错误,这些规则会尽可能地帮助用户减轻可能带来的危害。

规则一:从小处着手

不要一上来就要完成一个大规模的企业范围的数据仓库,这样会使用户陷入逻辑、行政和财政的泥沼中而不能自拔。

数据仓库不是越大越有效,较小系统的价值对机构来讲可能会很大。例如,用户可以将第一个数据仓库的实现定位于一个特定的部门和应用或者业务线。初始时采用规模向下的数据集市可以降低开发成本,缩短实现周期,并有助于为未来的数据仓库的发展培训IT人员。

规则二:向大处考虑

即使在建立第一个面向特定部门或特定应用的数据集市时,也一定要保证现在所使用的数据模型能够向将来企业范围的数据存储扩展,以便于将来其他数据集市和战略数据仓库的实现。

必须在部门之间进行一致性数据定义,并使每个人都遵守。例如,如何构成一个"销售体系"?是预约登记、开发票还是付款?在这些定义上的一致性协议会使以后部门数据的联合成为可行、有效。

规则三:定义目标和量化收益

在项目开始实施以前,用户必须明确回答几个问题。我们为什么要建立一个数据仓库?项目的目的同我们机构的任务一致吗?哪些问题是我们致力于要去解决的?要考虑及时推入市场、质量和客户满意度等因素吗?

在进行了目标问题的认知以后,应该认清哪些是关键性的影响成功的因素,以便于在解决方案的实施进程中进行跟踪。例如,收益和运输单位(units shipped)可能是对丧失市场份额产生作用的两个影响因素。

在确立了这些关键的成功影响因素以后,用户就可以在应用中设置"自动水开标记或警报"。这些警报保证对底层产生直接影响的最重要数据是清晰可见的,便于及时采取行动。定义了成功的影响因素后,在使用数据仓库时就可以检测到威胁成功的因素。

一旦这些基本目标确立以后,下一个基本要求是对来自数据仓库的可预期的收益进行量化。只有在做了这些工作以后,管理层才会有据可依地判断一个数据仓库的成功与否。

量化的目标不一定非是数字或金融表达式,它们只需要明确、有意义即可。

许多机构都采用金融衡量标准,比如ROI,来对收益进行量化。IDC对62家数据仓库的实现进行研究表明,在数据仓库项目上的总体ROI为401%,平均回报时间为2~3年。数据集市的ROI经检验为533%。其他类型的收益衡量标准还包括成本节约程度以及可获得的能够进行衡量的效率。

规则四:取得最高管理层的支持和认可

数据仓库中涉及到信息的共享,这必然会由于部门数据所有者的人为因素造成失控。在数据所有权和数据存放等问题上的内部纷争,很容易给数据仓库带来进程上的滞延和失败。

这种数据上的"割据"必须在项目的开始就立即加以解决。理想的情况是,公司最高管理层的一个或者几个成员能够为数据仓库进行部门或部门之间的对象设置。管理层的支持有助于打破各个部门之间日益严重的由于数据保护而形成的行政壁垒。

在整个过程中,终端用户也是一个不可忽视的因素。如果那些首先进行数据输入的人员不了解数据仓库的意义,用户很容易地陷入一摊"垃圾"数据中。用户用来决策的数据应该同最初输入的数据一样好。

规则五:等待完美不会带来收益

如果已经进行了目标定义,明确了关键的成功影响因素,并且数据仓库项目的规模得到了合理的控制,那么就不要永久地等待下去,因为这样下去什么也不会得到。尽快行动起来,开始分享数据仓库投资带来的回报。用户不应拘泥于所谓的"完美"不放,一旦客户开始访问到新数据仓库中的信息,研究结果展现在他们的面前,他们很快会发现自己需要更多的信息和更详细的细节。

研究表明,数据仓库以每年大约40%的速率在增长。随着用户需求的发展,应用能够不断修改与之适应。这种方式是一个"垒砖"的方式,迈向数据仓库的第一步路就是快速实现它。

规则六:选择能够与用户需求匹配的系统

如上所述,要认识到数据仓库将可能以每年递增40%或更多的速度增长。同时要认识到,用户和职员不可能非常准确地预料到系统上的初始和未来负载的情况。这种固有的精确度的缺乏就需要软件和硬件具有可伸缩性,能够容纳更多的客户、进程和存储的发展。

这种性能必须在设计的开始就考虑进去。否则,就可能因设置过大而超出系统的适用范围,白白将投资浪费掉。

规则七:要确保数据仓库工具协作使用

尽管数据仓库市场已经进入了第二代,它仍然是不成熟的。其表现为过多过剩的产品,有太多的厂家而无明确的领导者,导致了行业上的竞争,使购买决策变得困难。这使得那些想对来自多厂家的数据仓库工具和应用进行集成的厂商感到惶惑不知所措。同其他信息技术领域不同,如TCP/IP对于网络,RISC/UNIX对于企业级计算,SMTP对于消息传递,HTML和Java对于Web等,可靠的、被广泛接受的数据仓库标准还不存在。

在集成多厂家的数据仓库工具时,IT人员由于缺少了明确定义的标准的指导,而使数据仓库的实施从一开始就处于风险中。一些大一点的厂家通过将他们的产品与其他厂家的产品进行捆绑来降低风险,并做一些集成。

规则八:关系的价值

在建立第一个数据仓库时,选择正确的合作伙伴是很关键的,包括顾问、分销商以及软件和硬件的厂家。

选择合作伙伴一是基于其能力,二是基于其具有长期同舟共济的愿望。要自问一下,这个厂家在初始实现以后是否还会积极地帮助我解决面临的问题?这个厂家现在在我的机构中的投资是什么?随着我们的项目的继续推进,情况会是什么样子?

当困难接踵而至的时候,对运作中的其他方面不感兴趣的合作伙伴将很难与其保持真诚的合作。

当寻找能够维持长期合作关系的合作伙伴的时候(通常是行业内已经建立关系的),一定要注意自己内在的感受。例如,在对行业中某个公司的一位资深顾问进行考察,以探察其对特定应用领域的数据集市的实现经验时,一定要保证能够与之合作。想要取得成功,就必须能够与所有的厂家和合作伙伴进行有效的合作和交流。

上面列出的大多数规则集中在人的问题上:计划、定义、协调、实践、完美。这一点也不出人意料,因为数据仓库的建立就是为了一件事情:帮助人们实实在在地更好地进行决策。

在过去,人为"机器"服务。人按照机器所需要的格式装载数据,使用机器所定义的查询类型来检索信息。而今,数据仓库打破了这种传统关系。用户成为机器的主人,而不是它的奴隶。但是,自由就意味着责任。获得自由的人必须要学会全面地考虑问题,设立目标,协商取得一致,深思熟虑再做选择,然后果断采取行动。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

数据仓库 原始数据 数据集市 数据模型 数据存储 解决方案
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...