数智资源网
首页 首页 大数据 查看内容

影响数据仓库成功的十个关键因素

木马童年 2019-5-28 09:20 99 0

1. build the data warehouse iteratively, not in a "big bang" approach 迭代构建数据仓库,而不是采用“大棒”方法 数据仓库实施过程中最简单最重要的方法就是迭代构建一个数据仓库。而不是采用“大棒”方 ...

1. build the data warehouse iteratively, not in a "big bang" approach

迭代构建数据仓库,而不是采用“大棒”方法

数据仓库实施过程中最简单最重要的方法就是迭代构建一个数据仓库。而不是采用“大棒”方法构建数据仓库。快速创建数据仓库的一个迭代,然后不断调整,并快速进入下一个迭代,以此类推。不要一下子收集所有需求,也不要采用瀑布开发生命周期的方式开发数据仓库。

2. be prepared for massive volumes of data

做好大数据量的准备

开始启动数据仓库项目时,一定要清醒地认识到你正在处理你以前从未看到过的大量数据。数据仓库以TB甚至PB来度量数据量。而旧有的业务系统则以MB或者GB来度量。数据量的增加将代表很多含义——比如采用什么样的硬件,性能如何,多少用户数,查询规模等等。不要想当然的认为之前的设计和管理技术经验也能适用于数据仓库环境。

3. make sure the end user is involved up front

确保终端用户的介入

要确保终端用户在数据仓库初期的设计和开发阶段就介入进来。如果你不能够保证终端用户的介入,这将会导致一场灾难——很可能数据仓库从技术上是成功的,但是却是组织上的梦魇,因为没有人会使用这个数据仓库。

4. be alert to the fact that the data warehouse is built under a very non classical development approach

需要提防的事实:数据仓库是基于非传统的开发方式的

一个建议是:数据仓库开发环境与早期的开发环境是非常不同的。数据仓库的开发是基于螺旋形的开发方法理论。螺旋形开发理论也可以成为启发式的迭代的开发方法学,即首先从一个很小的部分开始开发,然后逐渐开发其它部分等等。

螺旋式开发方法论的反面这是瀑布式方法论。瀑布方法论源自于结构化的分析和设计,需要在下一步动作开始前,必须完成之前所有的设计工作。瀑布方法论对于开发业务系统而言确实是很好的方法。

5. the role of metadata is very important

元数据的角色非常重要。

元数据是数据仓库环境中的一个非常重要的组成部分。元数据能够告诉用户数据源自哪里存放在哪里。元数据在数据仓库环境中扮演着一个卡片目录或者路标的角色。

6. the transformation process will consume huge amounts of resources

转换处理会消耗大量资源

在数据仓库开发处理过程中,集成和转换消耗了60%到80%的开发资源。实际上最初大多数设计人员和开发人员并未意识到所需要的巨大资源。

资源所需的原因在于大量数据需要被集成。集成行为是非常复杂的。典型的集成活动例如转换、重新格式化、重构、再计算、定义缺省值、排序、改变DBMS环境、变更操作系统等等是必须的。

7. data marts are built with the data warehouse as the sole source

从数据仓库中建设数据集市作为一个单独的数据源。

一个重要的架构考虑是从数据仓库中构建数据集市。直接从业务系统中建设一个数据集市确实是一种诱惑,但是设计者必须自觉抵制这种诱惑。

Building data marts directly from operational applications is a very short sighted approach.

直接从业务系统中构建数据集市是一种非常短视的方法。我们建议把从数据仓库中构建数据集市作为一种长期的方法。

8. dormant data will creep into your warehouse and must be managed

静态数据的蔓延和管理。

在某种程度上终端用户必须清醒地意识到构建数据仓库的成本是必须考虑的,在数据仓库建设早期,费用问题不是很大的问题。但是随着数据仓库的增长和用户数的增长,成本的增加要求我们必须采取不同的行动。

9. the costs of warehousing must be post allocated back to the actual user

数据仓库的成本要及时反馈给实际客户。

10. while a data model is essential to the warehouse development, the creation of the model had better not hamstring the development process

构建一个数据模型对数据仓库来说是必须的,但是决不要破坏数据仓库开发的进度。

一方面数据模型对于数据仓库的开发来说是绝对必要的,另一方面为了构建一个数据模型而停止整个数据仓库开发绝非好主意。

一个开发数据模型的可行方法是:

-从类似的非竞争业务中获取一个数据模型

-注意相关行业联系

-寻找一个通用行业模型等等

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

数据仓库 大数据 操作系统 数据集市 数据源 数据模型
0
为您推荐
廖雪峰-2019大数据分析精品资料价值1980元,资源教程下载

廖雪峰-2019大数据分析精品资料价值1980元,资源教程

课程介绍:廖雪峰大神历时3个月打磨出来的《数据分析必备技能》的视频学习资料,由浅…...

社交网络分析与挖掘,视频教程下载

社交网络分析与挖掘,视频教程下载

课程介绍:社交网络和数据挖掘是计算机学科相关研究中的热点,其具体研究涵盖理论、关…...

尚硅谷-大数据项目之电商数仓教程下载

尚硅谷-大数据项目之电商数仓教程下载

课程介绍:本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以…...

python金融实务从入门到精通,视频教程下载

python金融实务从入门到精通,视频教程下载

课程介绍:Python已成为国内很多顶级投行、基金咨询等泛金融、商科领域的必备技能。中…...