首页 首页 大数据 查看内容

大数据概念逐渐走出“3个v”的束缚

木马童年 2019-5-16 22:15 6 0

在近期举行的“ 大数据分析2012 ”大会上,来自著名社交网站LinkedIn公司的业务分析主管 Simon Zhang 进行了主题分享。根据他的观点,传统分析框架已经被打破。 Simon Zhang的观点有两个依据:第一,框架构成并不合 ...

在近期举行的“ 大数据分析2012 ”大会上,来自著名社交网站LinkedIn公司的业务分析主管 Simon Zhang 进行了主题分享。根据他的观点,传统分析框架已经被打破。

Simon Zhang的观点有两个依据:第一,框架构成并不合理,并且排除了一些重要元素;第二,其结构(通常描述为金字塔型)会将分析过程拆分为片段,这可能会破坏业务。

他说:“LinkedIn提出了一个新框架。它不是金字塔型,而是钻石型。”

这种设计强调更大规模但更简单的数据访问,以及更大的团队统一性。Simon Zhang及其同事认为这两个方面都非常重要,因为他们的目标是在数据中发现一些有用模式。但是,和许多销售数据产品的公司一样,LinkedIn已经超出了平均业务水平,它仍然还不知道如何利用好广泛讨论的“ 大数据 ”和“ 数据科学 ”。

事实上,大数据在几年前已经出现,然后快速向前发展,直到2011年才到达发展巅峰。去年,Gartner还第一次在它的年度“ 新兴技术Hype Cycle ”报告中加入了大数据。分析人员开始研究大数据领域,将他们的注意力重点放在开源技术 Hadoop 上。

一年之后,大数据概念仍然很不清晰,想要确定一个定义都相当困难。虽然大数据概念主要来自厂商和分析师,但是理解大数据的来源也的确有助于促使商业公司打破传统。

大数据追根溯源

其实“大数据”这一词汇已经出现很多年了。 Quora上有一个问答 包含了1987年以来的一些用例。大约在10年之后,1996年SGI公司的首席科学家John Mashey做了一次题为“ 大数据与下一代基础架构压力(Infrastress) ”的演讲。

1999年在 接受媒体的采访 中,他说:“ Infrastress 是指计算基础构架的压力。它是指速度快的技术会对速度较慢的技术带来压力。”

在这个演讲中,Mashey解释说,CPU、内存和存储技术的发展比其他计算资源,如带宽和文件系统的发展要快。这种差异会造成瓶颈和不稳定性,迫使企业寻找解决方法。

当时,Mashey所指的大数据是数据容量的快速增长,其中特指互联网等相对较新的数据源,并且介绍了它对存储系统的影响。几年之后,META集团(已被Gartner收购)的分析师Doug Laney对此进行了补充。

Laney说:“它不仅仅与容量增长有关。信息管理在各个方面都面临挑战。”

在2001年2月的评论中,Laney将数据领域的复杂性描述为三个维度。他观察发现,数据容量(volume)在增长,速度(velocity)和种类(variety)也在增长——即大数据的3个V。

种类是指用于描述多个来源结构化数据的方式。他说,这里的问题与每一个来源的数据量无关,而是与数据的整合方式有关。

随后,大数据的种类也在发展,以反映多种数据结构,而且是以爆炸性速度发展。除了许多公司熟悉的一般结构化数据,还出现了文本、图像、视频、语音文件和Web日志等数据。

虽然原始描述发生了变化,但是Laney的原始观察结果并没有变:数据整合仍然很困难。

打破“3个V”的概念

与Mashey类似,Laney发现,互联网(特别是电子商务的高速发展)成为数据环境变化的主要因素。

2001年,Laney写道:“电子渠道成本的降低使企业能够向更多客户或交易伙伴提供商品或服务,而且单个交易所需要的收集的数据量最多增加了10倍——因此需要管理的总数据量也增加了。”

根据宾州大学Wharton客户分析项目主任Peter Fader的观点,电子商务为商家创造了新的机会。

他说:“我们突然能够查看和跟踪之前无法知晓的各种行为。而且,我们拥了建立保存这些信息的数据库技术。”

Fader指出,互联网从根本上改变了 客户关系管理 (CRM)系统。根据Fader的观点,CRM发展与大数据存在关系。许多公司将额外的信息看作为获取深度客户知识的关键。而且,按照摩尔定律,计算能力和存储会变得越来越廉价和简单,因此公司能够保存数据,而不需要丢弃数据。

他说:“我们都是自然囤积者。而且,当您发现一些有价值的资产时——无论是符号、不动产还是数据,我们都希望抓在手里。”

互联网并不是有用的新数据源,2001年,传感器(也属于摩尔定律范畴)也加入其中。Laney说,它们都对数据产生速度有着重要的影响。

他说:“无论是销售系统、RFID扫描仪或移动设备,这些设备产生数据的频度都在增长。我们认识到,当前的系统容量已经无法在特定时间里加载和处理这些数据了。”

最终,许多公司还仍然要面对Mashey在1996年所描述的基础架构压力:有一些技术发展速度比其他技术快。而且,如果希望利用所收集的数据和新数据源,许多公司还需要使用一些新技术。

事实上,最近分析师开始认为大数据的3V定义并不正确。例如,Gartner最近提出了一个相反的大数据定义——这个定义扩展了之前建立的类型、速度和容量特性。

具体地,Gartner认为,大数据将需要“ 新型信息处理方式,用来改进分析发现、决策制定以及流程自动化 ”。

Laney在最近一次演讲中指出:“仅仅考虑数据增长并不能完全说明问题,大数据能够帮助公司执行或转换的作用甚至比它本身的概念更加重要。”

原文:http://www.searchbi.com.cn/showcontent_68106.htm

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

大数据分析 销售数据 大数据 数据科学 开源技术 基础架构
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...