首页 首页 大数据 查看内容

处理非结构化数据必学几招

木马童年 2019-5-28 09:20 42 0

现代社会最不缺少的就是信息,而你的服务器里可能已经充满了信息。问题是,要怎么处理这些信息。 非结构化数据已经存在相当长一段时间了,它出现的时间比计算机诞生的时间还要早。像古埃及的象形文字(升体书)、流传 ...

现代社会最不缺少的就是信息,而你的服务器里可能已经充满了信息。问题是,要怎么处理这些信息。

非结构化数据已经存在相当长一段时间了,它出现的时间比计算机诞生的时间还要早。像古埃及的象形文字(升体书)、流传已久的各大宗教经文等等,都早在芯片出现以前就有了。而搜索引擎同样也存在了相当长一段,虽然没有印刷文字的历史那么久远。不过,要说揭开保存在这些非结构化数据里的宝贵信息的秘密,就算是用现在已经非常成熟的搜索引擎,也还没有得到什么理想效果。为什么会这样呢?

进去的是垃圾,出来的必是废物(Garbage In, Garbage Out)

对搜索引擎而言,要解开非结构化数据中真正有用的东西,还缺乏一个重要的因素。为了让大家容易理解这个欠缺的因素,这里引用一下IT界里的一句明言“Garbage In, Garbage Out”,简称GIGO,类似于“种瓜得瓜,种豆得豆”的意思,也就是说如果你输入到计算机里的是一些乱七八糟的无用信息,那么计算机输出的结果也是无用的废品,也代表了信息技术最难解决的问题之一,体现了对数据质量的要求。当我们用一个强大的搜索引擎来对基本上未经净化、未经清洗、未经集成的文本数据进行搜索时,会出现什么结果呢?就如上面的明言所示,搜索引擎最后返回给终端用户的结果也是未经清洗和集成的。

为了使文本搜索变得真正有意义,在执行搜索操作之前,必须把需要对其进行搜索的文本进行集成。如果完成了集成的步骤,那么你输进去的就不再是“垃圾”,而出来的也就不再是“废物”了。

互联网对垒企业数据

在互联网上搜索信息的时候,要进行数据清洗(data scrubbing)很难。试图清洗和集成遍布在互联网上的数据基本上是徒劳无益之举,就跟要把整个太平洋的水倒出来的难度差不多。

但对于企业数据来说,又是另一回事了,原因有二。首先,涉及到企业数据的话,数据量就很有限了——相对于几乎无限的互联网数据而言。其二,和互联网数据不同,几乎所有的企业数据都是和企业的业务相关的。保守而言,互联网上只有很小一部分数据是和任一企业的业务相关的,即使是像IBM这样的规模庞大,经营业务繁杂的企业。

因此,集成企业的文本数据,或者说为了搜索和分析而对这些数据进行预处理,其实现的可能性就非常大。

什么样的数据需要集成?

那么什么样的企业数据才需要进行集成呢?只要用户能想象得到的都可以进行集成,基本上对数据类型没有什么限制。下面为大家列举一些和明显可以进行集成的企业数据类型:

1)客户资料——与客户沟通有关的数据

2)安全数据——与事故、检修、维护、授权及其他安全相关的数据

3)合同数据——与企业具体的合同相关的数据

4)举证数据——与诉讼过程相关的数据

5)法规数据——与敏感的企业事件和交易等相关的描述

数据集成的好处

集成企业文本数据的重要好处之一就是,这些数据一旦被集成了,就可以输入到数据库被重复使用。换言之,只需要对企业文本数据进行一次集成,就可以被重复用于搜索和分析操作,不管重复利用多好次都没问题。

通常情况下,企业文本数据集成完毕以后,都会放置到数据仓库中,才能够和其他的结构化数据进行合并。在这个过程中,需要创建一种全新的查询方式。可以把这种查询称为混合查询(hybrid query),因为该查询不仅针对结构化数据也针对非结构化数据。而由此得到的数据仓库就是一个真正的集成数据仓库,其中包含了结构化和非结构化来源的数据。

客户沟通分析

为了让大家有一个更直观的认识,我们来举一个应用的例子,这个例子对于企业来说只是众多应用方式中的一种——客户沟通分析。我们知道,对于企业来说,接受来自客户的电子邮件是再正常不过的事情。不过,这些电子邮件一旦被读取完毕,往往就会被放置到类似于收件箱的文档当中,和其他成千上完的电子邮件一样散放其中。问题是档企业需要这些沟通电子邮件时,就很难再从这么多的邮件当中将其找出来了。而这对于将来和客户进行进一步的沟通非常重要。

为了更好的进行说明,我们来看一个例子,假设我们有一位客户A,他上个月给公司写了一封措词尖锐的电子邮件,内容是关于他的一份订单被搞砸了。这个月,我们的销售员想要给客户A打电话,想要和他开展更多的业务。所以对于这名销售员来说,重要的是,要知道上个月客户A发来了一封投诉邮件。如果我们想要客户A再购买公司的其他新产品,任何近期的直接沟通联系内容都很重要,不管来自客户的沟通还是主动和客户进行的沟通。那么,企业应当考虑如何查找和过滤相关的电子邮件呢?同样的,企业应当考虑如何查找和过滤不相关的邮件呢?

事实上,如果一旦企业的文本数据已经通过专门用来进行文本集成的集成过程存储到了数据库,这只是非结构化文本数据的很多利用形式之一而已。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

非结构化数据 计算机 芯片 搜索引擎 信息技术 数据质量
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...