首页 首页 大数据 查看内容

闲话互联网开放型数据价值挖掘

木马童年 2019-8-13 22:35 20 0

缘起 早在一两个星期前,就一直在思考一个问题,那就是基于互联网开放型数据的价值挖掘,对应其具体的应用场景,以及具体的落地方式。 这一段时间一直没有停止过探索,以及寻求这个问题的答案,所以,这段时间一方面 ...

缘起

早在一两个星期前,就一直在思考一个问题,那就是基于互联网开放型数据的价值挖掘,对应其具体的应用场景,以及具体的落地方式。

这一段时间一直没有停止过探索,以及寻求这个问题的答案,所以,这段时间一方面在和不同的同行们请教、交流,另一方面自己也在不停的思考这个话题。

互联网开放型数据。

所谓互联网开放型数据,即在互联网上遵循公开性准则的前提下的开放数据。

是的,遵循公开准则的数据,只要获取的方式正确,其数据的使用也是合法的。

互联网开放型数据,是一座开放的数据金山,只是鲜有人能够开采,俞或者说难以挖掘。

早在去年5月份的时候,曾在阿里研究院投稿并发表过一篇文章《DT时代变革的反思》,文中曾提到过:

前不久,有一个朋友在群里问了一个比较复杂问题,是关于数据抓取解析方面的。

可能是他问的问题太深奥,也可能是恰巧群里大牛都不在,总之就是没有人解决。

有人就问了:哥们,你研究这个这么深干吗?他回答了一句:抓取数据啊,难道你们研究处理的数据不是从网上抓取的吗?

这句话让我猛然惊醒:有人已经开始向互联网这座公共金山动手了。

十几年的底蕴,隐藏了多少数据财富?在DT时代来临的今天,必定会越来越多的人去挖掘它的价值,只不过这需要一定的技术、一定手段而已。

2015年5月的时候,可能互联网数据价值挖掘这个话题,还没有现在这么清晰。

但现在,不管大大小小的公司,都有或多或少从互联网上爬取并且利用其中的数据。

对于互联网数据的价值可利用性,这点我一直是坚信不疑的。

而不解的是是否有能够具体产业化落地的形式,而不是这种边边角角式辅助性挖掘。

1 基于互联网数据的金融探索。

这段时间和不少朋友交流,当然,更多的可能是请教,关于互联网数据在金融方面的落地。

诸如,基于大数据的风控、征信等等。

我们知道,这两年互联网金融很火爆,当然,这个风口也被p2p毁的差不多的。

抛开p2p不说,现在确实很多人在探索大数据在互联网金融方面的应用。

包括现在国外很火的fintech,即金融科技。也很大程度上依赖于智能化、数据化的能力。

但就从目前来看,诸如基于大数据的风控、征信等,看起来更像是一个伪命题。

比如贷款的征信报告,不管是臭名昭著的p2p也好,或者正规的贷款审核也好,他们更多依赖于芝麻信用分,或者银行的信用报告,甚至是一些大型网站的消费记录,或者政府机构的信息平台等。

这些基础信息的可用度远大于互联网上的开放型数据,不单纯是可信度的问题(涉及金融,信息可信度尤为重要),其清洗的成本也很高,因为很多隐私信息在开放集里是相对难获取的。

这就容易造成投入与产出不成比例。

基于互联网大数据的征信、风控等,我想,估计还是有很长一段路要走的。

2 互联网数据收集售卖。

这个就比较好理解了,基本就是数据爬取,清洗,规整,出售的模式了。

典型如数据堂,虽然其号称有众包模式的数据采集途径,但网络数据的获取依然是其重要的获取方式途径。

因为这里除了人力技术成本,是不需要其他额外成本的。

特别是我相信在早期的时候,数据堂更是以采集数据为核心运作的。

售卖数据这一模式可以行吗?

人家数据堂去年都B轮2.4亿融资了,你说可不可行。

3 微信生态的数据挖掘。

所谓微信生态,当然更多的是指微信公众号的生态。

基于微信公号新媒体的崛起,更很多深耕于微信公众号的自媒体们大放光彩。有人群聚集的地方就有利益的追逐。

现在很多自媒体们寻求着粉丝的变现,又称之为粉丝经济。最常见的如广告的投放,再诸如闪购式商品售卖。

以广告投放为例,挖掘自媒体的信息数据,为广告投放做指导,典型如新榜。

它意图将自己打造成一个广告平台,于是将微信公众号的信息进行抽取量化,并进行分门别类,意图将自媒体的广告能力量化,上接广告主,下接流量主。

看起来很行得通。

但是老实讲,新榜的爬虫能力还是蛮可以的,毕竟要把数十万个有质量的号有效的监控起来,这不是一个轻松的活。

但是,它并没有对信息进一步的挖掘,诸如提取各种有用的画像数据等,为其业务做更进一步的指导。

并且据业内人士说,广告更大的核心点在于资源的接入,而这种数据的价值挖掘匹配能力,只是一种辅助的手段。

所以,即使新榜的数据挖掘能力再进一步,在没有引入广告资源的能力前提下,可能一切还是空中楼阁。

当然,我们也不可否认微信生态的数据价值挖掘体现。

在一定的前提下,比如供应链的保障、广告主的保障,那么,数据挖掘挖掘、画像的提取将会是一个加速的体现,会让事情变得更好。

4 行业解决方案,咨询顾问。

基于互联网开放型数据做行业解决方案、咨询顾问的模式。

这种模式基本算是已经被认可的互联网数据价值落地的模式了。

基于互联网的开放型数据,进行爬取、清洗,规整,并且进行建模,最终产生诸如分析报告、结构化参考信息、顾问咨询信息等。

然后,卖这些结论数据。

典型如IT桔子、企查查、天眼查等等。

IT桔子目标对准于投资顾问市场,不过更多的是依赖于媒体信息,通过清洗出各种投资相关的信息,进行结构化,最终形成有用的参考信息,供投资方参考使用。

而企查查以及天眼查之类的公司,更多的以来的基础数据是政府的开放型数据平台,通过爬取(政府的信息平台,不要指望会开放API),清洗等,更大的在于不同平台的信息关系挖掘,关系链的挖掘,最终呈现更具有权威性的企业信息。

这方面,我最欣赏的是一面数据(免费广告安利,不谢),是一个小公司,但是其也是立足于互联网开放型数据,为企业等生成行业解决方案报告,以数据咨询顾问的角色而存在。

感兴趣的可以关注一下“数据冰山”,确实挺有意思的。

再回到这个话题,以行业咨询顾问模式的落地,基本算是最通用的方式了。

5 政务数据化。

我们知道,2015年国务院出台了《国务院关于印发促进大数据发展行动纲要的通知 》,以及后续陆续有《关于全面推进政务公开工作的意见 》、《十三五战略》等,都有提到大数据。

抛开政府跨部门数据共享、数据开放那部分不谈,单论以大数据提升政务执行效率。

包括政府治理的精细化、商事服务的便捷化、安全保障的高效化等几个大方面。

基于互联网开放型数据,挖掘民众舆情、包括各种地方性论坛、社区、门户信息等,为政务更精准、高效做数据化支撑。

2016年,大数据更是被国家进一步推进。

所以,在未来的三五年,我想,基于互联网开放型数据,是否可以为政务方面提供更多的帮助。

这或许又是一个大数据能够独立产业化落地的一种形式。

最后

当然,除了上述那些,可能还有一些零零散散的应用。

但我更关注的是能否形成一定的产业化格局,而不是单纯作为辅助,内嵌于其他公司,进行数据化加速。

一直会持续关注这个话题,自己也在周末的时候写了些爬虫,尝试爬取政府网站数据,再结合地方性门户、论坛数据,看看是否能够挖掘出一些有用的舆情信息。

尝试探索这个方向,等有结论了再分享出来,也欢迎一起交流、探索~~

文·blogchong

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

互联网 应用场景 阿里 数据抓取 数据价值 大数据
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...