首页 首页 大数据 查看内容

先见之明vs.数据挖掘:从橄榄球比赛看决策制定

木马童年 2019-4-29 14:35 24 0

那些围绕着大数据乱七八糟的讨论是不是让你感到心烦?对理解信息驱动业务的重要性是不是也有些力不从心?数据的意义很大程度上在于对主观假设和先入为主观念的挑战,确保业务决策的正确性。 最近,我分析了 NFL的“ ...

那些围绕着大数据乱七八糟的讨论是不是让你感到心烦?对理解信息驱动业务的重要性是不是也有些力不从心?数据的意义很大程度上在于对主观假设和先入为主观念的挑战,确保业务决策的正确性。

最近,我分析了 NFL的“Play-by-Play”数据集,测试一下我对橄榄球一些先入为主的见解。我看橄榄球已经很多年了,而且像很多人一样,我对比赛、团队统计、天气和体育场条件等有着长期先入为主的观念。

我对围绕高海拔地区的橄榄球比赛有着长期的偏见,比如在Denver的Mike High Stadium的那些比赛,Denver的 Mike High Stadium坐落在海拔 5130 英尺的地方(NFL体育场馆的平均海拔是526英尺)。海拔较高意味着氧气稀薄,影响到运动员在比赛中的表现。

在今年 Broncos vs. Ravens的常规赛中,可以看到球员通过吸入纯氧来防止高原反应。这引起了我的一些思考:海拔的高低真的会影响比赛表现吗?可以用数据证明吗?

挑战先入之见

当我开始处理NFL数据集时,我假设在某处的比赛如果换在别的地方进行,实际上会出现不同的结果。我查过在Denver和其他地区比赛的平均得分以及比赛的各种数据(传球、跑动等等)。我没有发现明显的差别,除了在Denver的比赛中传球成功率提高了1%。数据证实我对海拔高度影响橄榄球比赛的偏见是错误的。

我还以为橄榄球在最后一次进攻时,教练会选择弃踢(punt)。在最后一次进攻时,如果球队仍然决定冒险试一试,评论员们就可以对比赛大作文章了,因为这和主流的想法不一致。不过,数据表示,冒险试一试的情况更经常发生:只有15%的教练在最后一次进攻时选择弃踢。

更大的球场意味着会有更多的粉丝,主场球队理所当然的应取得更好的成绩,不是吗?数据又一次驳斥了这种观念。数据表明,在小型体育场比赛其实会比在大型体育场平均取得更高的分数:20.55:17.9。

这些例子表明,利用数据分析可以确保运作依据现实,而不是假设。对于没有数据支持的业务,你可能会有一些先入之见。不管是比赛还是业务,是否有精确数据的支持可能意味着成功或失败。数据是做出明智决策的关键。

看到结果

比赛有趣就是因为比赛结果不能被预先决定。无论在哪个比赛日,每个队都会有获胜的可能。一场橄榄球比赛可以被分为很多次进攻,进攻组试图攻到前场得分,防守组则阻止他们得分。

[page] 上述饼图显示球队的平均攻防效率。弃踢也是比较常见的结局。当团队决定弃踢时,防守组则开始行动阻止进攻组得分。数据显示这时进攻如果是达阵(EXTRAPOINT)得分,成功率达到了18%,如果是任意球(FIELDGOAL)得分,成功率达到了15%。

看一下进攻有多少次产生了“non-standard”结果也很有意思。这些导致进攻的结局都是防守组不愿看到的,例如拦截(INTERCEPTION),这种情况成功的可能性为7%。

开始码线严重影响进攻的结果。上图显示基于进攻开始码线得分的百分比指数。在此图中,从1码线进攻得分是最近的,从100 码线进攻得分是最远的。正如期望的那样,通过码线最多的进攻,想要得分也最难。在红区开始进攻(20码线和更接近码线)有78%的成功率。相反,从80码线或更远码线开始的进攻就只有21%的成功率。更远的进攻被截取的可能性高了2.6倍——因为有更多码,所以沿途出错的机会也更多。

橄榄球进攻的结果很像销售的业务成果:如果没有分析,你可能已经在99码线就开始推销,销售转化率很低,同行竞争者也很有可能窃取你的销售成果。通过分析数据,你可以将你的销售更接近红区——达阵得分。

用更多的数据扩大数据集

原始的“Play-by-Play”数据集包含了有关特定的比赛的详细信息,如码线、日期和涉及的小组。使用此数据集,能回答一些有趣的问题——例如,有多少进攻是以任意球接结束的——但想要回答其它问题就难了。

比赛的结果不仅取决于场上带球奔跑的运动员。还有其他的许多影响因素,像天气和草皮类型,这在最初的NFL数据集中使没有的,所以我又在其中增加了天气和体育馆数据,然后进行了一系列的查询,以了解天气对比赛的影响。

数据显示,在恶劣天气下,Baltimore Ravens平均在主场取得的分数最高,平均21.7:14.2,然而Kansas City Chiefs的成绩最差:23.8:28。没有恶劣天气时,Pittsburgh Steelers表现最好,以23.8:13.6获胜。

将这个示例应用到业务操作中:不限制你向数据集寻求问题的类型和深度。相反,还可以考虑增大你的数据集,使它能够回答更加复杂的问题。根据一开始你想要问的问题的类型来决定加入实现哪些查询的新数据集。

教练和CEO

那么业务经理怎样利用数据来提升一个团队的实力呢?首先,他们需要决定数据驱动的团队将是什么样团队。决策不像算法那样运行(做出确定型的决策,可以给定一组数据)——应该利用数据确定或推翻我们的先入之见来辅助决策。

我对橄榄球的先入之见有时候是对的,但常常是错的。如果教练的决策是基于我这样不正确的假设将会带来巨大的损失。

幸运的是,我们有这样强大的工具,只要动动手指就能帮我们更快更简单地从数据中获得信息。像Hadoop这样技术开辟了一个新的时代,使数据驱动的业务决策可以被实现——不管你的问题有多大,其中存在多么大的数据集和挑战,数据提供了大量机会挑战或确认我们对业务、社会(当然还有橄榄球)的先入之见。成为数据驱动的组织不仅能帮助你将你的业务打包分开,还会让你有能力表现得更好、获得更大的成功。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

大数据 数据集 数据分析 数据驱动
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...