首页 首页 大数据 查看内容

丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑

木马童年 2019-10-22 21:27 42 0

大家好,我是水妈,在大学工作,主要教统计学。今天代表狗熊会,发起一个新的系列,丑图百讲。这个系列不讲炫酷的、高大上的统计图,而是给大家分享如何画好最基础的统计图。读者可能会问,为什么要分享统计画图?熊 ...

大家好,我是水妈,在大学工作,主要教统计学。今天代表狗熊会,发起一个新的系列,丑图百讲。这个系列不讲炫酷的、高大上的统计图,而是给大家分享如何画好最基础的统计图。

读者可能会问,为什么要分享统计画图?熊大说了,数据分析的第一步,是梳理业务目标,接下来才是分析数据。水妈认为,在分析数据环节,第一步是做描述分析。这里的描述分析,包括三个内容:一、明确行业背景和变量含义;二、用统计图、统计表以及各种统计指标对数据进行描述;三、适当的解读描述的结果,发现问题,支撑后续的建模。其中,第二个环节尤为重要,因为统计图是最容易给人留下深刻印象的。做好了,能给你的报告或者展示加分,帮助你发现数据当中的问题。做不好,那就是一场灾难。

读者可能又要问,最基础的统计图有什么好讲的啊。我看过太多学生的报告,学生看自己画的图,就像是看自己家孩子,越看越喜欢,殊不知别人早就受不了你在朋友圈天天晒娃娃了。大家不要觉得画最最基础的统计图这件事情非常简单容易,可谓不画不知道,一画吓一跳。真的自己动手去画,才知道自己画出来的图有多丑。

今天是这个系列的第一期,我们先开个头,我要概括性的讲讲,如何画好统计图。 总的来说,我看统计图,有四个标准:准确、有效、简洁、美观!这次的分享,从这四个方面谈一谈如何让大家画的统计图成为实力派(准确&有效)+偶像派(简洁&美观)。

成为实力派,至少要做到“准确”+“有效”。这事儿跟穿衣服挺像,为什么这么说呢????

首先说“准确”。这是对于初学者最基本的要求,能够使用正确的统计图去描述不同类型的数据。比如,对于离散型的变量(性别、职业等),可以画饼图或者柱状图;对于连续型的变量(年龄、工资等),可以画直方图或者箱线图;对于时间序列变量(GDP、CPI等),可以画折线图。这就好比不同的季节,要穿不同的衣服。春天穿风衣,冬天穿羽绒服。你非要冬天穿比基尼,这不是好不好看的问题,而是会被冻死。因此大家在画图之前,要先弄清变量的类型,再去选择合适的统计图。

然后说“有效”。什么叫做有效的描述,我举一个例子。现在我有两个变量,一个是性别,一个是年龄,我想比较男性和女性的年龄,选择什么样的统计图才好呢?大家可以先自己思考一下。我给大家展示一组我的学生画的图。

丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑

学生的选择是对男女性分别画了两个直方图。我的评语是:看出来区别了,男性是绿色,女性是粉色!这虽然是句玩笑话,但我真的看不出明显的对比。你可能要问,年龄不是连续型变量么,你刚才不是说画直方图么?分组画直方图,只能够满足刚才说的“准确”,但却达不到“有效”。大家看我下面画的分组箱线图,无论在平均水平,还是波动程度上,都比分组直方图更加有效的体现了不同性别的年龄对比。所以,画图的时候,在满足了“准确”的前提下,我们要多动脑筋,如何能让统计图更加有效的展示你的数据。说白了,“有效”这事儿,好比在不同场合穿不同的衣服。上班时候穿职业装,毕业典礼的时候穿学士服。你非要在跑步的时候穿婚纱,虽然也能跑,但那能跑得快么!

丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑

“准确”和“有效”,不是那么容易达到的。你得平时多画图,各种数据都摸索着画。就跟演员演戏似的,各种角色都演演,才有可能成为实力派。下面再讲讲,如何让大家画的统计图成为偶像派。这事儿跟化妆挺像,包括“简洁”和“美观”这两点。

先说说“简洁”。还是举一个例子。我想对年龄这个变量做统计图。下面还是这个学生画的图。你说这没什么问题啊,连续型变量,画直方图啊。然而我一下就被每个柱子底下的黑色线段吸引了注意力。学生告诉我,这叫轴须图。我心想这什么鬼啊。但是作为一个学了十几年统计的人,不能在学生面前露怯呀,我就淡定的说,你给我解释解释。结果学生就说不上来了。大家想象一下,如果这件事情发生在做展示的现场,就很悲剧,但凡有一个人提出这种问题,听众的注意力就集中在这个不必要的环节上面了。在画图阶段,过于技术的细节,如果一句话说不清,就不要展示。这就好比你画了个妆,眼线唇膏都画的不错,最后你非得用马克笔把两条眉毛描的老粗,谁还能看到你的明媚双眸和樱桃小口啊,全都看你的眉毛了。

丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑

最后谈谈“美观”。说了半天,你要问,到底什么样的统计图在水妈心中是好看的啊。我展示三个在我心目中,非常美观的图。它们也同时满足准确、有效和简洁的标准。第一个是非常普通的饼图,统计的是电影《速度与激情7》里面,主演范迪塞尔开的车的品牌的分布,我从www.concavebt.cn这个网站上看到的。这个饼图干干净净,标注清楚,“饼”上还贴心的印了车的logo。第二个属于一种树图(tree map),来自谷歌的一份报告,我从一个时尚博主那里看到的。描述的是在谷歌上面搜索某种裙子的关键词当中,出现的各种质地的搜索频数的分布。这个图做的非常巧妙,每个格子直接用裙子的质地当作背景,格子的面积就代表搜索这种质地的占比,可以说是赏心悦目。第三个是我常玩的游戏里面出现的统计图,一个非常简单的柱状图。它的配色与游戏背景配合的天衣无缝,出现的恰到好处。所以说,“美观”这事儿,考验的是你化妆的整体技术,以及对于细节的把握。浓妆淡抹总相宜,让人瞅着舒服就是你的本事。

丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑
丑图百讲|好看的统计图都是相似的,难看的统计图各有各的丑

总结一下今天的分享,想画好统计图,要做到四点。头两点是准确+有效,先让你的统计图成为实力派。后面两点是简洁+美观,在实力派的基础上,做一个偶像派。希望大家多去发现美的统计图,欣赏美的统计图,画出美的统计图。谢谢大家!


在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

统计学 数据分析 网络数据 车联网
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...