首页 首页 大数据 大数据入门 查看内容

数据分析师日常数据分析工作常见七种错误及其规避方法(上)

木马童年 2018-12-7 18:20 5 0

  从事python数据分析师的工作,做好自己的python数据分析师职业规划,是非常有必要的,它是我们不断向前进取的动力和方向,也是支撑我们坚持下去的理由和需要。一个良好而客观可行的python数据分析师职业规划,对 ...

      从事python数据分析师的工作,做好自己的python数据分析师职业规划,是非常有必要的,它是我们不断向前进取的动力和方向,也是支撑我们坚持下去的理由和需要。一个良好而客观可行的python数据分析师职业规划,对于一个人的成长和晋升是必不可少的。不过在进行python数据分析师职业规划的同时,我们千万不能因为自身一些错误或原因而使得我们的python数据分析师职业规划受到阻碍或必须修改。为此,在我们的python数据分析师岗位上,我们一定要多多留意在python数据分析师工作中可能会出现或常犯的一些错误。下面就来很大家讲讲数据分析工作常见七种错误及其规避方法,为你的python数据分析师职业规划道路扫清障碍。

      “错误是发现的入口。”--James Joyce (著名的爱尔兰小说家)。

      这在大多数情况下是正确的,但是对于数据科学家而言,犯错误能够帮助他们发现新的数据发展趋势和找到数据的更多模式。说到这儿,有一点很重要:要明白数据科学家有一个非常边缘的错误。数据科学家是经过大量考察后才被录用的,录用成本很高。组织是不能承受和忽视数据科学家不好的数据实践和重复错误的成本的。数据科学的错误和不好的数据实践会浪费数据科学家的职业生涯。数据科学家追踪所有实验数据是至关重要的,从错误中吸取教训,避免在未来数据科学项目中犯错。

   

      避免常见的数据科学错误(1-3):

      1、相关关系和因果关系之间的混乱

      对于每个数据科学家来说,相关性和因果关系的错误会导致成本事件,最好的例子是《魔鬼经济学》的分析,关于因果关系的相关性错误,导致伊利诺斯州给本州的学生发书,因为根据分析显示家里有书的学生在学校能直接考的更高分。进一步分析显示,在家里有几本书的学生在学业上能表现的更好,即使他们从来没有读过这些书。

      这改变了之前的假设和洞察:父母通常买书的家庭,能营造愉快的学习环境。

      大部分的数据科学家在处理大数据时假设相关关系直接影响因果关系。使用大数据来理解两个变量之间的相关性通常是一个很好的实践方法,但是,总是使用“因果”类比可能导致虚假的预测和无效的决定。要想实现利用大数据的最好效果,数据科学家必须理解相关关系和根源的区别。关联往往是指同时观察X和Y的变化,而因果关系意味着X导致Y。在数据科学,这是两个完全不同的事情,但是许多数据科学家往往忽视了它们的区别。基于相关性的决定可能足以采取行动,我们不需要知道原因,但这还是完全依赖于数据的类型和要解决的问题。

      每位数据科学家都必须懂得--“数据科学中相关关系不是因果关系”。如果两个关系出现彼此相关的情况,也不意味着是一个导致了另一个的产生。

      2、没有选择合适的可视化工具

      大部分的数据科学家专心学习于分析的技术方面。他们不能通过使用不同的可视化技术理解数据,即那些可以令他们更快获得洞察力的技术。如果数据科学家不能选择合适的可视化发展模型,监控探索性数据分析和表示结果,那么即使是最好的机器学习模型,它的价值也会被稀释。事实上,许多数据科学家根据他们的审美选择图表类型,而不是考虑数据集的特征。这个可以通过定义可视化的目标避免。

      即使数据科学家开发了一个最优秀和最好的机器学习模型,它也不会大叫说“尤里卡”--所有这些所需要的是结果的有效可视化,可以理解数据模式的不同,和意识到它的存在可以被利用来获得商业成果。常言道“一张图片胜过1000个单词。”--数据科学家不仅要熟悉自己常用的数据可视化工具,也要理解数据有效可视化的原理,用令人信服的方式获得结果。

      解决任何数据科学问题的至关重要一步,就是要获得该数据是关于什么的洞察力,通过丰富的可视化表达,可以形成分析基础和建立相应模型。

      3、没有选择适当的模型-验证周期

      科学家认为,建立了一个成功的机器学习模型,就是获得了最大程度的成功。但是,这只是成功了一半,它必须要确保模型的预测发挥作用。许多数据科学家经常忘记或者倾向性的忽视这样的事实,就是他们的数据必须在指定的时间间隔进行反复验证。一些数据科学家经常犯的一个普遍性错误:如果和观察到的数据吻合,就认为预测模型是理想的。已建立的模型的预测效果可以因为模型的关系在不断变化而瞬间消失。为了避免这种情况,数据科学家最好的解决方式就是每个小时都对含有新数据的数据模型进行评分,或者基于模型的关系变化快慢逐日逐月评分。

      由于几个因素,模型的预测能力往往会变弱,因此数据科学家需要确定一个常数,用以确保模型的预测能力不能低于可接受的水平。有实例即数据科学家可以重建数据模型。能建立几个模型和解释变量的分布总是更好的,而不是考虑单个模型是最好的。

      为了保留已建模型的预测效果和有效性,选择迭代周期是非常重要的,如果做不到,可能会导致错误的结果。

      未完待续......

      以上就是容大教育IT培训机构提供的数据分析师日常数据分析工作常见七种错误及其规避方法(上),如果大家对数据分析师日常数据分析工作常见七种错误及其规避方法感兴趣,欢迎联系我们容大教育在线客服

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

数据分析师 数据分析 数据科学家 数据发展 数据科学 未来数据
0
为您推荐
理解Spark的核心RDD

理解Spark的核心RDD

与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一…...

使用Hadoop,真的可以一直省钱吗?

使用Hadoop,真的可以一直省钱吗?

如果你对这个标题问题的回答是“是”,那么理所当然的,你就是正确的。你之所以是正确…...

Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA

Apache Hadoop 3.1.0 正式发布,原生支持GP

4月6日,Apache Hadoop 3.1.0 正式发布了,ApacheHadoop3.1.0 是2018年Hadoop-3.x 系…...

机器学习、大数据工程师成为最热门的新兴职业

机器学习、大数据工程师成为最热门的新兴职

根据美国劳工统计局的数据,今天进入小学的孩子们中,预估有65%最终将会从事那些尚未…...

七成营销高管计划加大对数据分析的依赖

七成营销高管计划加大对数据分析的依赖

营销人员加大数据收集方面的力度,分析有助于了解信息的含义,这决定了广告计划的成败…...

Spark系列之二:Scala 语言解释及示例讲解

Spark系列之二:Scala 语言解释及示例讲解

Scala 语言衍生自 Funnel 语言。Funnel 语言尝试将函数式编程和 Petri 网结合起来,而…...