首页 首页 大数据 查看内容

在应用机器学习时如何处理不良数据?

木马童年 2018-9-5 22:59 811 0

我们在收集、储存和处理大量数据方面取得的进展对于机器学习,或者说人工智能的发展起着重要的作用。许多问题都需要大数据的支持来解决,幸运的是,现在收集、存储和处理大数据的成本比以前要小得多,速度也要快得多 ...

我们在收集、储存和处理大量数据方面取得的进展对于机器学习,或者说人工智能的发展起着重要的作用。许多问题都需要大数据的支持来解决,幸运的是,现在收集、存储和处理大数据的成本比以前要小得多,速度也要快得多。

从推动复杂市场的预测分析到到效率更高的自动化流程,技术明显可以加速化企业在前沿竞争的步伐。但是,如果推动这些创新的数据良莠不齐,那么不管使用哪种工具效果都会大打折扣。

“数据质量不佳是阻碍 机器学习 广泛发展的主要原因”——数据质量管理的先驱者之一,数据博士 Thomas C. Redman 如是说,当然这样想的不止他一个人。

众所周知,训练数据决定了机器学习系统的性能。高质量的数据可以得到更好的结果,不好的数据会流经整个系统产生没用的信息。

下面我们就来谈谈错误的数据是如何影响机器学习的,以及如何减轻风险。

在数据缺陷带来的影响中,公司首先看到了错误分析、错误预测和糟糕决策。随着 人工智能 技术越来越流行,高质量的机器学习的需求越来越清晰,计算机科学的 GIGO 原则变得更加重要了。

Redman 提醒我们“不良数据的引入可能会出现在两个地方:第一个便是用于训练模型的数据,第二个便是用于测试的新数据。虽说数据科学家和工程师正在努力的精炼他们的人工智能、机器学习和深度学习算法,但是“只有 %3 的公司”能够提供符合基本质量标准的数据。

我们不能将失败归结于机器,但是我们可以采取一些措施缓解不良数据产生的影响。

数据丢失或不完整

有些时候,由于某些信息不能直接获取到,数据会被组合并某些字段进行留空。或者当数据被收集时执行的分析和当前的分析所面临的目标不同,导致某些值被省略。然而,然而,学习,解释和预测 ——ML 的主要目标 ,很难通过不完整的信息来实现。

面对上述问题,对应的解决方案是:尽管消除问题数据的方法对结果会有很大提升,但是仅在问题数据所占比例较小时候,这种方法的去除效果会比较好。另一种方案是使用合成数据:通过算法创建符合真实数据特征的模拟数据。合成数据是一种新兴技术,可以帮助消除访问完整训练数据的障碍。

数据不准确

部署 ML 项目时的是在训练预测模型之前清洗数据。但清洗数据并不总能识别或纠正每一个错误,并且数据仍然可能会不完美。 数据科学家已经花费了大部分时间来对抗这一问题,然而,一个预测模型的输出会作为后续模型的输入,这意味着即使是一个小错误也会产生显著的负面影响。

面对上述问题,对应的解决方案是:提供足够的时间清洗数据,评估数据源并在每个阶段对性能进行测试。 保持数据集的清洁是很困难的,但如果将清洗数据的任务分配给特定的团队,则会变得容易。 为传入数据的质量创建和执行明确的标准,并立即寻找并消除错误的根本原因。

数据有偏差在机器学习训练过程中,如果数据存在偏差,数据的完整性会受损,这会直接影响到预测结果。例如,当搜索一位女性联系人时,LinkedIn 的搜索引擎可能存在性别偏差,从而促使该网站以男性名字作出回应。当在平台上搜索“Michelle”返回“Micheal”时,这是一种引起用户反感的明显错误。

面对上述问题,对应的解决方案是:确保数据和分析数据的算法与当前项目的值和目标保持一致。经常检查机器学习模型并仔细检查训练数据,以发现有意和无意的偏差。如果发现偏差,请将其隔离并移除输入数据集中与其相关的部分。

总结

发现有缺陷的数据并改进能够有效的提升机器学习算法。然而,Looker(一家领先的数据平台公司)首席数据传播者丹尼尔o明茨(Daniel Mintz)强调了一个更令人沮丧的现实。“真正令人害怕的是何时发现不好的数据。虽然用于清洗数据的时间宝贵,但没有发现问题而导致的后果往往更加可怕。”

他继续说道,“当你知道你不知道的时候,你是很谨慎的。但是,有缺陷的数据会让你陷入一种不自知的状态,那么你就有可能根据这些错误的信息做出错误的决策。这就是真正的危险所在。“

在你的机器学习项目中建立质量数据文化是可能的。彻底的测试、清洗和审计确保准确性,同时仔细的计划可以发现并消除隐藏在训练集中的偏差。最后,你可以花更多的时间来了解您的数据 ——它来自哪里以及你想通过它实现的目标,你的机器学习项目将会更成功。

免责声明:本文来源于,由网友提供或网络搜集,仅供个人研究、交流学习使用,不涉及商业盈利目的。如有版权问题,请联系本站管理员予以更改或删除。优知网会定期发布程序开发相关趋势文章,包括 PHP、 Android、 IOS、 Java、 C/C++、 软件测试、 大数据、 Linux、 全栈开发、 等领域,敬请关注!

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

机器学习 人工智能 大数据 预测分析 数据质量 计算机科学
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...