首页 首页 大数据 大数据入门 查看内容

数据科学的常用数据集推荐

木马童年 2019-10-8 17:12 47 0

数据科学的常用数据集推荐。以下是光环大数据培训整理编译的17个常用数据集,并列举了适用的典型问题,从菜鸟到老司机,总有一款适合你。菜鸟入门1.Iris数据集在模式识别文献中,Iris数据集恐怕是最通用也是最简单的 ...

数据科学的常用数据集推荐。以下是光环大数据培训整理编译的17个常用数据集,并列举了适用的典型问题,从菜鸟到老司机,总有一款适合你。

菜鸟入门

1.Iris数据集

模式识别文献中,Iris数据集恐怕是最通用也是最简单的数据集了。要学习分类技术,Iris数据集绝对是最方便的途径。如果你之前从未接触过数据科学这一概念,从这里开始一定没错,因为该数据集只有4列150行。

典型问题:在可用属性基础上预测花的类型。

数据科学的常用数据集推荐

2.泰坦尼克数据集

泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。借助一些教程和指导,泰坦尼克数据集可以让你深入了解数据科学。通过对类别、数字、文本等数据的结合,你能从该数据集中总结出最疯狂的想法。该数据集更重视分类问题,共有12列891行。

典型问题:预测泰坦尼克号上生还的幸存者人数。

3.贷款预测数据集

在所有行业中,最为倚重数据分析技术的就是保险业。贷款预测数据集可以让保险公司对即将面对的挑战、选择的应对方式和影响有一个清晰的认识。与泰坦尼克数据集相同,它也是一个分类问题,该数据集共有13列615行。

典型问题:预测贷款申请能否得到批准。

4.大市场销售数据集

零售业也是数据分析技术的重度使用者之一,它们可以利用分析数据来优化整个商业流程。利用数据科学技术,管理人员可以准确的完成产品分配、库存管理、供货和打包等复杂流程。这一数据集的名字已经透露出了它的属性,它就是商店的交易记录,主要解决回归问题。该数据集共有12列8523行。

典型问题:预测销售情况。

5.波士顿数据集

该数据集也是模式识别文献中的典型数据集,该数据集得名是因为波士顿的房地产行业,同时它也是一个回归问题。该数据集共有14列8506行。因此,即使你手上的笔记本电脑性能较弱也能Hold住该数据集。

典型问题:预测房屋售价的中间值。

进阶级别

1.人类活动识别

该数据集是由30个受试人智能手机内置的传感器收集的。许多机器学习课程中该数据集是学生联手的重要助手。该数据集属于多标记分类问题,共有561列10299行。

典型问题:预测人类活动的类别。

2.“黑五”数据集

该数据集主要是由零售店的交易记录组成的,它在数据集界资格很老,可以帮助商家了解自己商店每天的购物体验。“黑五”数据集也是个回归问题,它共有12列550069行。

典型问题:预测消费者购物量。

3.文本挖掘数据集

该数据集包含航空公司飞行数据中关于航空安全问题的报告,属于多标记分类的高维问题,雷锋网了解到它共有30438列21519行。

典型问题:根据标签为文档分类。

4.访问历史数据集

该数据即来源于美国的一个单车分享服务,想掌握它,你必须拥有专业的数据整理技巧。该数据集2010年第四季度开始每季度都会总结出一个新文档,每个文档则拥有7列。它属于典型的分类问题。

典型问题:预测用户的类型。

5.百万歌曲数据集

是不是觉得很新奇,原来这项技术还能用在娱乐业啊。该数据集能帮你完成回归问题,它包括515345个观察值和90个变量。不过,这还只是百万首歌曲数据库中的一个小子集。

典型问题:预测发行歌曲的最佳年份。

6.人口收入数据集

该数据集属于非平衡数据分类和机器学习问题。众多周知,机器学习在解决非平衡问题上效果显著,它可以执行癌症和欺诈检测等任务。该数据集共有14列48842行。

典型问题:预测美国人的收入阶层。

7.电影镜头数据集

利用该数据集,你能搭建一个推荐引擎。同时,该数据集也是数据科学行业的老兵之一,它可运用在许多领域。它数据相当庞大,共有4000部电影和6000多位用户发出的超过100万个评分。

典型问题:为用户推荐新电影。

老司机级别

1.数字定义数据集

该数据集能让你学习、分析并认识图片中的各种元素,它就是相机中图片和面部识别的技术基础。该数据技术与数字识别问题,共有28×28大小的图片7千张,大小为31MB。

典型问题:在图片中定义数字。

2.Yelp数据集

该数据集诞生于著名的Yelp数据集挑战赛第8轮。它由20万张图片组称,3个json文档的大小都达到了2GB。这些图片包含了4个不同国家10大城市本地企业的信息,你需要通过文化、季节、数据挖掘、社交图挖掘和类别推断等方式来洞察复杂的数据。

典型问题:从图片中找亮点。

3.ImageNet数据集

ImageNet数据集可以运用在多种问题中,包括目标检测、定位、分类和屏幕解析。眼下,其图片引擎中共有1419万多张图片,容量达到了140GB,你可以任选图片并围绕其打造自己的项目。

典型问题:问题的解决要围绕下载的图片展开。

4.KDD1999数据集

说到数据集,KDDCup这一大名可不能不提,它是世界上首个国际知识发现和数据挖掘竞赛。KDD1999数据集属于分类问题,它共包含48列和400万行,文档体积约为1.2GB。

典型问题:判断网络入侵探测器是否完成了任务。

5.芝加哥犯罪数据集

如今,能否Hold住大型的数据集已经是检验数据专家是否合格的试金石了。许多数据分析公司不再依靠简单的模型,它们开始使用完整的数据。通过该数据集,你能掌握大量在自己电脑上分析大型数据集的经验。想解决这一问题不难,但学会数据管理并不容易。芝加哥犯罪数据集中共有600万个观察值,属于典型的多标记分类问题。

典型问题:预测犯罪的类型。


在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

数据科学 数据集 大数据培训 模式识别 数据分析 房地产
0
为您推荐
大数据时代,主要需要什么类型的人才?

大数据时代,主要需要什么类型的人才?

什么是大数据,大数据是主要指的是,无法在可承受的时间范围内用常规软件工具进行捕捉…...

什么样的人才是大数据人才呢?我们应该怎么定义和分类?

什么样的人才是大数据人才呢?我们应该怎么定义和分类

在未来世界,国家之间、区域之间甚至是公司之间的大数据人才的争夺战,将是愈演愈烈的…...

数据科学,数据分析和机器学习之间,有什么本质区别?

数据科学,数据分析和机器学习之间,有什么本质区别?

我们都知道机器学习,数据科学和数据分析是未来的发展方向。有些公司不仅利用大数据帮…...

大数据现在处于什么阶段,入行大数据,需要学习哪些基础知识?

大数据现在处于什么阶段,入行大数据,需要学习哪些基

大数据的发展历程总体上可以划分为三个重要阶段,萌芽期、成熟期和大规模应用期…...

大数据技术怎么学习,在学习大数据之前,需要具备什么基础?

大数据技术怎么学习,在学习大数据之前,需要具备什么

  大数据又称黑暗数据,是指人脑无法处理的海量数据聚合成的信息资产,在民生、IT、…...

对于大数据开发的学习,最经典的学习路线是什么?

对于大数据开发的学习,最经典的学习路线是什么?

对于现代社会,大数据开发的重要性不言而喻,通过大量的数据处理、分析获取有价值的信…...