数智资源网
首页 首页 人工智能 查看内容

跨入数据世界和机器学习你需要知道有哪些

木马童年 2021-5-4 12:47 3 0

许多人试图进入与数据相关的领域;但是,由于分支学科之间有很多交叉和混淆,网络上也有很多可用的资源,有的人可能会迷失方向,究竟从哪里开始呢?许多人最终学习了一套通用的技能,成为了数据科学通才。 这就是我 ...

许多人试图进入与数据相关的领域;但是,由于分支学科之间有很多交叉和混淆,网络上也有很多可用的资源,有的人可能会迷失方向,究竟从哪里开始呢?许多人最终学习了一套通用的技能,成为了数据科学通才。

这就是我整理这篇文章的原因,希望能帮助你发现并选择适合你的方向。在这篇文章中我还总结了每个领域所需的所有能力,这样有助于你制定下一步行动计划!这里的路线图涵盖了数据和每个人都需要的技能。我们将介绍精准的细节来希望能帮助到你去发现自己还缺乏什么技能。

数据科学

数据科学被称为”处理数据的艺术”。作为一名数据科学家,您不只是使用编程工具来从A点到达B点;但是,你首先要定义A点,然后从这些点开始绘制所有可能的路径,探索输入数据,进行假设,正式的提出假设,使用不同的统计和数学工具测试你的假设,如果需要,设计和应用实验,评估当前的周期,如果需要,开发一些编程工具,或者更多…

跨入数据世界和机器学习你需要知道有哪些

数据科学有三个主要组成部分:

机器学习计算机科学技能

数学和统计

领域相关的知识

数据科学包括不同的技术和工具。在这里,我们将首先在python中列出所需的技能堆栈。

Python方向所需的技能

熟悉Numpy、panda、sklearn和matplotlib

强大的SQL技能,NOSQL技能也是非常必要的。包括设计规范化模式,良好的索引技术,和写作高效的查询

数据清理

良好的数据可视化技能(如tableau或library、matplotlib、seaborn、Bookeh等)

统计分析技能。这包括熟悉不同的统计问题类型。

实验设计和统计测试(参数和非参数测试)

熟悉大数据框架/基础设施(Spark、hive、Hadoop、Mongo等)

机器学习技能(技能水平因业务逻辑导致的差异很大)

对数据科学的整个周期有很较强的理解(尖锐问题、探索性数据分析、推理、形式化统计建模、解释和沟通)

讲故事的技巧(PowerPoint等)

数据科学是一个非常广泛的领域,通常需要基于面临的任务去学习新的知识和技能(如何构建、推荐系统、序列建模等)在本文中我只介绍基本技能集。

数据分析

数据分析基本上是回答在使用数据时与业务相关的问题。这些问题可能是:

描述性:您只是在描述您所拥有的数据样本及其相关统计数据。您对样品之外的数据不感兴趣。

探索性:你正在探索不同的模式,趋势数据、季节性、关系和分布。通常做为探索性数据分析可视化工具。

推论性:你正试图推断一些有关的问题的答案,基于假设检验的样本数据以及不同的静态测试技术。

因果关系:这类问题通常需要运行一个或更多的实验来检验两个或更多的变量之间的因果关系。

机械论的:这一个问题根本联系在两个变量集。通常很难在不受控制的情况下发现它的环境。

数据分析通常被认为是数据科学的一个分支,适用于没有或几乎没有技术背景的专业人士。它通常需要统计学和领域相关经验。

到目前为止,大多数数据分析师使用SPSS等工具;然而,现在出现了一种新的趋势,即招聘具有R/ python技能的数据分析师,因为他们具备更强大的预测分析和大数据工具的技能。

Python方向所需的技能

熟悉Numpy、panda、sklearn和matplotlib

强大的SQL技能,NOSQL技能。正常情况下这包括编写有效的查询

良好的数据可视化技能(如tableau或library、matplotlib、seaborn、Bookeh等)

统计分析技能

实验设计与统计检验

了解基本的预测分析工具,如回归模型与聚类、队列分析等。

对数据科学的整个周期有很较强的理解(尖锐问题、探索性数据分析、推理、形式化统计建模、解释和沟通)

机器学习工程

机器学习是人工智能的一个领域,我们用它来实现那些通常需要人类的智慧来做特别在视觉和语言过程的自动化。ML是AI的分支,它使用数据在人工智能中其他非数据中心的方来应用它。

机器学习是其中技术含量最高的。它需要一系列的技术技能,比如编写有效的查询,高的学习算法(时间和精度)。

请永远记住,在我们操控电脑时,电脑和我们一样聪明

Python方向所需的技能

熟悉Numpy、panda、sklearn和matplotlib

强大的SQL技能,NOSQL技能也是非常必要的

良好的数据可视化技能(如tableau或library、matplotlib、seaborn等)

熟悉大数据框架/基础设施(Spark、hive、Hadoop、Mongo等)

对基本的ML算法有很强的理解(回归,分类、聚类和降维)

特征工程与超参数微调

对不同的优化算法在什么时候使用有较强的直觉性

构造和评估ML算法

了解不同的神经网络结构和新的病毒架构

强化学习

非常熟悉一个或多个TGE深度学习框架(TensorFlow、Keras、Caffe或Torch等)

网络分析

数据工程

数据工程是关注构建数据管道和基础设施的领域。这项工作对于任何拥有大量数据并计划聘请数据科学家的公司来说都是至关重要的。通常情况下,雇佣数据工程师先于雇佣数据科学家。

Python方向所需的技能

深入了解SQL和NoSQL解决方案

系统架构技能

用于高效数据存储和检索的ETL和其他数据仓库工具

熟悉数据湖、数据仓库等不同的AWS或任何云服务

基于大数据的分析(即基于mongo或Hadoop的框架,如spark、hive、mapreduce)

基本了解数据建模、ML和统计分析

建立高效的数据管道

毕竟,所有这些领域在工业上都是刚刚兴起,还没有很好地建立起来。这就是为什么你需要跟上新的技能,病毒架构,论文等。

未来,我也许会发布另一篇关于最佳推荐的在线课程和学位的文章,指引我们学习每一项技能,并快速浏览这些要点。

数据科学 数据科学家 机器学习 计算机科学 索引技术 数据清理
0
为您推荐
高等数学,学习算法人工智能大数据的第一步教程下载

高等数学,学习算法人工智能大数据的第一步

课程介绍:从最基础的函数与极限相关的知识,步步深入到微分学的领域,包括导数与微分…...

Python400集(第四季)【北京尚学堂·百战程序员】,资源教程下载

Python400集(第四季)【北京尚学堂·百战

课程名称Python400集(第四季)【北京尚学堂·百战程序员】课程目录1.算法2.数据结构3…...

花书+西瓜书+统计学习(完整版),资源教程下载

花书+西瓜书+统计学习(完整版),资源教程

课程名称花书+西瓜书+统计学习(完整版),资源教程下载课程介绍如果你从来没有使用过…...

数字货币python量化投资课程,视频教程下载

数字货币python量化投资课程,视频教程下载

课程介绍:学习了解数字货币,对交易的标的有清醒的认知需要掌握基本的python编程基础…...

最新Python黑马基础班+就业班,全套视频教程下载

最新Python黑马基础班+就业班,全套视频教

课程介绍本期黑马Python基础班+就业班课程为2018年录制,课程质量有保证,请大家放心…...

轻松入行人工智能-Python3入门机器学习 经典算法与应用,资源教程下载

轻松入行人工智能-Python3入门机器学习 经

课程简介:bobo老师特为机器学习初学者量身打造,使用新版python3语言和流行的scikit-…...

贪心学院-CV计算机视觉集训营,视频教程下载

贪心学院-CV计算机视觉集训营,视频教程下

课程介绍:有机器学习基础,有较强的编程能力,对数据结构与算法比较熟悉之后想从事CV…...

从入门到进阶,攻破人工智能CV领域的资源教程下载

从入门到进阶,攻破人工智能CV领域的资源教

课程介绍:以主流的语言python为主,简单易学,从零开始课程从python语法讲起,逐步学…...

最新评论(0)