首页 首页 大数据 查看内容

我是如何建立完美的数据科学团队

木马童年 2019-10-8 15:05 48 0

by Jean Georges Perrin 来源:DZone 当我组建第一个数据科学团队时,这个术语在《哈佛商业评论》上几乎没有印出来。我不知道我正在组建一支在大数据和数据科学领域处于先驱地位的团队。现在是反思这个十二年前开始 ...

by Jean Georges Perrin 来源:DZone

当我组建第一个数据科学团队时,这个术语在《哈佛商业评论》上几乎没有印出来。我不知道我正在组建一支在大数据和数据科学领域处于先驱地位的团队。现在是反思这个十二年前开始的故事的好时机。

首先,我真的很想为这篇文章冠以“我如何建立一支完美的数据科学团队(不知道如何)”的标题。但是,我不想给人留下我不知道自己在做什么的印象(我认为我做了) 。不过,这是我的故事...

2007年,我创立了GreenIvory。这个想法是为网络营销人员建立一个工具箱。无论营销人员是想要自动化内容分发,内容生成,还是通过情感分析来衡量品牌知名度,我们都有一个解决方案(还有更多解决方案!)。不久之后,该团队开始研究NLP(自然语言处理),并于2011年初发布了首款可进行情感分析的产品。我们解决了许多技术难题,但我们将重点放在人员和组织方面。

“green team”由一群才华横溢的软件工程师组成。每位工程师在系统的各个关键要素上都有自己的强项:UI,数据,爬虫,系统,操作等。我们之前已经推出了几个项目和产品。这是一个工作模型。然而,我们没有足够的科学。 我们需要可以帮助我们将科学知识注入工程团队的人。 那时我们与斯特拉斯堡大学合作,聘请了一位数据科学家(当时他并没有这个头衔)。

时间轴和业务价值

我是如何建立完美的数据科学团队

我们的主要问题是时间表。或更确切地说,数据科学与工程学之间缺乏一致性。那时,我们已经在遵循敏捷方法论。与当时的大多数公司一样,它是本地生产的版本,但它是团队驱动的,我们拥有一个出色的敏捷冠军。运行正常。

每个Sprint都在交付业务价值,我们经常在开发过程中更新工件,面临的挑战就是将科学家的工作在工程组织。

我是如何建立完美的数据科学团队

归结为将他直接整合到开发团队中。我希望他充当灯塔。这并不容易。有点文化冲突。工程师们不明白为什么要花这么多时间来获取东西,以及为什么要花这么多时间来做。在他的身边,这位科学家无法理解为什么他的实验虽然在Mac上取得了成功,但是当我们向他的算法抛出数百万个句子时却无法扩展。

最后,经过无数次结对编程,讨论并建立了更强的团队合作精神,我们得以在产品中利用科学。

反例

我是如何建立完美的数据科学团队

最近,我经历了一个不同的组织,数据科学家被停在一个筒仓中。当时的想法是将科学作为一种面向消费者的产品交付给业务分析师和用户。

不要误会我的意思,他们能够交付,但是筒仓仍然是筒仓。团队积累的知识和智慧并没有渗透到组织的其他部门。

副作用是该团队不断发展,最终与另一个团队合并……您知道发生了什么:他们需要更多的披萨。而且,当您需要更多披萨时,生产率就会下降。如果不在原始的《敏捷宣言》中,则必须在其第一个修订中。

十二年来的数据科学团队

最近,我在Think 2019上参加了Stacey Ronaghan的鼓舞人心的演讲。Ronaghan是IBM的数据科学家。她正在总结自己作为数据科学家的经验,并加入了一个团队。那时我才意识到,十二年前,我们相距不远。

我是如何建立完美的数据科学团队

她将团队定义为成功的关键驱动力。她与之合作的团队在数据科学领域扮演着不同的角色,例如高管发起人,数据库管理员(该公司负责处理数据!),业务分析师,项目经理(在2019年,我们称为Scrum Masters),SME(主题专家) ),解决方案架构师,软件工程师,设计师和设计思维实践者。是的,这是一个非常折衷且具有跨职能的团队。就像软件工程团队一样。

交付基于为组织带来的价值。团队并不是孤立地生活,也不是为了学习而只是在遥远的舒适茧中学习。他们交付。他们解决问题。

解决问题有助于他们带来业务价值。像敏捷团队一样。她的团队工作敏捷。也可以实现两周的Sprint。

像在软件产品组织中一样,她的团队经历了建立MVP(最小可行产品)的过程。那是她的客户可以接管的地方。

结论

我是如何建立完美的数据科学团队

每个利益相关者都有一个角色。科学家可以定义愿景,构思构想,找到正确的算法。然后,工程师可以将其“带回家”,并将其转换为工具箱或平台中的生产代码。最后,应用程序开发人员可以结合现已在平台上工业化的科学技术,以构建出色的产品。这就是我所说的数据科学的工业化。

经过这些经验,并能够与其他人面对一些想法和部分经验,这是我的结论(到目前为止):

数据科学团队与软件工程团队没有太大区别。

期望有所不同,因为其中的实验部分更为重要。

可以应用标准软件方法(Agile, SAFe…),但在研究方面更具挑战性。

随着TDD成为标准,测试驱动数据科学还不存在。

存在诸如偏见之类的新挑战,但这难道不是QA的一部分吗?

模型的治理也是前所未有的挑战。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

数据科学 大数据 情感分析 解决方案 自然语言处理 工程师
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...