首页 首页 人工智能 查看内容

蚂蚁金服副总裁兼首席数据科学家漆远博士之阿里访问录!

木马童年 2017-7-15 09:28 94 0

所有大牛所有的理论,都有可能是错的。你要敢于质疑现有的状况,现有的方案,想到更好的方案,不是人云亦云。

7月22-23日,由中国人工智能学会、阿里巴巴集团&蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI2017)将在杭州国际会议中心盛大开幕。

大会开幕前,CSDN独家采访到本届大会程序委员会主席、蚂蚁金服副总裁兼首席数据科学家漆远博士。

1478590453719043401.jpg

本次采访中,漆远博士首次对外批露了日前刚刚完成的一项重大创新——把深度学习和图模型结合起来,在知识图谱上做相关推理的能力,这在行业应用上绝对是第一次。

此外,漆远博士还谈到了蚂蚁金服目前正紧缺的图像人才,以及蚂蚁金服特别欢迎既懂金融又懂算法的人才。

而谈到即将举办的CCAI大会,漆远更是真性情地说到,“我们以前在国内,网红多了点,真正的这种技术性的会不是特别多。这次CCAI大会,请到了普林斯顿、佐治亚等很多一流的教授,他们是真正的领头羊,真正的高手。“

以下为漆远博士的访谈内容。

来阿里做的三件事

CSDN:阿里在人工智能上的布局,一直是外界关注的焦点。您当时从普渡大学来阿里后主要做了哪几件事?主抓的第一件事是什么?

漆远:在阿里三年时间,简单来说主要做了三件事,一个是分布式机器学习平台,就是大规模参数服务器平台;一个是语音识别;再一个是人工智能平台PAI。应该说这三件事情为阿里在AI方面奠定一个比较好的基础。

来阿里后做的第一件事是分布式机器学习,当时一来就主抓这件事,因为阿里急需这么一个平台,而我自己也比较擅长。

在麻省理工,我当时在《Nature》以第一作者发表的文章,就是用分布式计算来做的,通过机器学习来分析海量的生物数据。

后来到了普渡大学教书,我做了两个项目,一个是通过分布式机器学习算法来分析生物数据,这个跟我来阿里特别相关。另外一个GPU,2008年我开始用GPU来训练机器学习文本分析模型,然后通过计算并行化加速,这个跟我后来的研究也一脉相承。

CSDN:这个分布式机器学习平台用是怎么实现的?

漆远:首先是基于参数服务器,后来我们用到了参数服务器的框架,再后来我们又在上面做了实时学习,开发了深度学习,接着在PS框架做了深度学习框架。这个东西做完之后,有一个简单的指标:百亿的特征,数据做到千亿,参数做到万亿。其实去年有个大公司开源特征规模10亿,数据百亿,参数千亿,这个数据乘以十差不多到我们的级别了。这个其实我们2014年就做了,我们直到三年后才对外公开。

这是一个工业界的算法和业务的结合。这跟学校做的工作相关,但是有很大的不同。这是实打实的,必须稳定,我们把阿里妈妈的特征数直接从2000万提到近百亿,RPM直接提升8%左右,这就意味着上亿的收入提升。

从广告的搜索到推荐到菜鸟等,全集团都在使用这个分布式机器学习平台。

蚂蚁金服的风控、CTR及智能助理

CSDN:这之后您去了蚂蚁金服,蚂蚁金服吸引您的地方是?

漆远:当时我来阿里面试的时候,就奔着这个了。当时就觉得,蚂蚁金服AI平台有大量的适合机器学习的场景。AI要落地,除了平台就是场景,场景非常非常必要。普惠金融这个场景就特别适合AI。普惠要服务很多人、很多中小企业,这里面一定是技术驱动的。人是没有办法做普惠的。而蚂蚁金服恰恰就做的是普惠金融。

CSDN:蚂蚁金服常提的概念是TechFin,用科技为金融赋能。这里面关于风控,主要用了什么技术模型?里面的原理是什么?

漆远:风控这块主要是无监督学习。里面的思路是,假如你能把用户之间的关系,他们正常行为分析得很好,那就可能发现有哪些不正常的。在统计机器学习里面我们叫做异常检测。如果我们用一个更好的模型来分析正常的用户行为,就可以分析异常的行为。跟正常不一样的,可能最后就是异常。

其实我们并不知道哪些数据特征和风险相关,哪些不相关,所以我们就把当初开发广告的一套技术思想,用在风控里面。通过机器学习,一个是保证准确性,一个是误识率这两个的平衡,我们就能够在抓到足够坏人情况下,不打扰用户,减少上千万次的用户打扰。这里面灌入我们系统里面用户行为轨迹的数据,然后再把这种特征变换的技术和深度学习的技术做一个结合,运用在风控里面,而且效果非常好。

数据的实时性和多维度非常重要。结合用户本身的行为轨迹,就可以分析是否是一个欺诈行为,盗号或者洗钱行为。

CSDN:来蚂蚁金服后,您主抓三个方向的落地:广告预测CTR,AI助力金融科技TechFin,还有智能助手。关于广告预测CTR,讲一个特别创新的例子吧,以及背后的技术点。

漆远:那我说说口碑吧。CTR对它的提升特别大。

我说说这背后的技术亮点。这里面就是一个矩阵分解和哈希算法,可以完成十亿数量级的超大规模学习。

这种情况下怎么加速?

我们把它和哈希算法进行结合,结合之后可以大规模提升效率,同时保证预测的精准性。这算是一个直接的技术创新。工业界讲究稳定性,在稳定的技术上讲究速度和计算的资源消耗程度,然后才是准确性。

CSDN:目前来说,您主要的精力是抓什么?

漆远:从技术本身,我们现在比较关心的其中之一是智能助理的发展,然后另外一个就是蚂蚁金融大脑的构建。我们希望通过智能助理,帮助蚂蚁变成一个智能的一站式生活服务平台。

比如转账给某个好友,直接说句话,支付宝自己就给你转了,你只需要点击确认。比如你要找到一个埋得很深的城市服务,打车,买电影票,你对助理一说,就完成了。这个是我们比较关心的方面,涉及到很多机器学习,自然语言处理,对话技术,知识图谱还有推理能力。

另外一个就是蚂蚁的金融大脑,这个金融大脑要理解市场的风险,包括信用风险、理财风险等,并从多个角度来理解它,这个是我们金融大脑的定位。这也是我比较关心的一个事情。

再一个,是希望把我们的AI能力直接赋能到现在所有业务领域,对我们业务的发展,就像水一样注入所有业务的发展。

CSDN:蚂蚁金融大脑比较难攻克的地方是?

漆远:金融大脑的核心能力就是推理,推理是一个核心问题。从推理到决策,怎么能够保证它是一个系统化的风险刻画,而不是单个的单点的刻画。

深度学习应用很多都是单点模型,比如预测这张脸是不是你,预测图片里面是狗还是猫。这是单点的。但金融里面很多是一个网络结构,是一个系统。

这与大家平时外面听得比较多的图像识别不太一样。

CSDN:智能助理,从您开始创立到现在,已经到了什么阶段,取得了什么实质性的效用呢?技术难点在哪里?

漆远:蚂蚁金服业务的迅速扩张,对客服人员的需求量还是非常大的。去年的双十一,客服已经做到97%的自助率了,满意度也高。因为自助率高的话,大部分使用自助程序的机器人干得比人还好,人的满意度也很高,比真人提供的客户质量、满意度还要高,这是一个直接的表现。

这里面的技术难点包括推理,对知识库的理解、知识图谱的构建等。

CSDN:目前在工作上,有什么问题是想解决还没有解决的?

漆远:怎么把公司的长期目标分解成一个短期的算法指标,这个还需要思考。

CSDN:可否透露一个您还从来没有对外讲的料?

漆远:我们正在知识图谱上做相关的推理能力。我们把深度学习和图模型结合起来,在风险上做出了新的东西,这个是非常大的技术亮点。

深度学习以前和图模型是分开的,并没有做推理能力。我们把这个结合起来,直接大规模的提升了我们效率,上星期刚做到的,这个还没有对外讲,绝对是独家专有的。

深度学习怎么推理,是一个技术难点。怎么从这个知识点推到下个知识点,下个知识点推到下下个知识点,这个其实并不容易的。

因此在我们行业应用,这绝对是第一次。其实在整个世界上,这个技术本身也是非常领先的,可以说是最领先的。前两天有一个伯克利一个教授来了之后,聊完之后也是非常震撼。

CSDN:问一个俗套的问题,在金融领域,您觉得哪些领域、哪些职业是很容易被未来的AI取代,哪些是不太容易被取代的?

漆远:重复性的,没有真正创造性的工作,我觉得从长远来讲会收到很大的冲击。

假如你的工作每天一模一样,天天看一个财报,拿一个规律做一个结果,将来就会非常危险。最简单的例子——贷款,对于贷款审计,数据就可以利用算法自动完成。

蚂蚁金服急需的人才

CSDN:问一些大家都迫切想知道的问题。蚂蚁金服现在估值600亿美金,很多人也希望进入里面工作。您对人工智能团队的要求是什么样的?什么样的人才能够进入到蚂蚁金服的和您一起来工作呢?

漆远:对团队的要求是,既叫座又叫好。

叫座的话,首先能够解决实际问题,见效果,从问题出发,不是拿着锤子找钉子。

叫好的话,希望有技术深度,当然这里面需要平衡,有的同学算法多一点,有的搞工程多一点。

我们的团队不是一个刷单的团队,刷各种外面的公开比赛,我们是真正要解决实际问题,一方面提升蚂蚁金服甚至服务整个阿里经济体,解决大家遇到的核心的AI问题;一方面我们要产生新的产品、新的服务,能够造成新的增长点,这是目标。

这就直接映射到我们对人的需求上来。

我希望加入我们团队的人,首先能够对机器学习技术本身有真正的热爱,没有热爱就比较难做。因为技术说起来很高大上,真正做起来需要投入的精力,不是短期的,也不是表层的。

第二,对于人才我们既需要全栈型的,也需要对某技术特别钻深的。如果两个都很强,那就更好了。

CSDN:没有名校背景的人,但是有一些实战经验,这样的人才也OK吗?

漆远:实战经验看怎么定义,实战经验如果是自学,真正学了很多机器学习的技术,真正比较深入地掌握了技术,有基础并且还能进一步提升,这种实战经验就非常好。

如果只是拿开源软件做了一个模型,对背后的思想和原理并不明白,那我认为这个潜力就不是非常高了。

CSDN:现在急缺的是哪一类人?

漆远:急缺的图像上的人。图像市场竞争激烈,好的人才,大公司、创业公司抢得非常严重。好的算法人才,永远都不够,但是除了算法人才本身,工程和产品我们一样很缺。

还有一个方向,既有金融经验,又有算法经验的,也非常缺。我们用科技服务金融公司,假如能和金融协调起来,那就更好了。

麻省理工及普渡大学的影响

CSDN:从阿里到蚂蚁金服,您操盘过的内容包括机器学习平台、语音识别、PAI平台等,为阿里奠定了一个比较好的AI基础,您觉得哪段经历对于今天的您影响重大,麻省?还是普渡?两个学校有什么不一样?

漆远:当然不一样了。

在麻省读博时,主要是理论基础的学习,博士后就是创新了,开始做各种算法,然后是应用,包括基因解码、生物信息上的应用。

麻省理工是当之无愧的世界最牛的科学和工程学校。我们住在学校楼里,和诺贝尔奖获得者一起吃饭、聊天。比如人工智能创始人马文·明斯基,与他们交流,对扩大思路,提升眼界,有很大的帮助。

在麻省理工收获的很重要一点就是,不迷信任何权威。

在普渡当了老师后,更多会思考哪些是机器学习人工智能可能有的方向,技术本身突破的方向,社会应用哪些是最关键的。

在普渡做老师和做公司其实是一样的,你要自己拉项目基金,自己招人,自己设定方向,自己产出复盘,整个体制和你在做一个创业公司是非常像的。

普渡当时一个优势是计算机系和统计系的结合,因为机器学习本身是计算机和统计、优化形成的融合。这个对我来说非常吸引。

当前感兴趣的理论

CSDN:您现在最感兴趣的前沿理论是什么呢?为什么?

漆远:现阶段比较关心两方面的理论,一个是推理,一个是先验知识结合小数据学习。

我对物理也是感兴趣的,我从物理学、包括经济学看到很多结合点,总结来说对三点比较感兴趣。

一个是物理上非均匀态的物理学和机器学习的结合;

第二个是非均匀动态变化系统和机器学习的结合,我们叫动态系统;

第三个是博弈论和机器学习的结合。

CSDN:最后一个问题,请您分享一句话,一句话您在AI之路上,对您帮助最大的一句话,或者是您多年从事AI这一块,最大的一个心得体会。

漆远:Assume nothing,question everything。(不事先做任何的预设,敢于质疑一切)

很多问题本身要从基本原理出发,不应该带着有色眼镜,不管是商业还是科技还是技术链的,大家要敢于从独特的角度来思考。我觉得做科学和做公司,到最后的相通之处,都是从基础的原理、从最基本的问题出发,这个非常关键。

所有大牛所有的理论,都有可能是错的。你要敢于质疑现有的状况,现有的方案,想到更好的方案,不是人云亦云。

                                       

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

阿里巴巴 数据 深度学习 阿里 人工智能
0

聚焦多智时代,引领智能变革

© 多智时代(www.duozhishidai.com)版权所有 / 工信部备案 豫ICP备15012664号-1