首页 首页 大数据 查看内容

傅一平:数据建模者,对算法要“知其所以然”

木马童年 2018-10-13 19:25 11 0

知其所以然是我们干成事,干好事,能够触类旁通的一般原则,当算法的黑箱子问题越加严重的时候,我们越要多问一个为什么。 做机器学习的都知道贝叶斯吧,但如果让你对贝叶斯的本质做个阐述,将贝叶斯应用在生活的 ...

知其所以然是我们干成事,干好事,能够触类旁通的一般原则,当算法的黑箱子问题越加严重的时候,我们越要多问一个为什么。

做机器学习的都知道贝叶斯吧,但如果让你对贝叶斯的本质做个阐述,将贝叶斯应用在生活的各种场景解释上,能够将其蕴含的道理浅显易懂的解释给家人听,你也许会感觉到有点困难。

也许一般建模人员只能列出那个公式,然后说如何了利用这个公式成功预测了垃圾邮件。

这是笔者一直在思考的问题,企业培养的数据建模师在掌握了一些基本的语言和工具后,到底应该如何学习才能更进一步,其核心能力到底是什么?

如果仅仅说会用SPSS、R或Python等的算法库来做模型的训练,那对于任何一个掌握了基本IT技能的工程师,其可以在很短的时间学会使用这些算法。

可以这么讲,随着人工智能时代的到来,对于常规算法的应用能力已经很难成为建模人员的核心竞争力了。

大数据有个理论说仅需要关注相关关系,而不强调因果关系,这让实用主义者非常高兴,的确在工程上你熟练的应用某个算法创造的效益也许比一个算法大师差不了多少,但这仅仅是眼前利益,随着时间的流逝,两者的差距会越来越大。

虽然建模人员大多没有成为算法大师,事实上很多建模人员会走向分析、业务和管理岗位,这个时候,工具和语言等形式化的东西是次要的,而数据建模从数据中发现知识的思维过程却是非常重要,这显然能跨越专业的限制,但一般来讲,企业的数据建模师并不比其它岗位的人思考的逻辑更为严密。

目前几乎所有的算法书的讲解方式都是欧几里德式的、瀑布式的、自上而下的、每一个推导步骤都是精准制导直接面向目标的,由因到果,定义、引理、定理、证明一样不少,井井有条一丝不乱毫无赘肉,而实际上,这完全把人类大脑创造发明的步骤给反过来了,看起来是阳关大道,实际上车马不通。

而对建模师来说,这就等于直接告诉你答案与做法了,然后让你去验证这个答案与做法是可行的,而关于答案与做法到底是怎么来的,从问题到答案之间经历了怎样的思维过程,却鲜有书能够很好的阐释。

笔者发现每每需要寻找对一个算法的解释的时候,翻开这些书,总是直接就看到关于算法逻辑的描述,却看不到整个算法的诞生过程背后的思想,比如笔者非常纠结于诸如贝叶斯、逻辑回归、主成分分析、强化学习的通俗化解释,作为讲师,我一直想透彻的表达清楚这些东西,但发现完全不行。

当然不是说诸如《数据挖掘导论》、《深度学习》、《机器学习》这类书没有价值,作为知识性的参考书籍,它们将知识整理出系统结构,极大的便利了知识的掌握,我完全不否认这些著作的价值,我自己也在通过阅读它们来学习算法,并且有很多收获。

贝叶斯这个基于观察事实逐步确立信念的过程,其中的思想通过P(A/B)=P(B/A).P(A)/P(B)这个公式显然是无法其义自现的,笔者曾经背过这个公式很多次,但不用就又忘了,然后重新背,如果让我去跟不懂的人讲这个算法原理,笔者相信也是讲不清楚的,即使你会用它。

看了很多书,惊叹于寥寥数行精美绝伦的算法,然后仰天长叹自己想不出来,为什么想不出来,因为你不知道那短短数行算法背后经历的是怎样漫长的思考过程,如果问题求解是一部侦探小说,那么算法只是结局而已,而思考过程才是情节,而牛人的思维过程往往更为重要。

在不知其所以然的情况下,算法只是一堆离散的机械步骤,缺少背后的思想的支撑,这些步骤之间就没有一个本质层面上的关联(先知亚里士多德早就指出:学习即联接),所以就跟背历史书也没多大区别,

实际算法乃至算法的某个特定语言的实现包含了太多表面的不相干知识,它们会阻碍对本质的理解。

我们知道了what和how,但不知道why,决定了我们往往只能简单应用算法,而无法进行改良和创新,我们甚至不知道大多数算法的优缺点,导致一碰到问题就轮询所有算法,然后选择效果最好的那个,所谓不求甚解就是这样吧,短期来讲的确解决了问题,但长期来讲自己却没有获得成长,无论是算法上的,还是思想训练上的。

从一个算法中领悟尽量深刻的东西,需要做到三件事情,

只有采用这种学习方式,对于算法的理解才是持久的,所谓触类旁通者,其实便是因为他擅长去理解算法背后的更具一般性的东西,因此看到美妙的证明和解法一定要去一遍又一遍的去反复揣摩,试图理解想出这个人到底是怎么想出来的,有没有什么一般性的方法可循,

现在大数据很火,很多学校都开了大数据和数据挖掘的相关课程,笔者觉得对于经典的算法,学生不仅要能自己推导,更要能理解算法背后的思想,这才是永恒的,不会随着语言和工具的更新而淘汰,不能总奢望使用最新的工具和语言。

如果你已是职场上的建模师,虽然可能没必要自己去把每个算法过程都推导一遍,但如果希望能上一个层次,就有必要知其所以然,能回答诸如为什么这个算法用在这个场景合适的复杂问题,在企业IT中大家都知道架构师的巨大价值,在数据建模领域,也同样需要。

事实上,知其所以然是我们干成事,干好事,能够触类旁通的一般原则,当算法的黑箱子问题越加严重的时候,我们越要多问一个为什么。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

机器学习 数据建模 工程师 人工智能 大数据 强化学习
0

聚焦多智时代,引领智能变革

© 多智时代(www.duozhishidai.com)版权所有 / 工信部备案 豫ICP备15012664号