首页 首页 大数据 查看内容

人人都要学一点深度学习——为什么我们需要它

木马童年 2019-8-12 11:40 78 0

1. 深度学习的世界 深度学习不是一个新概念,它已经存在好几十年了,,这里所说的深度学习世界大抵是在最近几年深度学习刷新各个机器学习领域之后了。 前深度学习世界的特征就是:在人类强的地方很弱,在人类弱的地 ...

1. 深度学习的世界

深度学习不是一个新概念,它已经存在好几十年了,,这里所说的深度学习世界大抵是在最近几年深度学习刷新各个机器学习领域之后了。

前深度学习世界的特征就是:在人类强的地方很弱,在人类弱的地方可能很强。人类强的地方比如说图像识别(猫还是狗);图片语义分割比如看出一个图片中哪部分是树、哪部分是房子。人类弱的地方比如说下棋、语法标记(一个句子里面哪些是助词哪些是动词)。

这个最主要的原因是,那种对于人类来说简单的东西(在万千世界中识别出一只猫)没办法用一个正式的数学公式去描述。

比如说你无法用数学公式去定义一个猫的形状。因为不同的角度、颜色、距离、光线的组合让这个基本上没有办法做到。

所以在这个基础上谈智能实在是镜中月水中花:你连一个猫都不认识,怎么能够取代人类?因为人类的世界远远比围棋要复杂得多。

关于1989年时候著名的专家系统Cyc,里面还有一个有趣的例子:

Its inference engine detected an inconsistency in the story: it knew that people do not have electrical parts, but because Fred was holding an electric razor, it believed the entity “FredWhileShaving” contained electrical parts. It therefore asked whether Fred was still a person while he was shaving.

… 它的推论引擎发现了一个前后矛盾的地方:它知道人是没有电驱动的模块,但是因为Fred拿起了一个电动剃须刀,所以这个引擎认为”一个正在剃胡子的Fred”有了一个电驱动的模块。然后这个系统就问起这个Fred到底还是不是一个人啊。

此外,前机器学习时代一个重要的特征是要设计特征,比如说如果要做一个淘宝的商品自动分类器,特征可能有商品的题目、描述、图片等等;特征还需要进行严格的预处理,比如说要过滤掉描述里面亲包邮啊这种无意义的话,而且对正文里面的描述也要进行重点抽取才能够符合训练的标准。等到特征选择、清理好了之后才能够运行出有意义的结果。而且如果需要重新选择特征,或者更改特征,那就需要重新重头来过。

曾经有些公司甚至有”特征抽取工程师”这样的职位,以前阿里同事做分类器的时候,就要特别注意不要把成人玩具分到儿童玩具的类目里面,万一被抓到把柄了那可就要丢工作了。

1.1 深度学习带来了什么

深度学习最重要的东西就是自带了特征学习(representation learning,有时候也被翻译为表征学习),简单来说就是,不需要进行特别的特征抽取。从这个来说,深度学习相对传统机器学习来说就有了太多的优势,因为一个设计好的系统能够被相对容易地移植到新的任务上去。

参考最近DeepMind发布的一个深度增强学习的无监督系统玩复杂任务游戏游戏的例子。系统从游戏的屏幕像素开始自我学习,到学会玩一个复杂游戏并超过人类的专业玩家,并没有进行特别的人工特征抽取,这个在传统的机器学习方式上看起来是很难想象的。

此外深度学习另外的一个优势是,可以表述相对与浅度学习更复杂的东西,这里不准备展开描述,不然就要提到XOR,维度诅咒(The Curse of Dimensionality)等等相对枯燥而且很难说清楚的理论知识了。简单来说,提升维度当然是一个很厉害人人都想的东西,参考三体中的降维打击。但是与此同时也带来了很多计算上的挑战,得益于这几年神经科学,算法研究和硬件(特别是GPU)提升,我们可以尝试越来越深的模型。

2. 现在(2016)的深度学习究竟在什么位置

同样,主要参考了 Deep Learning 综述部分:

首先衡量深度网络的复杂程度主要有两个方面:1. 网络中一共有多少个神经元,2. 每个神经元平均与多少个其他的神经元连接。

首先是连接的数量:

人人都要学一点深度学习——为什么我们需要它

每个蓝色的小点表示一些里程碑级别的系统公布的结果,比如说10. 就是GoogLeNet (Szegedy et al., 2014a)

从这点看来,似乎还是挺乐观的,比如说10. 已经很接近人类了,但是看看下面。。。

神经元的数量:

人人都要学一点深度学习——为什么我们需要它

可以看到,目前最先进的系统所模拟的神经元的数量处于蜜蜂和青蛙之间。蓝色的线表示预估的增长曲线,如果在没有革命性的进步前,系统差不多可以到2050年的时候模拟人类同样的神经元的数目,所以革命之路还很漫长。

但是从另一方面来说,神经元的数目也不是唯一的衡量标准,就像是玩星际一样,APM 150的意识派也可以完虐500的抽经流选手。我们可以教一个神经元如此少的系统玩复杂的电子游戏,但是我们没有办法教一个青蛙玩这种游戏。所以也不用悲观,也许西部世界似的人工智能会到来得比想象中更早。

文 | leftnoteasy

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

深度学习 机器学习 图像识别 智能 专家系统 工程师
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...