首页 首页 大数据 查看内容

2016年深度学习进展综述

木马童年 2019-8-12 17:00 17 0

深度学习在机器学习领域中一直是核心话题,在过去几年和2016年也是如此。在本文中将阐述我们认为该领域中最有贡献(或最有潜力)的进展,以及组织和社区如何确保这些强大的技术对所有人都有利。 历史上研究人员所努力 ...

深度学习机器学习领域中一直是核心话题,在过去几年和2016年也是如此。在本文中将阐述我们认为该领域中最有贡献(或最有潜力)的进展,以及组织和社区如何确保这些强大的技术对所有人都有利。

历史上研究人员所努力的主要挑战之一是无监督学习 。我们认为2016年对于这一领域来说是一个伟大的一年,主要是因为在生成模型上进行了大量工作。

此外,自然地与机器交流的能力也是梦想目标之一,并且诸如Google和Facebook之类的巨人已经提出了几种方法。在这方面,2016年所有关于自然语言处理(Natural Language Processing,NLP)问题的创新,是实现这一目标的关键。

无监督学习

无监督学习是指从原始数据中提取模式和结构,无需额外信息的任务,而不是需要标签的监督学习。

对于这个问题,使用神经网络的经典方法是自动编码器(autoencoders)。基本版本由多层感知器(Multilayer Perceptron,MLP)组成,其中输入和输出层具有相同的尺寸大小,并训练较小的隐藏层以恢复输入。一旦训练完毕,从隐藏层的输出对应于可用于聚类、维数降低、改进监督分类甚至用于数据压缩的数据表示。

生成式对抗网络(GAN)

近年来出现了基于生成模型的新方法。所谓生成式对抗网络,它能够解决模型无监督学习的问题。GAN是一场真正的革命,这种研究带来了深远的影响。在这个演示视频中,Yann LeCun(深度学习的创始人之一)说,GAN在过去20年里,是机器学习最重要的思想。

虽然生成式对抗网络早在2014年由Ian Goodfellow提出,但直到2016年,GAN才开始显示出真正的潜力。改进的技术帮助培训和改善体系架构(深卷积GAN),据介绍,今年已经修正了以前的一些局限性。新的应用程序(我们稍后列出其中的一些)展现了它们的强大和灵活性。

直观的想法

想象一下,一个有抱负的画家,想做艺术赝品(G),还有人想通过鉴定画作来谋生(D)。你首先给D展示了一些毕加索的画作。然后G制作赝品,试图欺骗D,使其相信是毕加索的原作。有时候会得逞。然而,当D开始熟悉更多毕加索风格(学习更多的样本),G就越来越更难欺骗D,所以他必须做得更好。随着这个过程的持续,不仅D能够很好地分辨出哪个是毕加索的风格,哪个不是;而且G也能得以提高仿毕加索绘画的能力。这就是背后GAN的设想。

技术上来说,GAN由两个网络之间的持续推动(因此“对抗”):一个生成器(generator,G)和一个辨别器(discriminatory,D)。给定一组训练示例(如图像),我们可以想像,有一个底层分布 (x)来管理它们。使用GAN,G将产生输出,并且D将判断它们是否来自训练集合的相同分布。

G将从一些噪声z开始,因此生成的图像是G(z)。D从分布(实际)和伪造的(从G)采用图像和它们进行分类:D(x)和D(G(Z))。

2016年深度学习进展综述

GAN如何工作。

D和G都在同时学习,并且一旦G被训练成它知道足够多的关于训练样本的分布,它可以产生新的样本,有着非常相似的属性:

2016年深度学习进展综述

由GAN生成的图像。

这些图像由CIFAR-10训练的GAN产生。如果你注意到细节,你可以看到它们确实不是真正的对象。但是,有些东西抓住了某些特征,使它们可以从远处来看很像真实的东西。

InfoGAN

最近的发展已经将GAN的想法不仅扩展到近似数据分布,还扩展到语义有解的学习、数据的有用向量表示。这些期望的向量表示需要捕获丰富的信息(与自动编码器中相同),并且也需要是可解释的,意味着我们可以区分部分向量,这些部分有助于在生成的输出中的特定类型的形状变换。

OpenAI研究人员在8月提出的InfoGAN模型解决了这个问题。简而言之,InfoGAN能够生成包含有关在无人监督的方式数据集信息表示。InfoGAN能够以无监督的方式生成包含有关数据集信息的表示。例如,当应用于MNIST数据集时,它能够推断数字的类型(1,2,3,...),所生成样本的旋转和宽度,而不需要手动标记数据。

有条件的GAN

GAN的另一扩展是称为条件GAN(cGAN)的一类模型。这些模型能够考虑外部信息(类标签、文本、另一幅图像)来生成样本,使用它来强制G生成特定类型的输出。最近浮出水面的一些应用有:

文字到图像

采用文本描述(由字符级CNN或LSTM编码为向量)作为外部信息,并基于此生成图像。参见Generative Adversarial Text to Image Synthesis (Jun 2016) 。

2016年深度学习进展综述

图像到图像

将输入图像映射到输出图像。参见 Image-to-Image Translation with Conditional Adversarial Nets (Nov 2016)。

超分辨率技术

它采取降低采样的图像(细节较少),生成器尝试将它们复原接近更自然的未经删减压缩的原本。只要看过CSI的任何人都知道我们在说什么:)

参见Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network (Nov 2016)。

2016年深度学习进展综述

你可以在Ian Goodfellow的演讲中查看关于生成模型的更多信息。

自然语言处理

为了能够与机器进行流畅的对话,首先需要解决几个问题:文本理解、问答和机器翻译。

文本的理解

Salesforce MetaMind已经构建了一个名为联合许可任务(Joint Many-Tasks,JMT)的新模型,目标是创建一个能够学习五个常见NLP任务的模型:

词性标记

将词性分配给每个词,例如名词、动词、形容词。

分块

也称为浅层句法分析。涉及一系列任务,比如寻找名词或动词组。

依存句法分析

识别单词之间的句法关系(例如修饰名词的形容词)。

语义相关性

测量两个句子之间的语义距离。结果是实值分数。

文本蕴涵

确定前提语句是否需要假设句子。可能的类:蕴涵、矛盾和中性。

这种模式背后的魔力是,终端到终端的可训练性(end-to-end trainable)。这意味着它允许不同层之间的协作,从而改进低层任务(不太复杂的任务),以及来自更高层(更复杂的任务)的结果。与旧的想法相比,这是一个新的想法,它只能使用低级别来改进高级别的想法,但不是相反。结果是,这个模型实现了除了POS标记(从第二位开始)之外的所有现有技术的结果。

问答

MetaMind还为问答的问题提出了一个称为动态协同网络(Dynamic Coattention Network,DCN)的新模型,它建立在一个非常直观的想法上。

想象一下,我要给你一个长文本,并问你一些问题。你是否希望首先阅读文本,然后再问问题;或者在实际开始阅读文本之前给出问题?当然,提前知道什么问题将是一个条件,所以你知道该注意什么。如果没有,你必须同样重视和跟踪每一个细节和依赖关系,以涵盖所有可能的未来问题。

DCN做同样的事情。首先,它生成文档的内部表示,以其试图回答的问题为条件,然后开始迭代收敛到最终答案的可能答案列表。

机器翻译

九月份,Google展示了一种称为Google神经机器翻译(Google Neural Machine Translation,GNMT)的翻译服务所使用的新模型。这种模型是为每对语言(如中文-英语)单独训练。

11月宣布了一个新的GNMT版本。它更进了一步,训练能够在多对语言之间翻译的单个模型。与先前模型的唯一区别是,现在GNMT采用指定目标语言的新输入。它也使零翻译(zero-shot translation)得以能用,意味着它能够翻译一对它没有训练过的语言。

GNMT结果表明,在多对语言上训练它比在单对训练更好,表明它能够将“翻译知识”从一个语言对转移到另一个语言对。

社区

为了讨论机器学习的未来,并确保这些令人印象深刻的技术得到正确使用,有利于社区,一些公司和企业家创造了非盈利性的合作伙伴关系。

OpenAI是一个非盈利组织,旨在与研究和行业社区合作,并免费向公众发布结果。它创建于2015年年底,并于2016年开始提供第一个成果(像InfoGAN这样的出版物、像Universe这样的平台和像这样的会议)。其背后的动机是确保尽可能多的人得到AI技术,避免出现AI超级大国。

在另一方面,Amazon、DeepMind、Google、Facebook、IBM和Microsoft签署了AI合作协议。目标旨在提高公众对该领域的理解,提供最佳实践并开发一个开放平台以进行讨论和参与。

另一个值得强调的方面是研究界的开放性。您不仅可以免费找到像Arxiv(或Arxiv-Sanity)这样的网站上的任何出版物,也可以使用同样的代码重复他们的实验。一个有用的工具是GitXiv,它将Arxiv文档与其开源项目存储库相链接。

开源工具无处不在(正如我们在MLconf SF blogpost发布的十大工具所强调的)。它们由研究人员和公司使用和创建。以下是2016年深度学习最受欢迎的工具列表:

TensorFlow (Google出品);

Keras (Franois Chollet出品);

CNTK(Microsoft出品);

MXNET(分布式深度机器学习社区出品,适用于Amazon);

Theano (Université de Montréal出品);

Torch(Ronan Collobert、Koray Kavukcuoglu、Clement Farabet出品,广泛应用于Facebook)。

2016年的总结

现在是机器学习发展最好的时机。正如你所见,今年特别令人兴奋,研究正在迅速发展,以致很难跟上最新进展的步伐。我们生活在AI已经民主化的时代,真的很幸运!

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

深度学习 机器学习 自然语言处理 原始数据 神经网络 数据压缩
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...