事实:【新智元专访】微软人工智能首席科学家邓力：十年内机器有望具备常识（38PPT下载

硕谷新闻 176 閱讀 0 評論 0 點讚

1 新智慧原创 1

记者：文飞

【新智元简介】2016中国人工智能大会（CCAI 2016）近日在北京召开。大会首日（26日）上午，微软首席科学家、深度学习技术中心研究经理邓力发表演讲，回顾了深度学习的历史，分析了当前的机遇。 27日午休时间，邓力抽空接受新智元专访，深入探讨深度学习的突破和开源趋势。邓力同意其他学者的观点，认为机器将在十年内具备常识，同时他也看好通用人工智能（AGI）的发展，认为应该可以看到AGI的实现。他的“一生”。

由新智元与中国自动化学会联合主办的“世界人工智能大会”将于10月举行。作为大会嘉宾，邓力表示，希望在世界人工智能大会上对世界尤其是中国的人工智能有更深入的了解。发展，同时分享更多他对人工智能和深度学习的思考。欢迎点击“阅读原文”查看详情。本文附上邓力在本届CCAI上的演讲全文。在新智元后台输入“0905”下载PPT。

【简介】邓力现任微软人工智能首席科学家、深度学习技术中心研究经理。先后在美国威斯康星大学获得硕士和博士学位，后在加拿大滑铁卢大学任教并成为终身教授，并在麻省理工学院担任研究职务。他于 1999 年加入微软研究院并担任过多个职位。 2014年初创立深度学习技术中心，主持微软公司及研究院在人工智能和深度学习领域的技术创新工作。研究方向包括：自动语音和说话人识别、口语识别和理解、语音-语音翻译、机器翻译、语言建模、自然语言处理、统计方法和机器学习、听觉和其他生物信息学处理、深度结构学习、类脑机器智能、图像语言多模态深度学习、商业大数据深度分析与预测等。因其在深度学习方面的突出贡献获得2015年电气电子工程师协会（IEEE）SPS技术成就奖。

深度强化学习是一个很大的进步，深度学习需要借鉴脑科学的知识

新智元：过去一年深度学习最大的突破是什么？

邓力：深度强化学习是一个了不起的发展。它产生了很大的影响，也让很多深度学习研究者意识到，深度学习的应用不仅可以在大量直接标注的数据上取得成功（比如语音识别、图像识别），还可以在其他更多方面取得成功。这次的成功不像以前，每一个训练数据都要一一标记，因为强化学习中的大部分数据并不是直接标记，而是等到得到最终结果，再指导前面的机器学习过程。深度学习和增强学习的概念之前就有了，但是谷歌将深度学习和增强学习结合起来，提出了深度增强学习，并且给出了应用场景，做了很多很好的工程工作，向大家展示了它可以解决不能解决的问题之前通过深度学习解决。就在几周前，新闻报道称谷歌使用深度强化学习方法使数据中心的能源消耗降低了 40%，影响巨大。节约用电不仅具有经济效益，而且具有巨大的环境效益。在过去，普通人无法想象强化学习可以用于此。看完这个应用的报告后，我立刻受到启发。

辛致远：LeCun不久前表示，非常看好对抗生成网络模式。

邓力：对抗生成网络是一个很好的方法，它帮助无监督学习，如何弄清楚数据输入和输出之间的关系。

新智元：最近主要是做无监督学习吗？

邓力：这方面我想过很多问题。一是无监督学习不需要使用标注数据，二是更重要。从思想模型的角度来看，无监督学习更像是人脑的学习。当然，直接的影响还是标注量——5倍、10倍，那么100倍、1000倍、10000倍呢？现在很多人都在做深度无监督学习，我也在这方面提出了一些高阶的解决方案。比如看图说话，给定一张图片，让机器用自然语言的句子来描述内容。微软前年还专门给大家标注了几十万这样的数据，整个深度学习领域的研究人员都可以使用，影响很大。但是要标记几千万甚至上亿这样的图片是不可能的，虽然大家都知道这样会进一步提高通过图片说话的效果。事实上，我和我的团队之所以要研究无监督学习，是因为我们目前的深度学习方法与真正的人脑学习相去甚远。深度学习需要借鉴脑科学的知识。虽然一两年内用不上，但相信在不久的将来，三五年之内，大家一定会想到的。我们现在也在考虑这个问题。我昨天讲的深度学习也有一部分是受脑科学的影响。只是我们更注重计算——脑科学不能计算，没有实用价值。但是，人工智能和脑科学在未来会慢慢结合。

辛致远：在之前的采访中，他说他相信机器在十年内会有常识。你怎么认为？

邓力：我同意他的看法。如果能在算法中加入人脑的常识机制，人工智能将取得新的巨大进步。常识的知识库会越来越大，方法也会越来越强。计算能力、计算机硬件、数据……这些都在不断发展和扩大。在某个阶段，我认为十年之内，几乎可以得到这么好的解决方案。当然那个时候肯定不会像现在这样使用监督学习的方法，而是会综合多种方法，监督学习，无监督学习，增强学习……而且现在发展速度这么快，工业界和学术界正在大力投资人工智能和深度学习。十年是一段很长的时间。这么长的时间，应该是可以的。

至于通用人工智能，应该还需要更长的时间，十年以上。常识只是其中的一部分，而通用人工智能就是用同一个人工智能来解决很多问题，这需要除了常识之外还有很多其他的人类认知能力。考虑到所有这些认知能力，我认为所需的时间是……至少十年之后。不过会有机会解决的，有生之年应该就能看到了。我还是比较乐观的。

新智元：深度学习是终极答案吗？

邓力：最终的答案应该是综合了很多方法，深度学习是主要的方法之一。然而，深度学习本身也非常广泛。什么是深度学习？有人说深度学习就是神经网络，我认为这并不全面。深度学习的基本概念，一个是多层次，多层次不一定需要神经网络的方法来实现，可以用统计方法，也可以用贝叶斯方法。深度学习的另一个特点是端到端的学习，而且不必局限于此。总之，深度学习不一定局限于神经网络，在我看来还要结合常识——举个例子吧。

去年，我们的团队在 NIPS 上发表了一篇论文，探讨了这些问题。要知道，现在大多数神经网络都很难解释；我们团队采用概率模型的方法，增加了一层较浅的概率推理方法，将每一步的方法从结果推到原因，将每一步都看成是一个迭代过程，将每一个计算步骤看成一层神经网络，然后这个过程逐层循环往上，最后形成一个神经网络，然后进行反向传播。学习之后，因为网络也很深，所以预测结果很准确，同时我们也没有破坏原来贝叶斯的基本结构，所以最后的结果可以用原来的模型来解释，就是神经网络与其他方法相结合的一个例子。

新智元：你怎么看待开源？

邓力：开源是好事。开源的结果就是提升整个行业的水平，给大家很多选择。很高兴看到很多公司开源，我觉得越开源越好。举个例子，实习生来的时候，要适应很久，才能看懂公司内部的应用软件。开源之后，他们在入职前就已经熟悉了相关的技术和产品，来了就可以马上上手。微软已经开源了CNTK，以后应该会开放更多。

辛致远：微软研究院在深度学习方面有什么特点？

邓力：微软的优势是深度学习起步比较早，有很多人才和经验储备。不过前几年管理比较松散，做深度学习的人分散在很多不同的地方，但都互相配合。在深度学习和人工智能方面，我们会投入更多。

辛致远：对这次合作有什么深刻印象吗？

邓力：当时我们一起做语音识别，神经网络和贝叶斯算法做了很多比较。发现贝叶斯算法不如神经网络有效，主要是因为神经网络能够利用大型和标准矩阵计算。当时我们尝试了各种方法，从2009年到2012年给了我很多实用的建议，比如早在2009年他就一直跟我说，“你一定要用好GPU”。什么GPU我还是听他的，这个对我们影响很大。

新智元：神经网络、层次模型等思想在语音识别发展史上无数次被提出和验证，但都没有成功。回顾深度学习成功前的十年，在“非主流”的方向上不断尝试、改进、探索是非常艰难的。你是怎么坚持的？

邓力：90年代我也做神经网络，但没成功——但那时候大家都没成功（笑）。然后换了贝叶斯网络模型和方法，在语音生成的深度贝叶斯网络建模上做了很长时间（编者注：语音生成指的是统计方法生成，不同于语音合成）。同样，深度贝叶斯网络学习的方法在当时还不成熟，但现在两三年就有了很大的进步。这些新进展将统计、数学、概率和神经网络的方法联系起来。要解决未来更像人脑的问题，单靠数据是不够的。现在大家开始关注无监督深度学习，以往积累的研究经验和具有计算价值的语音生成知识和模型也可以派上用场。

辛致远：你去年还在发论文，一直在一线工作。如何长期保持如此高水平的高产出？

邓力：这是一种责任，也是一种个人的兴趣。公司给了我很多资源。现在团队人多了，人多了做事就容易多了。

新智元：10月，新智元与自动化协会联合主办的人工智能世界大会将召开。您对世界人工智能大会有何寄语？

邓力：我希望通过这次大会了解更多，更深入地了解人工智能在世界，特别是在中国的发展。同时也分享我对人工智能和深度学习的更多思考。

邓力CCAI 2016演讲：深度学习的三种模式

邓力：谢谢大家。今天的主题是《深度学习的三种模型》。第一种模型是使用标记大数据进行有监督的深度学习，第二种是使用未标记（更大）的大数据。数据用于无监督学习，第三部分是深度强化学习。

深度学习的三个特点

首先，你需要了解深度学习的基本概念。不懂的可以先看维基百科。维基百科关于深度学习的页面说的很清楚，一开始就解释了深度学习的三个基本点。深度学习有很多层的非线性变换，这与大脑有一定的关系，这也使得端到端的优化成为必要。深度学习之前的一些模型比较“浅”，“端到端”的特点不是特别明显。深度学习的很大一部分进步就是如何解决这个深度优化。更重要的是，多层非线性变化的结果是将其在不同层次上抽象出来进行层次分类。这在所谓的图像上尤为明显，有时在不同层次上更难看清浅层特征；越接近高层，认知特征越明显。在语音识别中，我们也发现了类似的抽象层次。这种多层次的抽象对于深度学习在自然语言理解和推理中的应用具有更大的意义。

在机器进行有监督的深度学习之前，输入和输出必须匹配好，否则无法进行Y和X之间的深度学习。这就是所谓的（英文）。在语音识别的情况下，当你说出一句话后，有监督的深度学习需要你准备与这句话的语音相对应的文本。这种学习方法有很大的局限性。训练样本越来越大之后，标注的成本就非常高，这让大规模的深度学习变得不那么容易了。所以现在很多公司内部做深度学习，只是把数据量限制在3000小时，最多30000小时。如果按照现有的学习方式要增加30万小时或者300万小时的训练，那么在一定程度上在经济上是不划算的。

还有强化学习和无监督学习。这两个学习方向是目前深度学习比较活跃的领域。深度强化学习有很多成功的例子。

AI = 感知 + 认知

关于我的话题还有一个词叫做 AI。什么是“人工智能”？ AI是人工智能。这不会告诉您新信息。为了给大家提供新的信息，从我现在的演讲来看，我想把人工智能分成两部分，一部分就是所谓的感知——感知是什么意思？也就是说，你看到的现象包括视觉现象、声音现象、音乐、手势、触觉等等。知觉是指人们如何将原始的感觉信号转化为与认知有关的一些过程。语音识别属于感知，图像识别也属于感知。

下面比较重要的东西叫做机器认知。它包括自然语言，这是机器认知的很大一部分。认知讲的是人类发明的符号如何转化，进而形成知识。决策和控制也是认知的。刚才大疆李泽祥教授讲的对机器人的控制，是在认知范围内的。要控制机器人的运动，需要理解和模拟物理过程。认知的很大一部分是关于人机对话的。在这方面，最近很多公司都进行了非常大的投入，微软也有很多相关的消息。借此机会，我想给大家介绍一下我们微软的思维，让大家对这个新的领域有一点了解。这个领域完全是人工智能，是机器认知的一部分。

人工智能应用

在讲之前，我先给大家介绍一下人工智能的应用。刚才谭院长也谈到了人工智能的很多应用。首先，深度学习最早应用于语音是2009年到2010年，两年后，深度学习应用于图像识别获得成功。研究人员使用的方法是深度神经网络和监督学习。未来可能有的大量数据还没有使用，但比他们之前使用的数据要大。继图像识别的成功之后，深度学习成功的例子包括机器翻译，包括自然语言理解和问答。

现在，深度学习第一步的成功已经清晰可见。例如，使用深度学习的机器翻译的效果现在已经超过了发展了 25 年以上的传统统计方法。深度学习在游戏方面也取得了巨大的成功，深度强化学习起到了举足轻重的作用。那么下一波是什么？这张幻灯片只是我的估计，比如自动知识抽取和集成应用扩展。我现在有相当多的背景来进行估算，并为此采访了很多专家。

深度学习下一个可能的成功，是建立在这个领域目前很多研究的基础上的，也就是所谓的人机对话。我们采用的基础技术叫做增强深度学习。在很大程度上，我们直接使用现有成功的深度学习和增强学习。取得成功。增强深度学习在这方面有很多应用，包括您最近在新闻中看到的。谷歌已经为谷歌数据中心节省了40%的能源，在节能环保方面取得了可观的成绩。

深度学习语音识别

首先给大家回顾一下监督深度学习在语音识别中的应用。基本思想是用非常大量的匹配输入和输出数据训练一个大型深度神经网络。对于语音输入，您需要知道它在说什么。准备好这个之后，把它丢进深度学习机里去训练它的大量参数。

临近2009年底，微软与多伦多大学进行了很好的合作。当时教授来到我们微软，给我们介绍了一种基于RBM/DBN的深度神经网络方法。在此之前的几年，我们实际上使用了非常强大的深度贝叶斯网络方法来对语音生成的多级结构进行建模。

从言语的深层次来看，首先是符号概念形成的层次。比如我现在想说什么句子，几毫秒前我的脑袋就知道了。生成这个符号概念后，需要将这个概念转化为下一层的所谓马达。然后，电机会触发运动神经系统内的一些控制目标。不同的声音元素（音素）与不同的控制对象相关联。这个控制目标驱动关节肌肉高度协调的伸展和收缩。

这有点像李教授刚才说的手部精细动作的控制。我这里说的是语音生成过程中口舌运动的控制。这个层次结束之后，进入下一个层次，可以把整个渠道看成一个动态的系统。那么这一层运动背后的因果关系就是-to-。声学原理用于将口头运动层转换为声学语音层。如何使用上面的深度语音生成模型进行语音识别呢？你知道你应该使用贝叶斯法则，这是一种非常传统的方法。对于这个很深的生成模型，我们在微软研究了4到5年。

2006年，。那篇文章提到的DBN和我上面提到的deep model其实都是生成模型。但是DBN直接用神经网络对整个生成模型进行参数化，非常好用。 2009-2010年，我们用DNN的方法，直接用一个很简单的神经网络，得到了和深度语音生成模型相差不大的识别率，但是识别错误的类型完全不同。所以，一做这个对比，我就觉得这个DNN一定是知识渊博的，所以我们就继续扩大它的规模。

最初的计划是将 DNN 增加到一定程度，然后回过头来将语音知识以物理模型的形式添加回语音识别器。现在DNN/RNN在监督学习上太成功了，大家都不想回头了。但是，我认为下一步是因为现有的DNN/RNN不能做无监督深度学习，所以这些语音知识和物理模型对于未来的无监督深度学习还是很有必要的。

经过两年多的努力，包括与北京研究院员工的合作，我们终于在2012年做出了DNN驱动的大规模语音识别和翻译。这里我想提一个很重要的发现。差不多在2010年夏天，我们发现在训练数据量越来越大之后，原来使用RBM/DBN DNN的方法可以舍弃了，转而使用更简单的方法DNN。为了保证这样做有很好的理论基础，我们当时也做了非常强的分析。从理论上可以看出，大数据不需要那么复杂。原理其实很简单。现在所有的深度学习基本上都没有使用当时使用的RBM/DBN方法。看文献的时候注意2012年以前的文献，经常把DBN和DNN混用。直到 2012 年微软和多伦多大学合着一篇文章，才在该文章中正确区分了 DBN 和 DNN。

对于如此成功的语音识别方法，我们其实并没有太多的知识产权保护。 2012年秋天，我在接受约翰采访时谈到了这一点。约翰在他著名的《纽约时报》文章中也明确指出了这一点。

我觉得这跟2012-2013年深度学习在业界的快速崛起有关。

2012年，深度学习已经将语音识别的错误率降低到这个程度（~13%）。两三年后，2014年和2015年，（错误率）继续下降到9%左右，这里就不多说了。

在深度学习成功后的一年内，我们取得了非常快的进步。与我们之前使用的非常复杂的 GMM-HMM 方法相比，DNN 需要的工程优化要少得多。因此，很快，微软内部的所有语音产品，包括 XBOX、Phone 和 Skype，都由深度学习驱动。 Apple 和一般很少谈论他们在外面做什么，但他们使用 DNN 的速度确实很快。

深度学习图像识别

接下来要讲的是深度学习对物体图像识别的影响。对于图像识别，深度学习比语音识别更快、更有效地降低了错误率。在 2012 年之前，错误率几乎总是在 26% 左右。 2012年的那个时候，大家还没有完全知道大数据可以淘汰语音识别。 10月份结果出来了。我记得我把这个结果发给了微软的视觉同事。我告诉你看一看。同事们不相信这么好的结果，说可能有问题，或者说这还不够好，或者说是投机取巧。但是当我看到结果的时候，我马上就知道，这和语音识别的结果是一模一样的，就是把模型做大了，根本就不需要。

这个结果是2013年成立的公司得到的，2015年底我们微软孙健团队公布了这个结果，已经低于人为失误率。即使使用的神经网络更深，这个深度近年来也低于20。到了2016年的今天，大家才真正体会到这个深层的重要性。

现在转向机器认知。我刚才讲的是在感知上的应用。在认知的应用上，最近一个很大的突破是成功地利用记忆模型和注意力模型——这些是人类的认知技能——把这些模型应用到深度学习中，从而解决机器的问题。上述认知问题，包括机器翻译。

如果你对深度学习有一定的了解，相信你对LSTM有所了解。 LSTM 将许多短期记忆单元转变为长期记忆。这和人脑的记忆机制相去甚远，所以LSTM只是一个数学模型。你可以把之前比较简单的神经网络理解为一个“细胞”。这个cell比较复杂，是动态模型。过去，2000 或 3000 个节点可以被数百个 LSTM 单元代替。使用 LSTM 单元，您可以记住一些很好的信息，如果需要，可以立即忘记这些信息。

几周前他在西雅图遇见了我。这么好的模型已经20年没有用过了，因为它相当复杂。我们都同意这个模型是一个现象学模型，与人类的记忆相去甚远。有了这个模型，可以使用很多学习方法，包括语音识别、语音理解和人工对话。当然，这个模型的机制和真人的认知还是有很大区别的，想必大家还有很大的研究空间。

使用这个 LSTM 模型，你可以做非常有趣的事情。这部机器翻译作品发表于一年多以前。为什么这个东西翻译的这么好？本质在哪里？本质是模型运行到这里的时候，这一层已经把所有的信息编码成一个输入，然后作为输入来驱动解码器的网络。

下一步，我会讲一些更深层次的内存模型。这个，就是内存，这个就不多说了。

深度强化学习

深度强化学习可以理解为之前的强化学习加上深度学习。加起来可以解决以前强化学习解决不了的问题。没有深度学习，旧的强化学习本身无法解决现在可以解决的问题。强化学习的方法是着眼于长期收益。在整个学习过程中，可以优化这个长期利益，这个方法可以让它打败高手。

这里有两个深度学习网络，结合了不同的机器学习方法。主要本质是深度强化学习。第一个神经网络减小了它的宽度，使得搜索方法可以在相对有限的时间内使用。，找出所有那些重要的东西。

下面谈谈深度强化学习在人机对话中的应用。这个我不想多说。 , From a high-level , from the of . First of all, the App has a , and Bot has a new model. In the of human- , deep has been used in this field.

Why does this need to use ? in the of our , not every and every stage will get , this is . If you talk to a , it may take . If you want to use this to do , such as a plane or a , the final you get will be after the task. , the of this long-term are very with the idea of .

无监督学习

, deep is a very large field that we are on. How on earth do you study this?

The of , there are ideas in . Our idea is: We must the of human and use it . The of deep be with other .

You all use Back for deep . Many of us now use Back, which be done under . You don't know what to and how to in the first place.

We did a deep . This is very , there is a big fort next to it. This is just one of the of our , and we can see where the of lies.

the of

Last . From our , in what will AI in the ? The first one is that our AI will be a AI. , the most and AI must be - AI, this AI will not be by the . The point is how to in one field into in field. And this AI is based on types of deep . The third point is how to do it on the deep , and it must be able to and new , so that new can be with all .

I hope that the can as a , and the trend is to and use - AI. Now AI is not the same as image AI. , deep for image and deep for have . The used is not the same as that of Go and chess. In the , there be a that can solve . For , AI is used in , AI is used in , and AI is used to 's . In the , a AI will .

I will stop here today, thank you all.

Enter "0905" in the of to the PPT

[] The AI grand "AI WORLD 2016 World " co- by the of and is about to open . 大会官网：

編輯：碩谷新聞聚合

點讚(0) 打賞