地平线机器人余凯：新物种将具有人工智能

分享至

未来这种具有人工智能的新物种，它的数量是今天手机的数量10倍以上，它催生整个产业革命的规模，它是今天移动计算的10倍以上。这是我们地平线和同行面临的一个未来。

网易科技讯8月19日消息，由场景实验室主办的“生而为·新物种：互联网新物种大会2016”今天在北京四季酒店举行。地平线机器人技术创始人、CEO余凯做了主题演讲。

余凯：今天我把我演讲的题目专门准备了一下，核心观点是未来新的物种无处不在。

跟大家分享一个小故事，这个小故事叫Google白板，在谷歌里面大家用贝叶斯统计的方法，因为谷歌是一个大数据公司，是人工智能的公司，用大量的数据训练模型，做很多事情，包括无人驾驶。这样一个玩笑，背后讲的是一个时代的趋势，这个时代的趋势让我回想到我在读大学读本科的时候，那个时候一年级的学生实际上都是如醉如痴的在学C++编程，今天比如说一个北大清华的本科生来跟我聊，他说我现在在用大数据训练一个深度神经网络模型，识别这个跟那个。但是整个计算机科学的发展，最近在发生一个深刻的变化，过去通过程序员写程序，逐行去执行这些逻辑的指令，到今天是数据驱动的人工智能的模型，这是时代的变化。他写了一本很著名的书，人工智能这个领域最经典的教材，讲到这个教材，又让我给大家分享另外一个故事，这个是2011年，当时我在斯坦福大学教这门课，叫人工智能（蓄电），这个课程项目到最后要交差，是整个课程上面最重要的分数的指标。有这么一个学生叫Lee Redden，他当时做了这么一个项目，他当时拿两个自行车，上面放一台机器，当时的想法，因为他家来自加州农村，他知道这个农村在加州里面要雇佣很多墨西哥的非法移民，来除杂草。这是一个很费时费力的事情，也导致社会问题，因此此要雇很多的非法人员。他说我用计算机视觉的方法，是不是能够知道这个是胡萝卜苗，这个是杂草。他针对性的用高温水枪去除杂草，高温水枪带来的好处是无毒无公害。这个课程的项目当时还是不错的，得一个高分。在几个月前我在拉斯维加斯开会，碰到了他，他没有说只是一个课程项目，他做了一个公司，这个公司做这样一个机器人，生菜机器人，这个机器人上有36个摄像头，上面放了GPU，图像加速处理器，上面运行神经网络，去识别杂草。今天美国市场上10%的生菜地都是用他的这个机器人来除杂草。当年课程的一个project变成了现在真正改变世界、造福人类的项目，我觉得是很有意义的工作。这样一个项目，实际上此次一个时代的趋势里面的一个很有意思的例子，这样一个时代的趋势，我认为是人工智能的革命。

我们经常讲，人类历史上有历次的产业革命，第一次从蒸汽机时代到后面的电气时代，从80年代开始的信息时代。现在到了第四次这样一个门口，第四次跟前面最大的不同就是这次我们真正诞生一个新物种了，为什么叫新物种，因为在过去，历次的产业革命实际上都是以人为中心，去延展我的体力跟脑力。它是以人为中心，让我能够跑得更快、飞得更高、看得更远。这次的产业革命，为什么叫新物种，因为它不再是听命于你的，不再是这样一个汽车，你让它开快一点、慢一点、左边、右边都听你的，它有可能自动驾驶，有可能坐在你对面，跟你下围棋，独立做决策，甚至下得比你更好。这样一个物种，它的典型特征是自主的决策行为。历史上之前所有的机器都不是自主的行为，这次它是自主的决策行为，这是一个典型特征。比如说我们在产线上比如美的买的库卡这个机器人，它实际上不是人工智能的产品，它是完全按照人的指令。未来更多的机器人是在不确定性的非标准的产线上去完成它的工作，它需要独立自主的去做决策，这个就是人工智能所带来的改变。

讲到这个新物种通常会出现一个词，Robot，我们把Robot翻译成机器人。但是必须指出这样一个中文的翻译给大家带来好多误解，比如看剑桥辞典对这个Robot的翻译和解释，说的是可以在计算机的控制下能够自主去完成任务的机器。实际上它的意思是说Robot是智能的机器。我们讲Robot这个产业的时候，其实也说明它这个形态是不是有两条腿，是不是有两个眼睛，是不是有鼻子，鼻孔还朝下，其实并不重要，有没有长得像人的这样一个Robot这样一个词呢，实际上有的，大家非常熟悉，这个词叫android。在未来，新物种无处不在，大部分都是Robot，但是android实际上只是小部分。

这个人是日本大阪大学的教授，叫石黑浩。他每次来中国我们的媒体就追捧，说日本机器人之父。他背后在不远处一个小房间里，有一个小姑娘坐在电脑面前，她在操控这个，里面所有的对话所有的反应都是这个小姑娘在完成的，本质上来讲跟我们历史上的木偶没有区别。这样的不是我们这个产业去发展的方向。给大家举个例子，几年前福岛的海啸，当时人都跑光了，突然发现这里面的核电站没关。这是一个巨大的灾难性的问题，当时日本他们想在全国找一个机器人能够冲进无人之境去把核电站关了，找了半天找不到。最后找了美国的一个机器人，长得非常丑陋，甚至没有美女的形态，但是它能完成这样的任务，它能够在这种复杂的环境里面，它能够去操作，能够冲进去，最后把整个核电站关了。这个是我们想让它做的事情。

什么是智能，大家可以去思考，未来在我们生活的周遭，天上飞的、地上跑的、家里玩的、手里用的，很多的产品今天它很平凡，完全在你的操作下，但是未来它一定是装上大脑、传感器，有种种智能的算法，会自主的决策和行为，不是简简单单一个例子。未来十年里有上千个品类的产品会变的跟今天不一样，能够感知环境，能够跟人机做自然的交互，能够实时的决策和行为，这样的新物种会在我们生活里无处不在。

给大家看这两张图，如果把两张图放在一块，大家如果去对比，不知道你是怎么样的一个感想。实际上这两个近亲，从基因的层面来讲非常相像，人类现在已经在探索宇宙外空，探索知识的边界，另外一个还在吃香蕉。为什么有如此大的不同，是因为我们有非凡的大脑，让我们可以认识这个世界，形成知识体系，让我们做决策和行为。这里面其实它的核心，大脑里面本质上来讲，物质上来讲是一团糨糊，但是里面生物化学的反应导致的是算法的运算，从计算机算法来讲，它可以去模拟大脑的这种运算，使得计算机也能够做这些事情。这个就是人工智能需要做的事情。

在过去十年里人工智能最大的突破性的进展就是深度学习，用计算机的程序模拟类似于大脑的神经网络的结构和行为，比如这样一个卷积神经网络，可以对图像识别能够突飞猛进的发展。包括语音识别，从过去的30年的时间里在黑暗中摸索，完全不可用，到今天语音的产品已经进入我们的生活，因为深度学习的发展，包括语义的理解。

过去的十年，深度神经网络的发展主要是在感知这个领域，最近我们看到一个新的趋势，从感知到决策。这个决策实际上任何一个决策问题是一个连续决策的问题，不是优化一个短期的收益目标是优化一个长期的目标。比如我们做投资，连续决策，每天都要面临买什么、卖什么、买多少、卖多少，但是优化的不是今天的收益也不是明天的收益，至少是年底的收益或者是五年十年的长期的收益。这样一个优化的框架叫增强学习，实际上是把这个事情变成一个决策者和整个环境的博弈对投资来讲，每个投资人跟整个市场的博弈。谷歌的这个比赛，当时在比赛之前所有人都预测，人肯定是赢的，机器是赢不了人类的，比赛前一天网易的记者问我我怎么看，我的预测是，这次机器一定赢，如果你知道整个行业的发展、技术的发展，你就能做出这样正确的判断。

这里面实际上反映深度学习导致了过去十年里最大的进展，后面的十年里除了深度学习持续往前进展，另外还有基于因果性的这种推理。这种基于因果性的推理，实际上让我们的计算机系统能够做决策，能够做最优化的决策。从深度学习网络的感知到基于因果的推理，整个人工智能从知到行，知行合一这样一个新的境界。深度神经网络是由于人工智能方面的一个著名的学者长达30年时间推动这个领域，同时JUDEA PEARL推动人工智能领域，这个领域目前逐渐成为大家的关注。

讲领域一个趋势，因为讲所有这些东西都是算法，一讲算法背后都是处理器。处理器大家知道比如英特尔、摩尔定律，CPU，从80年代开始是信息产业的基础没有这些东西今天所有的这些都不复存在。我们今天讲人工智能，我们需要考虑感知、认知、决策控制，现在问题是说我们需要为这些问题做专用的处理器吗。回答这个问题，我们还是回到一个本原，因为我们知道现在宇宙中最聪明的是人类的大脑。我们去思考一下人类大脑是一个通用处理器还是一个专用处理器。看起来人类的大脑无所不能，所以你很容易得出一个结论，人类大脑是通用处理器。如果你这么看，我问你一个问题，你能够立刻回答吗，我想绝大部分人不能立刻回答。它所擅长的是人类作为一个物种去繁衍、生存，你只需要知道河对岸有一头狮子还是两头狮子，怎么样和你的伙伴形成策略。这样一个问题涉及不到这样复杂的问题，但是它需要让你能够在复杂的环境下能够奔跑、爬梳，这些功能是大脑擅长的。

再看一个例子，大家可能自己会觉得很吃惊，怎么会这样，这里面反映大脑处理信息的结构，实际上是并行处理空间序列，不是按照顺序，所以我们其实对顺序不敏感。有一个时序的网络结构把这个做自我修正，反正大脑在处理信息的时候有特别特殊的结构，这些结构使得我们处理比如说图像信息，并行处理，所以你效率更高，所以大脑的功耗是特别低的。比如我们现在大脑每秒钟的运算次数跟天河二号是相当的，但是我们只用20w的功耗，天河二号用1000万。这个人讲，预测未来最好的方法是创造未来，这个人叫Alan Key，他发明了图形用户界面，他构建了两个操作系统的基础。他说了一句话，软件和硬件的结合，只有一个公司follow，这个公司是苹果。重新思考计算机产业，你需要思考计算，你要回到本原，你的计算机处理器的架构是不是这样的，大家听起来会觉得很奇怪，但实际上这个事情已经发生了，2011年，谷歌当时做大规模的深度神经网络，当时他们相信用CPU可以做所有的事情，但是这个项目失败了。在百度的时候，2012年，当时我在百度工作，负责人工智能这个项目。在2014年我们意识到GPU只适合做训练，不适合预测。在2015年7月份，我们出来创业，当时所有人觉得很奇怪，你干吗做人工智能的芯片。到今年的时候，投资人不再问这个问题了，谷歌也在做，英特尔也在做，看起来好像大家都在做。这是一个大趋势，地平线还是站在一个世界的起点，我们是最早的做深度神经网络芯片，我们要做的请是构建这样的软硬件平台，应用我们的平台他可以有一千倍的效率的提升。

面向的是两个应用场景，车和家。这个是我们跟美的今年推出来的智能的空调，这样的智能产品会在生活中将来无处不在，这是我们改造的第一个产品。更多的讲一讲驾驶这个问题，因为驾驶实际上是综合的，从感知到认知到理性决策，从深度神经网络到理性决策，都包括。在这样一个问题上，在过去的一年时间里，基于深度神经网络去理解实时的路况做决策，我们是世界上做得最好的。在中国这样复杂的路况上，我们跟国外同期的技术比，我们对路况的理解，对车、人、复杂路况、实时检测、跟踪，我们比他们更准确稳定。最重要的是他们在欧洲在美国的路况上根本没有这么多人，没有这么复杂的挑战。所以我有时候在团队里说在中国做无人驾驶的技术，那一定是世界上最好的技术。这个是在德国路况做的实验，这个实践实际上是说我们做车道和车的检测，我们加了一个东西，很独特的，叫可行驶区域的检测。这里面车的形态是千变万化，但是路是相对稳定，如果去检测这个路，能够让大家得到更加理性的判断，比如说最近大家可能也关注到特斯拉的accident，它的情况相当于是一个大卡车突然横切到路面，展现在你面前，不是车的全貌，像一堵墙一样展现在特斯拉面前，所以你没法检测这个车。如果检测到这是不可行驶区域，实际上可以在这个场景下做出理性决策。特斯拉致命的事故是能够被避免的。再看一个例子，在这样一个例子里面，我们要区分，尽管这个也是可行驶，但是我们需要去区分什么是法律上面可行驶的区域，什么是物理上面可行驶区域，这个上面实际上已经到了岔道，尽管是物理可行驶，但是在德国每小时200公里、300公里的速度，反正我是开过200公里以上，这肯定是导致车毁人亡。美国的福布斯杂志最近对地平线做了一个专门的报道，一开始说谷歌在做人工智能的芯片用于比如说自动驾驶，中国的一个创业公司叫地平线机器人，他说有同样的。他的这个评价是恰如其分的，包括Facebook人工智能实验室主任，他在Facebook上转载了这个报道。

我们面临怎么样的未来，未来这样的新物种还有好多例子，这样一个时代，比如我们今天看深圳机场或者北京机场，最多的广告是手机广告，手机催生这么大的产业，因为每个人一台，现在量这么大。未来这种具有人工智能的新物种，它的数量是今天手机的数量10倍以上，它催生整个产业革命的规模，它是今天移动计算的10倍以上。这是我们地平线和同行面临的一个未来。

谢谢大家。