网易首页 > 网易号 > 正文 申请入驻

我买了个冰箱,算法又推荐我买冰箱,这么个人工智障我要教会它强化学习 | 俞扬

0
分享至

  今天的强化学习技术需要上亿次交互、上亿次试错,最后才能找到对的方式。真实世界试错代价太大怎么办?我们尝试从真实世界的数据里构建一个虚拟的世界,在这个虚拟的世界做出各种各样的尝试。

  当强化学习走出打游戏、下围棋的游戏环境后,在更真实的应用场景,能帮我们提高生产力,让效率更高、成本更省,更方便地做出复杂的决策。

  2020年10月25日,“科普中国-我是科学家”第28期“AI:人工智能,或者爱”演讲现场,南京大学人工智能学院教授俞扬,带来演讲《当AI走出游戏》。

  俞扬演讲视频:

  

  以下为俞扬演讲实录:

  2020.10.25 合肥

  大家好,我是俞扬,来自南京大学人工智能学院。

  提起人工智能,大家经常会问:智能到底是什么?


  来看一个例子:一只狗,它的智能体现在什么地方?体现在这只狗能学会听懂我们说话。

  这只狗不是天生就懂人类的语言,但是我们可以训练它。在手上拿一个吃的,然后给这只狗下达指令——

  坐下。

  当然它听不懂,但是它能闻得到我手上食物的味道,能听得见我说话。这时我拿着吃的,让它坐下,它如果不坐,这个吃的就攥在我手里面,不会给它吃。如果它突然坐下了或者趴下了,和我的指令一样,就把吃的给它。

  下一次,如果它不是这个动作,它就拿不到吃的;一旦趴下了就能拿到吃的。这个过程反复十几次,大概需要半个小时,就能训练出听得懂指令的狗。这就是动物、生物的智能。

  但今天很多人工智能的应用,包括人脸识别、指纹识别、语音识别,这些人工智能技术的核心其实不是生物智能,而是“监督学习”技术

  “监督”就表明有一个老师的存在,这个老师会告诉机器:这张图是我的照片;另外一张图不是我的照片。收集了很多数据以后,机器就能识别出谁是我,谁不是我,这就是人脸识别。


  这个技术和前面提到的狗的学习过程不一样。狗是在完全没有老师的情况下,自己学会听懂人类说话,没有人告诉它,坐下的时候要摆什么动作。它是自己慢慢去摸索,发现坐下以后才能拿到吃的。

  所以能不能实现让机器像动物一样学习?这就是智能计算机。

  它能做的事和动物一样:在一个环境里,对环境能做观测,去看、去听、去闻周围有什么。另外还可以做出许多行动,比如这只狗在环境里摆出不同的动作,有时候摆对了,就拿到一个吃的,这个叫做奖励。


  如果机器能像狗一样智能,它就能在环境中自己学习,不需要有一个老师专门一个样本、一个样本地来教。这件事情,实际上是可以实现的,它有另外一个名字叫做——强化学习

  强化学习在最近人工智能突出的进展上经常被报道。比如,人工智能在围棋领域已经能下过所有的围棋高手;在一些很复杂的游戏中,也能打败大部分的人类的玩家,这些都是靠机器自己摸索。

  它能帮我们做什么事情呢?

  在围棋方面,它可以超越人类的能力,那么它可不可以帮我们治理今天越来越堵的交通?可不可以帮我们更好地管理仓库?可不可以帮我们来组织生产?甚至,可不可以帮我们、替代我们做一些繁琐的工作?

  如果可以做这些事情,那么这个技术就能带来生产力的提升。我们特别渴望这样的技术能走出打游戏、下围棋的游戏环境,去更真实的应用场景,帮我们提高生产力,让日子过得更好。

  但是很可惜,这些应用目前为止还没有做得很好。

  哪个地方做得不好?效率不够好。

  可以和动物来对比一下,像训练狗,可能就需要十几次,半个小时它就学会了,然后它就有吃的了。但是如果要下围棋,在训练过程中需要上亿次试错——有大量下出来的围棋是错的,都输给了对手,可能要到最后才发现有一条路可以走通,能下赢。直到这个时候,我们才学会怎么能下出最好的围棋。

  也就是说,今天的技术在游戏环境下,需要上亿次交互、上亿次试错,最后才能找到对的方式。这和生物智能的效率不在同一个水平上,如果这只狗需要上亿次试错才能拿到吃的,它可能早就已经饿死了。如果计算机需要做出上亿次错误的红绿灯安排,才能指挥好交通,那可能我们根本出不了门。

  所以这个技术到今天还没有得到广泛地使用。

  但实际上它的效用特别可观。举一个例子,我们在2016年和淘宝的搜索团队合作,希望能更好地帮消费者找到想要的商品。

  以往的商品推荐是通过消费者的历史数据,预测未来会买什么样的东西。比如说,今天我家搬家了,买了一个冰箱,商品推荐就会按照我的历史数据,再给我推荐几台冰箱,那么这对于我来说就是一个错误的推荐。

  还有一个问题,浏览商品时,消费者能看100个商品就很多了,但是实际上整个淘宝网上有超过10亿件商品。消费者不可能看到所有商品,也没有办法能找到最想买的东西。


  那么怎么来解决这些问题?

  2016年我们做了一个尝试——在真实的用户购物环境中,用强化学习去寻找合适的推荐商品。但我们发现,因为强化学习需要试错,所以在一开始的时候,可能有一些错误推荐。

  这个时候消费者体验会非常不好,可能立马就关掉淘宝网页了,所以我们觉得这样做代价太大。

  那怎么办?

  我们从科幻电影里得到了一些启发。比如《黑客帝国》这部电影,构想人类生活在一个虚拟世界中。这个虚拟的世界跟真的一样,但是由于它是虚拟的,很多真实世界不会发生的事情,在虚拟世界里都可以模拟。


  所以我们想,如果不能在真实的世界中随意尝试,那么能不能从真实世界的数据里构建一个虚拟的世界,在这个虚拟的世界做出各种各样的尝试?

  回到淘宝上面,我们想做的就是根据一个真实用户的历史购物数据,还原了一个虚拟的用户。这个虚拟的用户和真实的用户行为表现可能差不多。

  我们给他推荐一件商品,他可能就点开看一看,另外一件商品可能会买单,还有的商品可能看都不会看。在虚拟场景下,不会有任何真实的开销。这个虚拟用户可以代替真实用户浏览上亿个商品,告诉我们什么样的商品最符合用户的需求。

  这样我们就构建了虚拟淘宝的环境。在这样的环境下,有大量的虚拟用户在买东西,为强化学习提供数据。而根据虚拟用户数据提出的算法,在真实的场景中,也能做出更好的推荐。


  买完东西以后,还有一个流程——买的东西怎么到消费者手里?首先,这个订单会发到一个仓库,工作人员会把很多袋子挂到一个车上,每一个袋子就是一个订单,工人去捡货。

  这里又有一个问题了:把什么样的订单拿到一起去捡,工人捡货的效率最高。以往普遍认为工人的效率和他走过的路径有关系,但是实际上在真实捡货过程中,除了路径以外,还有商品的大小、重量、放的高度,很多东西都会影响到工人捡货的效率。

  怎么样提高工人的分拣效率?一样的,构建一个虚拟工人,尝试如何给虚拟的工人安排订单,能让他的效率最高。后来我们把虚拟环境中得到的最优派单方式,放到真实环境中去用,获得了10%以上的效率提升。


  当商品全部打包好后,就要通过物流来送到消费者的手上,这里又碰到一个问题:怎么样给司机安排最优行走路线?

  还是用同样的方法,从数据里还原出虚拟的司机,在虚拟的司机身上实验,如何安排路线最好。目前,三个城市已经完成了初步的实验,获得了11%以上的效率提升,同时也提升了司机的收入。


  从上面很初步的例子,已经可以看到,当强化学习走出游戏环境,能解决很多应用问题,让效率更高、成本更省,更方便地做出复杂的决策。

  所以这样的技术,当它能完全落地、全面铺开的时候,将给生活带来巨大的改变,是一个很有能量的技术。但是越有能量的技术,使用的时候可能就要越小心,因为它被滥用后带来负面效果的可能性越大。如果强化学习被用在大数据杀熟上,可能比现有技术杀得更狠。


  2005年一部电影中,曾展示过无人驾驶的战斗机自己去作战,虽然当时是电影里的虚构场景,但是前段时间在美国的国防部比赛里,已经在模拟场景中实现了无人驾驶战斗机。当这个技术在敌人手上时,对我们就构成了威胁。

  那怎么样能防止技术不当使用带来的负面后果,以及防止敌对势力在这项技术上形成威胁?


  我们要在这个科研方向加大投入,让更好、更先进的技术掌握在自己手上。我们希望未来能像这个电影里看到的一样,这个机器人为我们服务,在为我们产生正面的价值。

  谢谢大家。


  演讲嘉宾俞扬:《当AI走出游戏》 | 摄影:VPhoto

  作者:俞扬

  监制:吴欧

  策划:吴欧 麦芽杨

  编辑:李霄 范可鑫

  排版:夏晓茜

  校对:范可鑫


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐

神速破案!陕西一男子偷10万元后 连回家路都分不清了……

环球网资讯
2021-03-07 10:03:24

瞿颖:当年他出车祸差点瘫痪,自己不眠不休照顾他,后来他却出轨韩国女星

八姐论八卦
2021-03-06 18:52:10

用英语怼印军的义务兵,上军校了!

八一视点
2021-03-07 09:46:38

浪姐四公:从分组和帮唱嘉宾看,谁输谁赢局势已明了

扒圈主持人
2021-03-06 23:40:37

成都一幼儿园给孩子吃全素食,教育局回应:该园午餐未供应肉类动物性食物,已督促改进膳食供应

北京商报
2021-03-06 19:10:02

中兴一句:不会使用鸿蒙系统,直接引爆了鸿蒙粉丝的底线

来这解读
2021-03-06 05:08:33

近日英美研究小组发表了关于新冠病毒起源的研究成果

科学放大镜
2021-03-06 22:39:07

“我以为二次发育了!”男子身体突然出现奇怪变化,一查惊呆

南国今报
2021-03-06 09:00:04

广东:火灾时,丈夫下楼逃生,妻子不逃,丈夫身亡妻子获救…

广东活动
2021-03-07 10:01:37

2021年,这几大预言家观点惊人一致,难道真会发生啥大事?

探索日记
2021-03-06 13:33:27

FOF基金经理即将迎来失业潮,罪魁祸首是这届95后基民

民工看市
2021-03-06 19:17:30

差点吐了!房租到期去收房 杭州房东开门后瞬间崩溃:太邋遢

北青网-北京青年报
2021-03-06 10:22:03

不怕印军!印度人强闯边境,尼泊尔开枪:打死第一个冲上来印度人

无定河
2021-03-05 17:13:16

毛晓彤杨玏再同台,女方全程搀扶不松手,男方下意识动作暴露内心

娱乐江湖解读
2021-03-06 23:59:23

7年前,和陈赫离婚环游世界的蕾拉小姐,现在怎么样了?

旅行攻略
2021-03-05 15:38:00

感谢融创!感谢孙宏斌!融创的房子,只有维权,没有烂尾

大话房地产
2021-03-06 22:00:02

28岁确诊淋巴瘤晚期,上海陆家嘴金融女这样自救…

每周文摘
2021-03-02 13:55:05

村干部见拆迁户不配合,干脆将补偿款直接打入其账户

北京京康拆迁律师
2021-03-06 18:14:29

古罗马时代的男人,对蛋蛋真的有一种蜜汁信仰...

好奇博士
2021-03-05 14:08:25

威廉和凯特的节目将在周日播出,恰好与哈里和梅根的节目同一天

谈点世
2021-03-07 08:44:31
2021-03-07 11:20:52
我是科学家
我是科学家
我是科学家,我来做科普
3711文章数 296080关注度
往期回顾 全部

科技要闻

荒诞!小米居然因为这被美国"拉黑"

头条要闻

两会会场一只可爱"小鹿"认真做笔记 背后故事不简单

头条要闻

两会会场一只可爱"小鹿"认真做笔记 背后故事不简单

体育要闻

巴萨18岁新星闪耀 梅西笑得像个孩子

娱乐要闻

baby穿香槟色长裙半漏香肩眼神魅惑

财经要闻

汽车要闻

奥迪全新纯电动SUV来了 把Model Y拉下神坛?

态度原创

旅游
房产
本地
手机
公开课

旅游要闻

梦中的天堂,漫步稻城亚丁

房产要闻

划重点!两会定调房地产 调控加码预期增大

本地新闻

征集 | 她们重新定义新时代女性之美,绽放“她力量”

手机要闻

工信部为电信、联通送新频段:网速更快了

公开课

记者卧底精神病院,震惊发现正常人不在少数