网易首页 > 网易号 > 正文 申请入驻

我买了个冰箱,算法又推荐我买冰箱,这么个人工智障我要教会它强化学习 | 俞扬

0
分享至

  今天的强化学习技术需要上亿次交互、上亿次试错,最后才能找到对的方式。真实世界试错代价太大怎么办?我们尝试从真实世界的数据里构建一个虚拟的世界,在这个虚拟的世界做出各种各样的尝试。

  当强化学习走出打游戏、下围棋的游戏环境后,在更真实的应用场景,能帮我们提高生产力,让效率更高、成本更省,更方便地做出复杂的决策。

  2020年10月25日,“科普中国-我是科学家”第28期“AI:人工智能,或者爱”演讲现场,南京大学人工智能学院教授俞扬,带来演讲《当AI走出游戏》。

  俞扬演讲视频:

  

  以下为俞扬演讲实录:

  2020.10.25 合肥

  大家好,我是俞扬,来自南京大学人工智能学院。

  提起人工智能,大家经常会问:智能到底是什么?


  来看一个例子:一只狗,它的智能体现在什么地方?体现在这只狗能学会听懂我们说话。

  这只狗不是天生就懂人类的语言,但是我们可以训练它。在手上拿一个吃的,然后给这只狗下达指令——

  坐下。

  当然它听不懂,但是它能闻得到我手上食物的味道,能听得见我说话。这时我拿着吃的,让它坐下,它如果不坐,这个吃的就攥在我手里面,不会给它吃。如果它突然坐下了或者趴下了,和我的指令一样,就把吃的给它。

  下一次,如果它不是这个动作,它就拿不到吃的;一旦趴下了就能拿到吃的。这个过程反复十几次,大概需要半个小时,就能训练出听得懂指令的狗。这就是动物、生物的智能。

  但今天很多人工智能的应用,包括人脸识别、指纹识别、语音识别,这些人工智能技术的核心其实不是生物智能,而是“监督学习”技术

  “监督”就表明有一个老师的存在,这个老师会告诉机器:这张图是我的照片;另外一张图不是我的照片。收集了很多数据以后,机器就能识别出谁是我,谁不是我,这就是人脸识别。


  这个技术和前面提到的狗的学习过程不一样。狗是在完全没有老师的情况下,自己学会听懂人类说话,没有人告诉它,坐下的时候要摆什么动作。它是自己慢慢去摸索,发现坐下以后才能拿到吃的。

  所以能不能实现让机器像动物一样学习?这就是智能计算机。

  它能做的事和动物一样:在一个环境里,对环境能做观测,去看、去听、去闻周围有什么。另外还可以做出许多行动,比如这只狗在环境里摆出不同的动作,有时候摆对了,就拿到一个吃的,这个叫做奖励。


  如果机器能像狗一样智能,它就能在环境中自己学习,不需要有一个老师专门一个样本、一个样本地来教。这件事情,实际上是可以实现的,它有另外一个名字叫做——强化学习

  强化学习在最近人工智能突出的进展上经常被报道。比如,人工智能在围棋领域已经能下过所有的围棋高手;在一些很复杂的游戏中,也能打败大部分的人类的玩家,这些都是靠机器自己摸索。

  它能帮我们做什么事情呢?

  在围棋方面,它可以超越人类的能力,那么它可不可以帮我们治理今天越来越堵的交通?可不可以帮我们更好地管理仓库?可不可以帮我们来组织生产?甚至,可不可以帮我们、替代我们做一些繁琐的工作?

  如果可以做这些事情,那么这个技术就能带来生产力的提升。我们特别渴望这样的技术能走出打游戏、下围棋的游戏环境,去更真实的应用场景,帮我们提高生产力,让日子过得更好。

  但是很可惜,这些应用目前为止还没有做得很好。

  哪个地方做得不好?效率不够好。

  可以和动物来对比一下,像训练狗,可能就需要十几次,半个小时它就学会了,然后它就有吃的了。但是如果要下围棋,在训练过程中需要上亿次试错——有大量下出来的围棋是错的,都输给了对手,可能要到最后才发现有一条路可以走通,能下赢。直到这个时候,我们才学会怎么能下出最好的围棋。

  也就是说,今天的技术在游戏环境下,需要上亿次交互、上亿次试错,最后才能找到对的方式。这和生物智能的效率不在同一个水平上,如果这只狗需要上亿次试错才能拿到吃的,它可能早就已经饿死了。如果计算机需要做出上亿次错误的红绿灯安排,才能指挥好交通,那可能我们根本出不了门。

  所以这个技术到今天还没有得到广泛地使用。

  但实际上它的效用特别可观。举一个例子,我们在2016年和淘宝的搜索团队合作,希望能更好地帮消费者找到想要的商品。

  以往的商品推荐是通过消费者的历史数据,预测未来会买什么样的东西。比如说,今天我家搬家了,买了一个冰箱,商品推荐就会按照我的历史数据,再给我推荐几台冰箱,那么这对于我来说就是一个错误的推荐。

  还有一个问题,浏览商品时,消费者能看100个商品就很多了,但是实际上整个淘宝网上有超过10亿件商品。消费者不可能看到所有商品,也没有办法能找到最想买的东西。


  那么怎么来解决这些问题?

  2016年我们做了一个尝试——在真实的用户购物环境中,用强化学习去寻找合适的推荐商品。但我们发现,因为强化学习需要试错,所以在一开始的时候,可能有一些错误推荐。

  这个时候消费者体验会非常不好,可能立马就关掉淘宝网页了,所以我们觉得这样做代价太大。

  那怎么办?

  我们从科幻电影里得到了一些启发。比如《黑客帝国》这部电影,构想人类生活在一个虚拟世界中。这个虚拟的世界跟真的一样,但是由于它是虚拟的,很多真实世界不会发生的事情,在虚拟世界里都可以模拟。


  所以我们想,如果不能在真实的世界中随意尝试,那么能不能从真实世界的数据里构建一个虚拟的世界,在这个虚拟的世界做出各种各样的尝试?

  回到淘宝上面,我们想做的就是根据一个真实用户的历史购物数据,还原了一个虚拟的用户。这个虚拟的用户和真实的用户行为表现可能差不多。

  我们给他推荐一件商品,他可能就点开看一看,另外一件商品可能会买单,还有的商品可能看都不会看。在虚拟场景下,不会有任何真实的开销。这个虚拟用户可以代替真实用户浏览上亿个商品,告诉我们什么样的商品最符合用户的需求。

  这样我们就构建了虚拟淘宝的环境。在这样的环境下,有大量的虚拟用户在买东西,为强化学习提供数据。而根据虚拟用户数据提出的算法,在真实的场景中,也能做出更好的推荐。


  买完东西以后,还有一个流程——买的东西怎么到消费者手里?首先,这个订单会发到一个仓库,工作人员会把很多袋子挂到一个车上,每一个袋子就是一个订单,工人去捡货。

  这里又有一个问题了:把什么样的订单拿到一起去捡,工人捡货的效率最高。以往普遍认为工人的效率和他走过的路径有关系,但是实际上在真实捡货过程中,除了路径以外,还有商品的大小、重量、放的高度,很多东西都会影响到工人捡货的效率。

  怎么样提高工人的分拣效率?一样的,构建一个虚拟工人,尝试如何给虚拟的工人安排订单,能让他的效率最高。后来我们把虚拟环境中得到的最优派单方式,放到真实环境中去用,获得了10%以上的效率提升。


  当商品全部打包好后,就要通过物流来送到消费者的手上,这里又碰到一个问题:怎么样给司机安排最优行走路线?

  还是用同样的方法,从数据里还原出虚拟的司机,在虚拟的司机身上实验,如何安排路线最好。目前,三个城市已经完成了初步的实验,获得了11%以上的效率提升,同时也提升了司机的收入。


  从上面很初步的例子,已经可以看到,当强化学习走出游戏环境,能解决很多应用问题,让效率更高、成本更省,更方便地做出复杂的决策。

  所以这样的技术,当它能完全落地、全面铺开的时候,将给生活带来巨大的改变,是一个很有能量的技术。但是越有能量的技术,使用的时候可能就要越小心,因为它被滥用后带来负面效果的可能性越大。如果强化学习被用在大数据杀熟上,可能比现有技术杀得更狠。


  2005年一部电影中,曾展示过无人驾驶的战斗机自己去作战,虽然当时是电影里的虚构场景,但是前段时间在美国的国防部比赛里,已经在模拟场景中实现了无人驾驶战斗机。当这个技术在敌人手上时,对我们就构成了威胁。

  那怎么样能防止技术不当使用带来的负面后果,以及防止敌对势力在这项技术上形成威胁?


  我们要在这个科研方向加大投入,让更好、更先进的技术掌握在自己手上。我们希望未来能像这个电影里看到的一样,这个机器人为我们服务,在为我们产生正面的价值。

  谢谢大家。


  演讲嘉宾俞扬:《当AI走出游戏》 | 摄影:VPhoto

  作者:俞扬

  监制:吴欧

  策划:吴欧 麦芽杨

  编辑:李霄 范可鑫

  排版:夏晓茜

  校对:范可鑫


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐

老师深夜开家长会遭家长怒怼?当事学校:会议6点40分结束,家长已道歉

社会报料
2021-02-23 20:45:00

缅甸民众爆发大规模示威活动,军方还能撑多久?

缅甸中文网
2021-02-24 18:28:45

90岁巴菲特的忠告:无能的男人,多半爱做这3件事,建议远离

钱包那些事儿
2021-02-23 23:24:29

美的140亿回购背后:铜价不断攀升,股价4日跌超15%

市界
2021-02-24 14:25:26

华为放飞自我,百万麒麟芯换回500亿,检验小米的时刻到了

琴姐说史
2021-02-24 06:08:06

前苏联对人类有什么贡献?一次残缺理论彻底的实践失败

大秦泰西廷尉府
2021-02-24 13:09:54

谢霆锋:取钱被她骂,偷摸滑雪也被骂,这样的日子还要20年太可怕

赵睚眦
2021-02-24 17:28:14

国民党干部:台军部队早绿化,30岁以下军人支持民进党占八成

海峡导报社
2021-02-24 07:22:06

长高黄金期到!让孩子保持“3要2不要”,明星亲测长高24厘米

知识的海洋
2021-02-24 14:28:44

明日花接班人! 「最强人造人」深田咏美,转站做美妆博主了?

付珍女士的时代
2021-02-23 22:56:41

倪妮终于正面回答,发文揭穿冯绍峰真面目,网友替赵丽颖心疼?

商业娱闻
2021-02-24 15:57:45

晚上10点!尤文收到一大噩耗,令C罗身心疲惫,意甲10连冠跑远了

体坛起跑线
2021-02-24 15:03:02

无数宝宝白挨一刀,其实这种病根本不用治!

十月呵护
2021-02-24 11:13:49

十大持仓股全红,网红基金诺安成长盘中“逆袭”大涨4%!网友欢呼:今天是蔡经理了

每日经济新闻
2021-02-24 11:16:23

属狗人请留步,就在2月28号将有下半年最大的“劫数”,需谨慎!

片场娱乐
2021-02-24 18:04:35

男人与女人在“性生理”有什么不同,这5大不同,了解一下

生活营养师Ellie
2021-02-24 15:23:13

【美国前军情官员:解放军可能已取得就台湾问题开战的能力】

海峡导报社
2021-02-22 09:17:42

为什么总有人捧老三国而贬新三国?网友说出了大实话

南城太守
2021-02-24 13:33:56

属虎人的出生年份暴露了你的命运,你什么时候出生,就是什么命

城市记忆
2021-02-24 16:51:24

4位明星的天安门前留影,唯独刘德华照相时,天安门前却空无一人

晓谈时尚社
2021-02-13 22:38:11
2021-02-25 02:53:04
我是科学家
我是科学家
我是科学家,我来做科普
3702文章数 295423关注度
往期回顾 全部

科技要闻

传快手前副总裁赵丹阳受贿被捕:"数额巨大"

头条要闻

纸箱装钱500万买六处房产 茅台一渠道经理受贿超千万

头条要闻

纸箱装钱500万买六处房产 茅台一渠道经理受贿超千万

体育要闻

阿里吊传后点,维尼修斯头球破门

娱乐要闻

文艺少女!沈月穿衬衫马甲配格纹裙

财经要闻

汽车要闻

依然是"C"位 全新奔驰C级车不仅仅是小"S"

态度原创

教育
时尚
艺术
手机
军事航空

教育要闻

刚刚开学,这位教育部领导就一针见血,直戳痛点

贾玲35亿票房背后 藏着李焕英们40年前的秘密

艺术要闻

千年舞韵何以走红?

手机要闻

三星将向谷歌 OPPO和小米供应可折叠OLED面板

军事要闻

西藏军区女兵实射火箭筒,燃爆!