网易首页 > 网易号 > 正文 申请入驻

北大杨耀东:AI与博弈决策,这场科研battle才刚刚开始

0
分享至

原来他们是这样走过来的!

【AI红人荟】——这里是TechBeat人工智能社区为优秀的AI工作者开设的人物专访栏目。从膜拜“红人”到成为“红人”,TechBeat与你一起,在AI进阶之路上,升级打怪、完美通关~

本篇人物,是来自北京大学人工智能研究院的助理教授杨耀东。他把做学术比喻成是竹子成长的过程——前几年生长得特别慢,一旦发芽之后,势不可挡。以下为采访全文,欢迎阅读~

电影《芬奇》里,主人公芬奇去世之后,由他打造、训练的机器人杰夫陷入沉思:没有了芬奇,我该做点什么?我要去哪里?相信很多了解这部电影的朋友,看到这里心都揪了一下:这个AI机器人到底会做出什么样的选择呢?

而最后,杰夫决定带着芬奇的想法、精神和狗狗,继续在人类社会生存下去。 它的 “ 思考 ”“ 通情 ” 的能力,让 杨耀东印象深刻。

电影《芬奇》截图

AI 能否延续人的情感? 像人类一样思考与决策? 现在看来似乎还要画个问号。 但在杨耀东心里,这件事,很有挑战,又魅力十足。

探索:

从最简单的机器模型到多智能体强化博弈

十几年前,杨耀东第一次接触到“图片的边缘分割”,这是他对机器学习的初印象,也是他对机器学习的“一见钟情”。 “当时还没如今这么‘高级’的机器学习技术,但我已经觉得很厉害了。 ”

在此后的十几年间,缘起于初识计算机的好奇心,杨耀东开始了他的探索之路。

杨耀东在中国科学技术大学完成了本科学业,在帝国理工大学(IC)、伦敦大学学院(UCL)取得了硕博学位,并在美国国际集团(AIG)、华为伦敦研究所从事研究工作; 最终走进校园成为一名高校教师,从伦敦国王大学(KCL)到北京大学任教。

而随着研究的不断深入,杨耀东认知到强化学习所描述的决策过程是一个非常通用的框架,与AI如何做决策紧密相关。“如何让AI像人一样做决策,是一个非常有挑战性的事情,也是非常有魅力的。”

如今,多智能体强化博弈是杨耀东的主要研究方向之一。在他看来,博弈论与AI实现了“互相成就”。传统的博弈论主要处理小规模的博弈问题,关注的是解概念的理论属性、解的存在性以及解的唯一性,或者是不同类型博弈的解概念的特性。AI领域的博弈论则更关注的是多个学习主体在复杂环境中如何做出最优决策的问题,但二者又是密不可分的。

杨耀东不仅看到了博弈论对AI的赋能,他认为AI也在给博弈论带来一些新的元素,“比如最近很流行的一个说法叫”gamification”, 例如大家熟悉的对抗生成网络(Gan)就是主动构造双人零和博弈的一个例子,用博弈思维设计学习算法的思路。去年deepmind也有个有意思的工作是说特征值分解其实也是一个博弈问题。”

目前,杨耀东的科研领域包括强化学习、博弈论和多智能体强化学习,相关的研究成果在国际会议和期刊上发表50余篇学术论文,并多次斩获重要论文奖项。杨耀东也曾在TechBeat人工智能社区分享《一个通用零和博弈的求解框架》主题Talk。

杨耀东Talk分享 链接:https://www.techbeat.net/talk-info?id=501

在求解双人零和博弈的过程中,AI 可以仅从数据中就自己发现多智能体学习算法,这一研究成果被广泛应用在游戏等领域。作为一位资深的零和博弈研究者,杨耀东笑称即使自己非常清楚游戏机制、博弈的原理,但玩游戏时也难免经常会“上头”,打出许多非理性的操作。

人类的非理性想法与行为,也正是当前AI很难真正地像人类一样思考决策的难点, 甚至我们都不知道如何去有效刻画人类的非理性行为。

跨界:

不忘初心,做学术就像是竹子的生长

在杨耀东过去的履历中,他的几次“跨界”经历格外引人注意。杨耀东坦言,做科研是一个不断和新东西接触的过程,这也是他最终选择进高校做科研的原因。

在高中时,作为上海实验中学的学生,选择了在远在合肥的的中国科学技术大学。据他分享,选择的原因是当时听说任正非老先生给出了很高的评价:“中科大是为数不多的能放下一张安静课桌的学校”。

因为大三时,听到老师对机器学习在癌症靶点预测中的应用分享,杨耀东对生物产生了强烈兴趣。这也直接促使他的本科毕业设计与研究生阶段的研究方向跨界到生物领域。而这些经历,又需要他接触生物学,尤其是种群动力学、多智能体系统的知识,也进而清晰了博士阶段的研究方向。

“在帝国理工学习生物统计、生物信息,会学习宏观生物学。在这个课程中,学到了很多描述种群动力学的常微分方程,当时觉得十分有趣。例如,竟然有规律可以用来描述动物种群的迁徙与变化。而这就与多智能体系统天然结合起来了,也就让我有机会能够师从UCL的汪军老师,开始做强化学习,也造就了我博士阶段的第一篇文章——用强化学习技术去刻画自然中的种群动力学现象。”

UCL汪军老师(左下方起第三位)与同学们

在工业界的实践,杨耀东也有着“跨界”的经历。他曾在美国国际集团(AIG)任科学部高级研发经理,带领团队开发人工智能在金融保险领域的相关应用。随后又跟随导师加入华为伦敦诺亚方舟实验室,接触决策智能领域,并做出了系列有影响力的研究工作。

于AIG时推动了作为金融领域内第一个赞助NeurIPS会议的公司

不停地跨界与尝试,让杨耀东一直在摸索自己长期的方向。直到看到“顶级AI大咖”、加州大学洛杉矶分校(UCLA)朱松纯教授回国任教,并向他发出招募邀请,杨耀东终于明确了内心的目标。

在朱老师与他描绘了即将在中国展开的通用人工智能研究的宏伟蓝图之后,他随即辞去了在英国的教职工作,进入了北京大学任教。

说到动机,他表示,其实也没有想太多,在英国待了快10年,是时候回国来推进自己的科研工作了。

如今,他是北京大学人工智能研究院助理教授。作为老师,他也希望自己的学生是对AI本身感兴趣的,并且乐于运用AI技术去做一些有挑战的事,而非人云亦云,被同辈压力压垮,以纯功利主义去写论文,忘记初心。

“其实无论是在业界还是学界,要做那些真正能让你每天睁开眼就非常兴奋、非常期待做的事。当你明确了这件事之后,可以再去想,为了达成这个目的,需要哪些能力、学习哪些技能,而不是一味地跟风去做其他人已经在做的事情,去跟风结果。”

杨耀东把做学术比喻成是竹子成长的过程——前几年生长得特别慢,一旦发芽之后,一年能长出三四米。也就是说,与其因为没有想清楚盲目选择、不得不面对巨大的沉没成本,不如前期多花一些时间去思考到底要成为怎样的人,尤其是未来五到六年,是否愿意花大量的精力和时间做一件事,并且甘愿花时间做大量积累。

“人生要做On-going的选择,花多点时间了解自己,选择对的大方向是很值得的。可惜的是,我和许多研究生聊天,他们其实憎恶自己目前的研究方向,知道它并没有任何意义。”

杨耀东分享道,有一位UCL期间的学生,正是他“竹子理论”的最佳验证。

“他是波兰人,自小生活在与世隔绝的山林里,直到高中时一鸣惊人,拿下波兰数学奥赛金牌,被英国政府邀请来读书。他极其自律,内心充满了对于学术最高峰攀登的向往。但即使如此严于律己又有天赋的学生,在科研的前两年仍然没有任何产出。但到了第三、第四年,他的学术功力就爆发了。博士入学前,他已经拿下7篇顶会论文,目前在伯克利大学师从顶尖学者Pieter Abbeel继续深造,未来可期。”

为了帮助学生更好地确定自己的方向与兴趣,或是在自己感兴趣的领域深入学习,杨耀东还鼓励学生们确立自己的学术偶像,例如他自己很喜欢的一位科研人员是David Balduzzi。

在进行充分的自主思考后,可以主动与“大佬”建立联系。“越是名气越大的大佬,通常来说他们都是非常和善的,大可不必退而远之,逻辑其实很简单,如果你的想法有价值,大佬们也会觉得自己的‘衣钵’有人‘继承’,会十分乐于与你进行探讨。”这点他的博士导师汪军对他影响很深。

杨耀东与Michael Jordan(左)、Rich Sutton(右)

信心:

AI不会迎来下一个寒冬,数据驱动的学习范式势不可挡

杨耀东在AI领域耕耘多年,非常热衷于优质的技术分享。目前,他正积极参与博士导师汪军教授牵头的RLChina 强化学习社区项目的建设,以及强化学习知识在更多本科学生中的普及。

“强化学习这个知识体系对于国内的很多学生而言,相较于神经网络或监督学习还是非常薄弱的。我们希望能够借助一些资源平台,方便学生们更好地接触基础知识,降低技术门槛。”杨耀东希望通过这一类的分享,能激发更多新人像他一样,对强化学习等技术产生兴趣、顺利“入坑”。在他看来,强化学习的发展,势不可挡。

从今年1月正式任职至今仅仅五个月,杨耀东已经组建了一支十多人人的学生团队,并且还在持续招生。身处北大,杨耀东自然也对学生们提出了更高的要求——“以大家的聪明才智,发论文、继续深造都并不难,难的是这个论文的研究内容是否是你真正想要持续探索的方向,并且论文的结果是否给领域内人士带来了新的思考与洞见,被人记住。”

他更希望招收一些有很强独立思考、批判能力的学生,也希望学生们能够真正热爱AI事业,未来能够主动扛起中国AI技术的领军大旗。

他认为在当前几大科技前沿问题中,我国在人工智能的科研道路上走得很快。但如果想要更有所突破,就需要培养出大量能做出一流成果的研究人才。

在杨耀东看来,尽管让AI能像人一样做出决策还有很长的路要走,但AI已经全面渗透进了人们的生活,且人们平日中创造出的数据每天都以爆炸性的数量在增长,因此基于数据驱动的人工智能技术不会进入到下一个寒冬。

“因为大数据和算力,都是单向递增的,如同时间一般不可逆。也许有快慢,但绝不会停止。”

人类文明会越来越多地与AI的发展交织在一起,就像电影《芬奇》的结尾,无论世界如何,人类都会找到继续生存下去、传递情感的方法。希望越来越多的AI青年能在这波不可逆的进程中,发现乐趣,贡献智识!

嘉宾介绍

杨耀东

科研领域包括强化学习、博弈论和多智能体强化学习,相关的研究成果发表论文及专著专利50余篇。他的研究工作于2020年获国际机器人学习会议CoRL最佳系统论文奖,2021年获国际多智能体系统会议AAMAS最具前瞻性论文奖。在加入北京大学以前,他曾任伦敦国王大学助理教授,华为英国研究所主任研究员,美国国际集团科学部高级经理。 杨耀东本科毕业于于中国科学技术大学,硕士毕业于英国帝国理工大学,博士毕业于英国伦敦大学。

个人主页:www.yangyaodong.com

-The End-

「AI红人荟」系列回顾:

[13]

如果你想和他们一样,亲自来到TechBeat分享,或者想推荐身边闪闪发光但是尚未入驻社区的AI工作者——欢迎填写下方表单自荐/推荐,说不定下一个TechBeat红人荟专访,主角就是你!

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择!

推荐讲者成功也有奖励哦~

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线330+期talk视频,900+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

>> 投稿请添加工作人员微信!

⤵一键送你进入TechBeat快乐星球

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
7换1豪赌!火箭得布里奇斯+9首轮签,这是要帮杜兰特冲冠?

7换1豪赌!火箭得布里奇斯+9首轮签,这是要帮杜兰特冲冠?

衔春信
2026-06-25 15:52:13
六旬老人捡弃婴养20年,供到硕士毕业,但转头却被养女偷走保命钱

六旬老人捡弃婴养20年,供到硕士毕业,但转头却被养女偷走保命钱

行者聊官
2026-06-24 17:13:34
头条世界杯|现在南美>欧洲,德国爆冷迎来最及时的打脸

头条世界杯|现在南美>欧洲,德国爆冷迎来最及时的打脸

澎湃新闻
2026-06-26 07:18:33
重案实录——超雄综合体 江苏淮安马氏兄弟暴力袭警案纪实

重案实录——超雄综合体 江苏淮安马氏兄弟暴力袭警案纪实

重案实录
2026-06-25 08:44:44
六根阴毛定死缓,男子蒙冤二十载出狱,杀害母子三人的真凶是谁?

六根阴毛定死缓,男子蒙冤二十载出狱,杀害母子三人的真凶是谁?

易玄
2026-06-25 11:51:23
世界杯看拉扬的大长腿!解约金1月触发

世界杯看拉扬的大长腿!解约金1月触发

靴室笑谈社
2026-06-25 14:16:40
世界杯残酷:德国1-2负,科特迪瓦2-0胜,八队遭淘汰

世界杯残酷:德国1-2负,科特迪瓦2-0胜,八队遭淘汰

郭夷包工头
2026-06-26 07:24:08
外交部:中方注意到洪都拉斯对台湾当局“复交”谎言作出澄清

外交部:中方注意到洪都拉斯对台湾当局“复交”谎言作出澄清

新京报
2026-06-25 16:18:39
一场1-2,让韩国队出线难度陡增,韩媒:韩国晋级的话,踢德国队

一场1-2,让韩国队出线难度陡增,韩媒:韩国晋级的话,踢德国队

何老师呀
2026-06-26 07:39:58
日产电动车主,你的车要变成“移动充电宝”赚钱了

日产电动车主,你的车要变成“移动充电宝”赚钱了

字节漫游指南
2026-06-25 03:20:24
郑钦文称被陶森逆转是因高温无法专注,回应战资格赛表示不丢人

郑钦文称被陶森逆转是因高温无法专注,回应战资格赛表示不丢人

网球之家
2026-06-25 22:54:20
恭喜咱昌平孩子!开出两个“高考盲盒”!学生、学校都很棒——

恭喜咱昌平孩子!开出两个“高考盲盒”!学生、学校都很棒——

家住昌平
2026-06-25 22:36:28
成都地铁2号线被全网围观的“爱心座之争” 终于有了正式处理结果

成都地铁2号线被全网围观的“爱心座之争” 终于有了正式处理结果

起喜电影
2026-06-26 02:26:04
2年1400万美元!40岁霍福德将拒绝执行球员选项 与勇士重新签约

2年1400万美元!40岁霍福德将拒绝执行球员选项 与勇士重新签约

罗说NBA
2026-06-25 21:08:03
离开火只差一步!菲律宾硬闯南海锁定中军舰,真当中国不敢动手?

离开火只差一步!菲律宾硬闯南海锁定中军舰,真当中国不敢动手?

未来展望
2026-06-26 01:42:50
冯小刚近些年血亏的影片:最新的《抓特务》砸了三个亿,离回本的七亿门槛差得老远。

冯小刚近些年血亏的影片:最新的《抓特务》砸了三个亿,离回本的七亿门槛差得老远。

TVB的四小花
2026-06-25 05:38:41
不喝泻药就能做肠镜,长海医院首创磁振结肠水疗简化肠道准备流程

不喝泻药就能做肠镜,长海医院首创磁振结肠水疗简化肠道准备流程

上观新闻
2026-06-25 16:21:57
血糖多少才算高?中科院揭露:在这个范围内,无需担心,放心吃喝

血糖多少才算高?中科院揭露:在这个范围内,无需担心,放心吃喝

汪医生健康百科
2026-06-24 17:49:12
医生:希望你的血脂报告里,永远不要出现这3项异常

医生:希望你的血脂报告里,永远不要出现这3项异常

华庭讲美食
2026-06-23 16:28:06
人民日报批评!当众痛哭的谢娜,这次被陈小春“狠狠”上了一课

人民日报批评!当众痛哭的谢娜,这次被陈小春“狠狠”上了一课

手工制作阿歼
2026-06-26 01:58:04
2026-06-26 09:44:49
将门创投 incentive-icons
将门创投
加速及投资技术驱动型初创企业
2414文章数 596关注度
往期回顾 全部

科技要闻

美国政府要求OpenAI分批发布GPT-5.6

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

头条要闻

牛弹琴:委内瑞拉强震或致10万人死亡 美欧被指负主责

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

悬在科技头上的达摩克利斯之剑

汽车要闻

老板们的新座驾!65万元起,尊界V800/V680开启预订

态度原创

房产
教育
亲子
旅游
手机

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

教育要闻

日本留学新趋势:国际学生政策正在“去英语化”?

亲子要闻

胆囊摘除后出现这五个后遗症

旅游要闻

重庆最孤独的县城,藏在大巴山深处,距主城400公里街景很繁华

手机要闻

iPhone18Pro或温和涨价,最贵iPhone来了?

无障碍浏览 进入关怀版