网易首页 > 网易号 > 正文 申请入驻

强化学习灵魂西尔弗,引领AI走出LLM之谷吗 |笔记

0
分享至

强化学习大神西尔弗(David Silver)在去年11月离开DeepMind之后,正在以40亿美元的估值,获得一笔高达10亿美元的天使轮融资,红杉领投,英伟达、谷歌、微软等也在排队加入。

西尔弗创办的“不可言喻的智能” (Ineffable Intelligence)公司,研究主要从经验而不是人类语言学习的AI系统,“一种能够自我发现所有知识基础的无限学习型超级智能”。

西尔弗曾批评AI正在陷入“大语言模型之谷”。他认为,超级规模的强化学习展开了一条通向超人智能的明确路径。其有效性已经一再得到证明(如Atari, AlphaGo, AlphaZero......)。同样的方法也适用于强大的LLM先验模型(例如AlphaProof)。他说此番话在2024年9月,后来可验证的强化学习(RLVR)成为技术主流,引领着推理模型迅速演进,在编程和数学等领域取得突破。


西尔弗与强化学习之父、图灵奖获得者萨顿(Rich Sutton)于2025年4月发布论文《欢迎来到经验时代》,这个AI时代的特征,是智能体及其环境。智能体将主要从与经验的互动中学习,而不仅仅是来自人类的数据。强大的智能体将会像人类一样,在长时间尺度中持续学习新的知识,最终达到超人类的智能。

西尔弗长期担任DeepMind的首席研究科学家,是强化学习的一面旗帜。他主导了AlphaGo、AlphaZero的研究,产生了AlphaGo在对局李世石的第二盘下出第37手的顿悟时刻,并且在对弈领域通过无监督学习实现超级智能。DeepSeek的R1 Zero,被认为是在向AlphaZero致敬。

即使在ChatGPT推出后的深度学习主导生成式AI时期,西尔弗对强化学习的信念也坚定不移。在OpenAI负责推理模型的科学家布朗(Noam Brown),曾在DeepMind实习,参与了AlphaGo 和AlphaZero项目,深受西尔弗影响。他延着强化学习的思路,扩展后训练规模,构建了GPT模型的“慢思考”推理模型。

DeepMind的强化学习与OpenAI的深度学习之间的竞争,其学术背景是辛顿(Geoffery Hinton)与萨顿学派之争,他们一位在加拿大东部的多伦多大学执教,一位在加拿大西部的阿尔伯塔大学研究。西尔弗与OpenAI首席科学家伊利亚(Ilya Sutskever)分别出自萨顿和辛顿门下。

伊利亚在离开OpenAI创业之后,成立安全超级智能(SSI)公司,并且宣布预训练已死,深度学习结合强化学习是其选定的方向。

西尔弗与DeepMind创始人、诺贝尔奖得主哈萨比斯(Damis Hassabis)相识于剑桥大学本科阶段,他曾参与了哈萨比斯创办的万灵药游戏工作室,后来成为DeepMind的最早AI研究骨干。他是世界顶级的AI研究科学家,在伦敦大学学院担任教授,是DeepMind发表论文最多的员工之一,论文引用高达20万次。

西尔弗和伊利亚、李飞飞、杨立昆创业,代表了一批新型AI研究实验室的涌现。这些顶级AI实验室首席科学家和顶级AI科学家,从强化学习和世界模型两条道路,探索超越大语言模型,以实现AGI或者超级AI,得到了风险资本和科技巨头的追捧。李飞飞的世界实验室(World Labs)从a16z、英伟达、AMD等融最新融资10亿美元,用于研究世界模型,开发机器人和科学探索方面的应用。

最近杨立昆的AMI Labs正在以30亿欧元(35亿美元)估值融资5亿欧元。这样,英国伦敦和法国巴黎将各自拥有两家一流的AI实验室,其背后的主要风险资本来自美国,但欧洲正在真正投入AI的全球竞争。

西尔弗对强化学习有坚定的信念,被公认为是强化学习领域的灵魂人物之一;如此地位,很大程度上源于他能够将复杂的理论转化为具有划时代意义的工程实践。值得马年期待。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

在小县城名声很臭是啥体验?网友:脸皮够厚,一切不成问题

解读热点事件
2026-02-04 00:05:07
观点 | 印专家:巴海军汉戈尔级潜艇短板明显!

观点 | 印专家:巴海军汉戈尔级潜艇短板明显!

南亚研究通讯
2026-02-18 22:54:00
美国一高校兄弟会诡异入会仪式曝光:新生蒙眼站满地下室一动不动,身上被涂番茄酱、芥末酱和酒精

美国一高校兄弟会诡异入会仪式曝光:新生蒙眼站满地下室一动不动,身上被涂番茄酱、芥末酱和酒精

大象新闻
2026-02-19 23:44:03
全面停止进口,一票否决!日本彻底傻眼,三十五年布局白费!

全面停止进口,一票否决!日本彻底傻眼,三十五年布局白费!

小曙说娱
2025-11-30 01:23:05
鸿蒙智行版“劳斯莱斯”尊界M900预计2026年上市!

鸿蒙智行版“劳斯莱斯”尊界M900预计2026年上市!

侃故事的阿庆
2026-02-19 08:55:34
人狂必有祸!47岁“跌落神坛”的李玉刚,终是活成了“笑话”

人狂必有祸!47岁“跌落神坛”的李玉刚,终是活成了“笑话”

春之韵
2026-02-20 04:16:52
超市里很多速冻水饺为何价格那么低?因为馅主料不是肉,而是大豆蛋白

超市里很多速冻水饺为何价格那么低?因为馅主料不是肉,而是大豆蛋白

爆角追踪
2026-02-14 22:27:44
警报!三种“毒早餐”竟成家长的心头好,快来看看你在喂什么!

警报!三种“毒早餐”竟成家长的心头好,快来看看你在喂什么!

特约前排观众
2026-01-25 00:20:06
乌克兰无人系统司令:我们每天都能摧毁三个俄军营,但这还不够!

乌克兰无人系统司令:我们每天都能摧毁三个俄军营,但这还不够!

老马拉车莫少装
2026-01-30 12:27:50
中华人民共和国正式向全世界宣告两件大事:

中华人民共和国正式向全世界宣告两件大事:

百态人间
2026-02-05 15:32:53
夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

夸美国空气香甜的杨舒平,已被美驱逐出境,如今回国下场怎么样了

谈史论天地
2026-02-07 13:20:03
俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

俄乌打了三年,打穷了三个国家,富了三个国家,中国也在其中

青烟小先生
2026-02-19 19:14:06
全新日产Gravite微型面包车完全亮相

全新日产Gravite微型面包车完全亮相

聊车区域
2026-02-19 09:21:13
日本网民:中国游客在北海道被日本公司高管用啤酒瓶砸头

日本网民:中国游客在北海道被日本公司高管用啤酒瓶砸头

芭比衣橱
2026-02-19 12:02:54
特朗普,又改口了!

特朗普,又改口了!

环球时报国际
2026-02-19 08:26:37
晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

晚饭七分饱被推翻了?医生调查:过了56岁,吃饭尽量要做到这5点

蜉蝣说
2026-02-03 15:00:19
iPhone 17价格惊喜来袭!仅需4699元,国补与降价双重优惠,史上最低价!

iPhone 17价格惊喜来袭!仅需4699元,国补与降价双重优惠,史上最低价!

小柱解说游戏
2026-02-20 05:29:25
79年对越战争许世友为何对邓小平不满?回国当天没人敢去机场迎接

79年对越战争许世友为何对邓小平不满?回国当天没人敢去机场迎接

历史龙元阁
2026-02-16 12:50:06
孩子拿着烟花"瞄准"妈妈发射,妈妈被追着多次打中着急跑进死胡同,孩子妈妈:新衣服被烧坏了

孩子拿着烟花"瞄准"妈妈发射,妈妈被追着多次打中着急跑进死胡同,孩子妈妈:新衣服被烧坏了

观威海
2026-02-18 20:06:09
韩国媒体嘲讽完中国队又集火林孝埈,中国网友在线反击,疯狂打脸

韩国媒体嘲讽完中国队又集火林孝埈,中国网友在线反击,疯狂打脸

球盲百小易
2026-02-20 00:44:04
2026-02-20 07:03:00
未尽研究 incentive-icons
未尽研究
新能源、人工智能、合成生物、地缘X
307文章数 62关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

头条要闻

美专家:美国若武力介入台湾 或致美数十万人死亡

体育要闻

不想退役!徐梦桃:希望能参加第6次冬奥

娱乐要闻

霍启山恋情再添实锤 和娜然同游意大利

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

艺术
旅游
数码
手机
公开课

艺术要闻

李白若在世,诺贝尔文学奖会是他的囊中物吗?

旅游要闻

拓印、剪纸、糖画“圈粉”外籍游客 沉浸式感受传统文化体验喜庆中国年

数码要闻

REDMI耳机新品曝光,满电37小时续航

手机要闻

三星 Galaxy S26 Ultra跑分曝光,独占防窥屏功能

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版