ICLR 2025：顶尖科学家最关心的 AI 趋势有哪些？丨GAIR Live|算法|刘菲|赵昊|机器人|人工智能|iclr

分享至

Scaling Law 走到尽头了吗？扩散模型会成为主流吗？通用 Agent 还有多久会来？

作者丨郑佳美、梁丙鉴

编辑丨马晓宁

自 GPT-4 发布至今已有两年，但对大语言模型的研究并没有放缓，我们仍处在一个技术进步涌现的时代。Anthropic 于 2024 年11月发布 MCP，成为接通 AI 生态的桥梁，自主的 Agent 工作流距我们更进一步。GPT-4o、GPT-4.1时隔仅一个月先后发布，实现上下文处理能力八倍提升。在国内，DeepSeek 凭借FP8 混合精度训练引发行业震动，Manus发布号称全球首款通用Agent，先后在今年年初掀起全民AI热潮。

前沿方向尚未收敛，技术突破纷至沓来。以月为单位的技术迭代下，如何看清AI行业的最新趋势？

2025年4月26日，雷峰网、AI科技评论 GAIR Live 品牌举办了一场主题为 “顶尖科学家聊 2025 ICLR 最近趋势” 的线上圆桌沙龙。

圆桌主持人为雷峰网高级主编马晓宁，并邀请了南洋理工大学校长讲席教授安波、浙江大学计算机学院百人计划研究员赵俊博、清华大学AIR研究院助理教授赵昊、埃默里大学计算机系副教授刘菲，共同开启了一场深度对话。

交谈过程中，嘉宾们围绕AI技术加速迭代下，LLM决策系统发展及应用方向、Agent前沿趋势、Scaling Law的前景、Diffusion及新模型架构的可能性等多个方面发表了独到见解。

从GPT-4开始，更大规模、更高质量的样本使模型智力不断提升，LLM的能力边界逐步拓展。然而，数据枯竭的隐忧也徘徊在Scaling Law的路径尽头。不久前，David Silver和Richard S. Sutton两位顶尖人工智能技术专家联合发表论文，指出从人类数据中提取的知识正迅速接近极限，高质量数据源大多即将耗尽。

Scaling Law是否已经走到尽头？

对此，赵俊博表示需要对不同领域分别考虑。高质量数据的耗竭已成定局，预训练首当其冲。“人类最高质量的一批token加起来有10~15T，DeepSeek-V3用了14.8T。在这15T数据的基础上，如果接受比较高质量的合成数据，再把数据质量的门开得稍微大一点，差不多能扩展到25~30T，再往上就很难有更多的数据塞进来了。”

有业内人士向AI科技评论指出，当前大模型及大模型产品发展的技术源动力仍为预训练，它直接关系到模型的智力水平。25~30T是预训练数据的上限，也或将成为LLM的天花板。

当算力和样本不足以筑起走向AGI的通天塔，技术层的创新点会成为AI行业迈向下个台阶的关键一招。

回头再看，刘菲对有限数据的分配提出了追问。“现在大家在做基础模型的时候，基本上是把能够拿到的无论是文本还是其它模态的信息，几乎是一股脑地放在预训练当中。然后在后训练阶段，对于不同的领域，会有专门的数据。其实我们可以重新思考一下这个问题，有没有可能有一种比较好的方法，能够把数据在预训练和后训练中合理地分配，最大化地提高模型能力。”

任务创新同样富于潜力。Predict the next word一直是训练大语言模型的出发点，以完成这个任务为导向，模型性能实现了速度、指令遵循、推理能力等方面的全方位提升。刘菲提出：“现在我们能不能通过在任务上的创新，提出新的task，帮助我们提高模型的后训练效果，或者模型在某一个领域需要的特定能力。”

以下是此次圆桌讨论的精彩分享，AI科技评论进行了不改原意的编辑整理：

技术迭代，AI “狂飙”

AI科技评论：这次我们沙龙的主题是顶尖科学家聊 2025 ICLR 的最新趋势。我们请到了四位嘉宾，分别是浙江大学计算机学院百人计划研究员赵俊博、南洋理工学院校长、人工智能系主任安波、埃默里大学计算机系副教授刘菲、清华大学AIR研究院助理教授、光轮智能首席科学家、智源学者赵昊。今天把四位老师请过来，希望可以跟大家分享一下我们在 ICLR 有什么样的见闻，以及对于接下来人工智能走向和趋势的预测。

我想问四位老师的第一个问题是，大家觉得今年的 ICLR 跟往年比有什么不一样的地方？

赵俊博：我上一次来 ICLR 已经是很多年前了。这个会其实是从我们NYU的实验室split off出去的。14年刚开始的时候也就几百篇论文，没想十一年过去变化会这么大。所以我今年最直接的感受就是人多、论文多、会场大。当年的poster要讲四五个小时，因为当时其实没有那么多的poster，但现在的poster已经压缩到了两个小时的极限。

安波：今年更大一些，有很多来自中国的老师和同学，内容也特别多。今年组织注册那个地方要排一个小时才能领到这个牌子，另外会场显得更加拥挤，通道也比较窄。我个人觉得这个会太大了，当然也证明这个会的质量很好，来了很多优秀的人。

刘菲：我去年参加了在维也纳的 ICLR 会议，想把去年和今年的做一个对比。我感觉今年的论文在深度和广度方面都是非常棒的，首先我看到了很多非常好的LLM潜在的落地相关的应用。另外一个我注意到的现象是，今年有非常多金融领域的公司作为我们的赞助商。所以我个人也很期待，大模型将来在金融领域能有什么样的突破性的发展。

赵昊：我前年去了基加利（卢旺达首都Kigali，编者注）那场，给我印象特别好。当时也是疫情后第一次 ICLR，能感觉到无论中国人还是外国人都很兴奋。两年以后再来，我觉得很意外的就是赞助商怎么这么多。因为最近几次去 CV 的会议，赞助商的数量好像都有些变少。

AI科技评论：赵老师您今年带了几篇论文过来？

赵昊：今年就带了一篇论文，是做 Conditional Image Generation 的。我的研究方法论是我们生成一些数据，然后用这些数据去训练更好的感知和决策模型。我们用 reward modeling 的方式，用diffusion从各种控制信号生成图片，让它做得更好。

AI科技评论：四位老师今年在会场上肯定看到了一些论文、演讲或者 poster。这些内容里有没有令你们印象深刻的、有趣的、好玩的东西，可以跟我们分享一下？

赵昊：那我就讲一讲我们圈子里今年一些有影响力的 paper。第一个就是今年会上的最高分 IC light，也是比较少见地拿到了满分。这个工作非常有意思，它在diffusion 里把光照做得很好。

一般大家会认为无论image diffusion还是video diffusion，生成出来的东西都不可控。目前的生成在几何和物理方面表现都不好，但IC light居然能把光照做好，这件事是非常 surprising的。同时它也是一个很好的轮子，我和很多朋友最近都在用 IC light做光照控制的工作。在CVML领域，真正有影响力的paper 是能帮助别人的paper。

我觉得IC light有影响力，最大的原因是它超前于时代。我经常跟我的学生们说，我最钦佩的科学家是能发现超越时代的、带着艺术性和灵感的东西。最典型的就是孟德尔，他在DNA双螺旋结构被发现之前300 年，就能够用设计巧妙的实验发现豌豆育种出现不同性状的比例是3:1。可能在300年、100 年、50年之后，大家看这个技术也就是那么回事，但他们就是能超前于时代把它做出来，而且还非常有实用价值，我特别喜欢这样的工作。所以在3D scene understanding and synthesis这个领域，我今年首推IC light这篇满分论文。

刘菲：我自己比较感兴趣的方向是基于大语言模型的决策系统、规划系统和推理系统。决策系统是一个蛮重要的方向，现在越来越多的用户开始问大语言模型一些复杂问题。

我可以举一个最简单的例子，比如买咖啡机有非常多的选择，可以买一个非常便宜的咖啡机做dripping coffee，也可以买一个高档一些的。大语言模型根据用户需求进行辅助决策，这就是一个非常简单的决策系统。但同时也会有一些更为复杂的决策系统，比如家里的小孩升学，在择校的时候会有非常多因素需要考虑，包括学校的地理位置、师资情况、排名、学生自身更适合哪种学校。很多时候大家只是把这些信息直接传达给大语言模型，它当然会给一个答案，但是我们没有办法验证这个决策是不是最合适的。针对单一事件做单一的决策，传统上我们基于分类器或者决策树，配合训练数据，大语言模型已经可以很好地进行辅助决策，但复杂的决策系统目前仍然是黑盒状态。

一个我们比较感兴趣的方向是如何把这两种系统集合在一起。基于传统的机器学习得到的分类器非常robust，但是只能应用于特定的任务上，而基于大语言模型的决策系统可以达到特别高的灵活性，我们想把这两种决策方式结合在一起。我们有一个系统叫做Define，主要是在金融领域针对月报或者年报，给出投资建议。

还有一个我们特别感兴趣的方向是sequential decision making，它应用于我们需要做一连串决定的场景。我举个简单的例子，如果我想制定一份新加坡旅行计划，那我首先要决定买什么时间的机票、宾馆订在什么地方。同时我要参加ICLR，每天都会有具体的行程安排。把这一连串决策放在一起，需要一个非常复杂的系统。这个决策系统需要optimize goal，可能是多找时间和大家交流，也可能是控制有限的预算，这样它才能做出最适合我的决策。说到这个，安老师有一篇paper叫Agent Studio，我特别喜欢，也希望能够听安老师讲一下这个工作的细节。

安波：谢谢刘老师。这项工作的技术性不是特别强，我们做了一个能够提供很多benchmark场景的工具，并做完了整个pipeline，可以让大家更容易地开发Agent。

我个人这两年更关注推理RL怎么和大语言模型结合在一起，以及Agent的研究。大语言模型这个概念已经出现好多年了，现在应该到了我们开始思考它落地的时刻，所以我会特别关注它在垂直领域落地方面的事情。我看了一些session，这方面的工作相对前两年还蛮多的。

刘老师刚才讲到决策系统，这也是我们所关心的。这方面有很多挑战，比如多模态的推理。4月份新加坡一座房子失火，一人死亡，还有20多人受伤。我们把几张照片发给GPT，问他能不能做一份现场处置应对的规划。我们发现GPT的规划里有很多问题，体现出它的推理能力不够。比如照片上明显显示很多小孩子受伤了，但是它推荐伤者去中央医院，实际上新加坡有一个很好的儿科医院叫KKH，离火灾场景只有3公里。

让大模型从视频里检索出必要的信息，基于这些情况进行复杂推理，这是我们未来特别想做的事情。我们希望它能规划消防人员怎么进场，需要它考虑现场视频、图片、报案的音频，再把起火大楼的平面图结合到决策中。怎么让这些技术真正地解决现实问题，还有很长的路要走。这是很有挑战的事情，但是有很多真实的应用需要。

赵俊博：我接着刚才安老师的话说。post-training的scaling是在去年九月份左右，从GPT-o1开始出现的，而ICLR的截稿日期是10月2号，所以基本上在这次的poster里很难看到跟后训练或者RL相关的工作。

这个年代发展太快了。去年10月ICLR截稿，现在文章才正式面世，但其实从去年10月到现在已经发生了太多事，包括GPT-4.5、MCP、GPT-4o生成与理解统一的非常炫目的生成效果、国内的Deepseek等等。当年ICLR出现其实是为了缩短文章面世的周期，但是现在这个周期是不是还是赶不上形势的变化，是不是需要把这些 conference 的形式再重新思考一下。

安波：现在整个pipeline还是需要三个月甚至以上，也许可以再缩短一些。

AI科技评论：我们也感觉这大半年的时间天翻地覆。赵老师你在去年九月份的时候，当时设想今年年中可能会有哪些变化？

赵俊博：我觉得有些事肯定变了，但有些事其实也没变。我对团队说的一句话就是，我们现在做很多东西都是拍脑袋。比如安老师刚才说的这个场景，虽然它很难，但其实有两种路径解决这个问题。第一种路径是multi-agent，比如可以专门做一个Agent解决消防车的调用，最后整个决策体系中穿插着各种Agent。但同时有些其他的问题可以依靠模型的底层能力直接解决。

我们可以看一下LangChain的发展，他们一开始面向multi-agent编排的技术做了很多东西，但关键是现在的base model太强大了，导致这些东西好像有一些就没有意义了。这就涉及到一个问题，有些事两年之内base model 能不能解决掉。如果不能就坚持投入，如果能解决，那我们是不是可以把这方面投入稍微退一步？关键是基于现在这种非常疯狂的变化，判别在两年内能不能解决，我感觉比较难做。

Scaling Law 走到尽头了吗

AI科技评论：最近对 Scaling Law 的讨论非常多。我也想请教一下四位老师的答案，Scaling Law 到底有没有走到尽头？

赵俊博：我觉得要拆领域来看。首先从 Pre-train 的角度来说，我认为已经到头了，因为确实没有数据了。人类最高质量的一批 token 加起来有10~15T，DeepSeek-V3用了14.8T。在这15T数据的基础上，如果接受比较高质量的合成数据，再把数据质量的门开得稍微大一点，我觉得差不多能扩展到25~30T，再往上就很难有更多的数据塞进来了。

Post-train方面，大家现在还是大幅依靠数学和代码这种可校验的数据。那么关键的问题是，物理、法律、心理等其他学科的数据能不能用，以及 Reward model 或者 Process Reward Model 这些相关技术能不能继续发展。或者还有没有新类型数据，比如说股票、游戏交互这些数据能不能拿来训练大模型。

其它结构上，Diffusion Language Model 暂时没有跑出 Scaling Law，我们现在看到7B、8B 有一些效果，但是非自回归的新方法还是值得期待的。

安波：我赞同赵老师的观点，我觉得Scaling Law好像要到尽头了。我们先说最近火的post training inference，它还是需要数据，需要得到那些reward signal。有人会说我们搞一个world model，但 world model也得用数据来训练，MPC建那个model，还是得从数据里面来。

刚才赵老师谈到了多智能体，有一个思考是有没有 Multi-Agent Scaling Law，我感觉这个也不存在。我是做传统多智能体的，我们发现并不见得智能体的数量增加，性能就会好，因为数量的增加会导致很多协调、通信方面的问题。我个人觉得学术界的人没有必要执着于研究 Scaling Law 是不是要走到头了，因为这个问题已经吵了很多年。

赵俊博：有没有 Scaling Law 都可以去做 research，这没什么直接关系。

刘菲：我非常同意安老师和俊博老师的想法，这里我可以再补充两点。

第一点我认为可能有一个方向还可以再深入挖掘一下，就是在谈到数据的时候，什么样的数据应该放在预训练当中，什么样的数据应该放在后训练当中。现在大家在做基础模型的时候，基本上是把能够拿到的无论是文本还是其它模态的信息，几乎是一股脑地放在预训练当中。然后在后训练阶段，对于不同的领域，会有专门的数据。其实我们可以重新思考一下这个问题，有没有可能有一种比较好的方法，能够把数据在预训练和后训练中合理地分配，最大化地提高模型能力。

另外我对 Reverse Scaling Law 也很感兴趣，我想补充的第二个方向是，在数据一定的情况下如何提高模型的能力，尤其是模型在具体任务上的能力。我们训练大模型的初衷是 predict the next word，这个任务本身并不是很重要，其实是通过这样一个简单的任务达到训练模型参数的效果。那么现在我们能不能通过在任务上的创新，提出新的task，帮助我们提高模型的后训练效果，或者模型在某一个领域需要的特定能力。我认为这两个方向，也许可以再深入挖掘一下。

像刚刚两位老师提到过的，大部分大家能够获得的高质量数据几乎已经被用掉了。这两年大语言模型持续不断地生成新的文本、图片，短视频，以后我们能够拿到的数据，会有很多是模型生成出来的。如果我们不加思考地直接用这些数据训练大语言模型，我不太确定对于模型究竟有没有质的提高。

安波：我稍微补充一下。我们 NTU 前两天邀请了一位 EPFL 的老师，他就研究这个问题。未来的数据全部是大模型产生的，一代一代地迭代下去，这个世界会变成什么样？他做了一些实验，因为是模拟所以每一代的间隔都要短得多，但是他觉得这将来会对人类的价值观，甚至一切都带来很大的变化。

赵昊：在 Vision 领域，大家比较痛心疾首的是我们还没有发现 Scaling Law。之前我们做了很久自监督的表征学习，也是想复现NLP领域的成功，但普遍认为结果不是特别成功。很多人认为这是信息密度的原因。Language 的信息密度更高，更容易出现 Scaling Law，而 vision 需要压缩信息。

我觉得 VLA 有可能在未来一段时间内看到 Scaling Law，这是非常 promising 的一件事情。我们现在做 VLA，一般是用遥操作数据做动作，做完以后复原，再重新采集数据。其实每一条数据都是差不多的，但是就用这些差不多的数据训练，50条的时候是不 work 的，200条的时候一般刚开始 work，500条数据的时候就非常 work 了。我也不知道为什么，但感觉很像 GPT 出来的时候 NLP 领域那种模模糊糊的感觉。我觉得随着这些数据积累得越来越多，也许未来12个月、24个月、36个月，突然我们的 VLA 就能做出非常灵巧的东西。

AI科技评论：刚才赵老师提到的一个问题我很好奇。您说我们有很多行业性的数据，其实现在还没有办法用来训练，是这样吗？

赵俊博：至少在今天，通过各种技术报告我们可以看到，大家后训练的主体数据还是数学和 code，这是因为我们需要一个非常明确的 reward 计算公式。数学是比较容易算 reward 的，coding 可以跑个 OJ，也有比较明确的 reward 计算方式，这些肯定是最高级的数据。次一级的数据可能需要一个 model，不管叫它 judge model 还是 reward model，总之得对模型给出的结果和实际的正确答案进行比较，这对数据的要求还是挺高的。比如你算出来答案是5，模型的输出是5，那5是不是等于5，这就是一个 reward。我觉得强化学习在大语言模型上面的空间还是比较大的，后面还是有不少事可以做。

赵昊：我有一个关于 NLP 的问题想请教一下赵老师。我以前读书的时候，大家会管 Alexnet 这种模型叫 backbone，然后会在 backbone 上做 fine tuning。现在在 NLP 领域，大家一般会管 backbone 叫 foundation model，然后后面叫 post training。现在我们定义的 post training 和 fine tuning 的区别是什么？

赵俊博：我本来想回答这两个不是一个意思，但我后来想，SFT 好像也在 post training 的范畴里。我不确定现在是不是还在，大家的术语一直在穿插。

安波：我的理解是 post training 的概念更广。Fine tuning 早期可能只有 SFT，后来加入了 RHF，但是没有把 test time 那些囊括进去。现在用 RL 做的 inference、reasoning，是不属于 fine tunning 的。

模型架构尚未收敛，Diffusion 未来可期

AI科技评论：我们最近一直比较关心一个问题，扩散模型和回自回归架构在生成任务上各自有什么优劣？

赵俊博：我个人比较看好 Diffusion。我说的不是直接用一个 Diffusion Model 生成图像，我觉得 Diffusion 是个很大的概念，它可以 diffuse 很多东西。

比如清华大学朱军老师做的 RDT，整个机器可以用 Diffusion 在坐标空间的几个目标点上跑扩散过程。还有谢赛宁他们做的 Meta Query，它可以理解图像和文本，同时外接了一个 Diffusion Model，通过中间一些简单的空间上的连接，可以把 Diffusion 吐出去再去生成。这就是一个很典型的 autoregressive 和 Diffusion Model 的整合，去完成所谓的生成、理解的统一。

Diffusion 打破了自回归的限制，它的特点是可以拟合高维，可以做 Multi-Modelity 的拟合。所以我觉得 Diffusion Model 会在各种各样的地方出现，虽然 Diffusion LLM 还没有跑出 Scaling Law，但我觉得它还是未来可期。

安波：这个方向其实我们也没有做太多工作，但我感觉可能并不是那么容易切换过去。如果真的非常厉害的话，大公司早就纷纷转到那个赛道上去了。而且关于能不能取代 Transformer，我觉得可能性也不大。

AI 科技评论：对于这一点，刘菲老师怎么看？

刘菲：我们在 diffusion model上的探索也不是很多，但我比较认同俊博刚刚的观点。Diffusion model 在图像生成，或者在多模态任务上，确实展现了比较突出的优势。

我主要是做自然语言处理方向的，所以在这个领域，Autoregressive model 仍然是主流。原因在于，无论是文本数据还是一些时间序列数据，本身都具有很强的序列特性，在这种情况下我们通常更倾向于使用 Autoregressive model。当然它也有自己的问题，比如在推理（inference）阶段，很难做到并行处理。针对这一问题，目前有几个可以考虑的方向，一个是刚刚俊博提到的，将 diffusion model 和 Autoregressive model 结合起来。

另一个方向是，即便我们现在谈到 Autoregressive model 时，Transformer 确实非常成功，但近年来也有看到 recurrent neural networks（RNN）及其变种重新受到关注。这些变种在某些方面相较于 Transformer 是有一定优势的。

AI 科技评论：所以说，接下来大家很可能会探索其他架构？

刘菲：对，是这样的。

赵昊：从我的角度来看，我觉得这个问题可以分成两块。一块是 vision 本身要不要和 language 结合的问题。如果只做 vision，比如视频或图像生成的话，我们其实特别关注推理速度，所以未来一两年内，纯 vision 的任务应该会慢慢转向 AR（Auto-Regressive）思路，因为在速度上有明显优势。但圈子里还是会有很多做多模态大模型的人，他们其实并不清楚该怎么和 language 更好地结合。比如多尺度的 token 如何映射到语言空间，目前谁也说不清楚。所以我觉得，未来的发展方向是需要把这两块问题区分开来看待。

Agent 的机遇和挑战

AI 科技评论：最近大家对 Agent 也很关注，四位老师有什么想法吗？

赵昊：我自己做 Agent 的工作不是特别多，但最近找到了一个我认为非常有趣的方向，就是把区块链技术和 agent 通讯结合起来。我们目前正在机器人系统中，探索基于 Agent 信息交互方式，搭建一个可信的加密协同框架，我觉得这个领域非常值得深入。

区块链的特点是大家以分布式的方式共同计算，没有任何一个节点能掌握全局信息，但每个节点都参与了链的运作。区块链里有一个核心的数据结构叫 Merkle-Tree，它的特点是每个叶子节点上的计算结果都可以被有效验证，并最终在根节点完成整体计算，但叶子节点本身并不知道整体发生了什么。对应到 agent 系统中，就是每个 agent 可以参与到协作中，通过通信协议去执行任务，并最终得出结果，但每个 agent 本身并不知道整体的任务全貌。在机器人领域，这种特性非常有用。

安波：那最终你们想解决什么问题？优化的目标是什么？

赵昊：想做的是一个系统，让 agent 可以协同完成任务，而且系统具有很强的抗破坏性。

AI 科技评论：很新颖的思路！刘菲老师您怎么看？

刘菲：我觉得赵老师提到的将 agent 和区块链结合的方向，确实非常新颖，非常值得深入挖掘。我这边在 agent 方向上也有两个代表性的工作。第一个是 HARBOR[1]，这是一个 multi-agent system。我们设想未来，每个人都可以拥有一个专属于自己的 personalized LLM agent，能够深度理解你的兴趣爱好，根据个性化需求，帮助你做出更合适的决策。

在这样的设定下，multi-agent system 既可能是合作关系，也可能是竞争关系。我举个例子，比如大家在申请工作时，可能都会用到一些大语言模型或者 agent 帮助修改简历、优化表达。如果只有一个职位，所有申请者之间就构成了竞争。在这种场景下，我们很感兴趣的问题是：在 multi-agent system 中，如何让 agent 同时考虑个人偏好，并帮助用户做出最具竞争力的决策。

另一个工作是 PlanGenLLMs[2]，一篇综述性论文。我们对现有的 planning system 做了系统性的梳理和研究。因为现在各个 planning 系统在评测时缺乏统一标准，数据集不同，定义的 agentic capabilities 也各不相同，所以我们希望能提出一个更统一的评估方法，对各种 Agentic system 进行更科学的评估和比较。

AI 科技评论：这种系统会去考察 agent 的哪些方向？

刘菲：这是一个非常好的问题。我举几个例子，比如我们来到新加坡开会，希望让 Agent 帮我做一个出行计划，但它最终提供的方案可能并不是用户真正喜欢的，所以这就是其中一个问题。还有一种情况是，比如我的预算有限，但可以接受稍微超出的方案，或者有一些截止日期，必须严格遵守的。这种情况下，Agent 系统需要在多目标优化环境中，深刻理解哪些目标必须严格执行，哪些目标可以有一定的灵活性。这是我们评判 Agent 系统的一个重要方向。

另一个方向是我个人比较感兴趣的。因为未来很多 Agentic system 会分布到家居环境中，比如冰箱、手机等这类 edge devices，它们无法直接调用大模型，因为资源受限。所以未来的一个问题就是，如何在小模型上也能实现较强的 agentic capabilities。

AI 科技评论：那可以理解为像冰箱、手机这种设备上，会有自己的端侧小模型？

刘菲：是的，可能在端侧有一个小模型，处理一些本地任务，同时后台由大模型提供支持。一些请求可以直接在小模型上完成，另一些则发送到大模型上处理。

AI 科技评论：安波老师，您认为“小模型+Agent”是一个趋势吗？

安波：我认为是的。现在大模型的决策能力都还很弱，更不要说小模型了。总体来看，大语言模型在处理决策问题时，基本上是通过 imitation learning，即模仿已有数据。而这也解释了为什么 inference 过程如此关键。我认为未来无论是大模型还是小模型，要完成复杂决策任务，都需要引入 RL（强化学习），因为 RL 能通过与环境的交互，不断提升模型的能力。

其实刚才两位老师提到的方向，我也有研究。在做大语言模型之前，我一直在做 multi-agent system 的研究。在这个领域里，communication（通讯）是一种方式，但更关键的是如何实现 dynamic 协作优化，尤其是在机器人领域，每个 agent 如何在动态环境中高效协同，这是最困难的部分。而且刘菲老师提到的第一个方向，我认为确实是刚需，只不过这里面还有很多算法上的挑战，比如如何快速找到最优解。

AI 科技评论：安波老师，您从什么时候开始做 multi-agent system 的？

安波：我从上学期间就开始做了。稍微科普一下：这个领域起源于上世纪 80 年代，早期主要是军方为了建传感器网络。因为当时单个传感器能力弱，比如确定一辆车的位置，需要三个传感器协同定位。这就是最早的 sensor network。

后来，机器人比赛中也需要分布式协作而非集中式控制，这种场景中，Agent 完全是合作的。之后，随着互联网兴起，计算博弈论出现了；再后来，传统的 distributed planning 难以扩展，于是 distributed RL 被提出来了。到 deep learning 阶段，这一切又被进一步 deep 化。直到今天，随着大语言模型的出现，AI Agent 的概念再次被提出，但实际上，早期的 multi-agent system 已经包含了很多基础思想。

AI 科技评论：那您怎么看 RL 和 Agent 的结合呢？

安波：我认为这是未来真正落地决策型大模型的关键环节。现阶段我们还能通过充分挖掘大语言模型现有的能力，加一些工具链去完成任务。但如果要让它真正运行在现实世界中，就必须要和环境有真实交互。我们现在也在做一些相关探索，比如在 token level 上做 exploration（探索），这是一个巨大的机会领域。所以，把 RL 和大语言模型结合起来，去解决复杂决策问题，是非常重要的方向。

AI 科技评论：俊博老师最近有关注到一些相关的公司吗？

赵俊博：这种公司现在很多了，我觉得今年后面还会越来越多。比如前段时间 Manus，虽然功能上还有很多局限，但在交互体验上确实让人眼前一亮。

赵昊：写文献综述很好用。

赵俊博：这个领域我觉得肯定是有泡沫的。我也很同意安波老师刚才的看法，大模型本身的决策能力还比较弱。但不管怎么说，大家都在努力往这个方向推进。我相信今年 Agent 领域的版图还会进一步扩大。

AI 科技评论：安波老师，您最近有用过市面上的 Agent 产品吗？

安波：我用得不多，但有关注到一些，像 Manus 的评价我也看了很多。总体来说，它还是有不少值得学习的地方。

AI 科技评论：您觉得通用 Agent 是未来可能实现的目标吗？

安波：我认为肯定是 AI 发展的方向。人类对 AI 的需求不只是聊天式交互，而是希望 AI 能帮我们完成特别复杂的任务，这就是 Agent 的本质。但这条路非常难。即便今天 AI 在某些数学领域已有突破，我觉得要实现真正的通用 Agent，十年时间也很难完成。

AI 科技评论：刘菲老师，您目前的研究有没有一些能实用化的 Agent 项目呢？

刘菲：虽然我们正在做 Multi-agent system 和一些 planning 相关的算法开发，但也注意到，尽管 agent 很火，真正能落地的项目其实并不多。

这里面主要有两个潜在问题。第一个是鲁棒性问题。很多 agentic system 最后是以任务成功率作为评估标准，但目前大部分系统的成功率远达不到 90%-95%，这会在落地应用时带来很多困难。

第二个问题是安全性挑战。比如，模型生成的内容中可能包含幻觉信息，尤其是在代码生成的场景下问题更突出。正常情况下，如果 agent 正确地生成代码，是非常好的；但如果因为幻觉问题，生成了不存在的 library name，或者恶意用户提前注册了这些名字并植入了恶意代码，那后果就很严重了。当然，这只是当前我们已知的一些问题，未来随着应用的深入，肯定还会遇到更多新的挑战。所以，安全性问题必须高度重视。

赵昊：我听完刘菲老师讲的，觉得以后如果每个人都有自己的 personal agent，大家为了抢票、抢资源，不就变成了 agent 之间的战争了吗？如果以后要买一张机票，得付费买一个更厉害的 agent，感觉还挺可怕的。

AI 科技评论：竞价排名应用到个人生活里了。

赵昊：对，到那时候，要么自己处理所有复杂事务，要么就得付钱用好一点的 agent。这种趋势我觉得很快就会出现。

AI 科技评论：如果从大模型智力提升的角度来看，大家能预测一下，未来有哪些技术可能帮助模型更聪明？下一个阶段的研究趋势会是什么？

赵昊：我目前的研究方向是生成更可控的内容，进而训练出更聪明的机器人。这也是我认为提升 AI 智力的重要方式。但目前机器人的问题在于，它们在物理世界的灵敏性还远远不够。机器人领域不仅技术复杂，还涉及产业链，比如供应链，所以发展速度不像纯软件那样快。不过，随着资金和关注度的增加，机器人技术肯定会越来越快进步。

AI 科技评论：那你觉得，什么样的机器人才算是真正聪明的？

赵昊：其实现在机器人借助大语言模型的能力，已经挺聪明了。最大的问题不是智力，而是灵敏性。也就是说，当前机器人的“小脑”还不够发达，不够敏捷。

AI 科技评论：刘菲老师，您觉得该如何进一步提升大模型的智力？

刘菲：我个人认为，基础模型（pretraining model）仍然是最核心的。最初一两年里大家都在拼基础模型，最近半年虽然评测报告少了，但基础模型的重要性并没有下降。如果有一个非常稳健的基础模型，在此基础上进行长上下文扩展、强化学习（RL）微调、多模态能力扩展等，都会变得更加顺畅。而基础模型质量不好，后续的问题会层出不穷，不仅是幻觉问题。

当然，好的基础模型并不一定非得超级大。其实大概 70B 参数的模型，就可以非常好用了。虽然更大的模型可能有额外优势，但“越大越好”并不总是成立的。所以，我认为未来一个非常重要的方向，就是在适中的模型规模上，把预训练做到极致。

第二个方向，是未来半年到一年内，关于模型安全性的研究，无论是评测体系还是技术本身，都会成为重点。

最后，我也很期待大模型在交叉学科领域，比如 AI for Science、AI for Education、AI for Finance，能够带来真正突破性的进展。

AI 科技评论：安波老师，您觉得呢？

安波：我这边还是更关注决策相关的问题，无论是在 inference 阶段，还是在 multi-agent 阶段。我认为这确实是一件非常难的事情。完成一个具体任务是一方面，但如果希望进一步提升系统的鲁棒性，特别是在应用到一些此前数据未覆盖到的场景时，基本上是非常困难的。整体来说，我们还有很长的路要走。

刘菲：我非常同意安老师的观点。未来与环境的真实交互，确实是 agentic system 中非常重要的一环。

AI 科技评论：俊博老师，您的看法呢？

赵俊博：我的观点一半乐观一半悲观。乐观的地方是，LLM 的 post-training 这一条路径已经逐渐被摸索清楚了，而且今年之内依然有不少可以深挖的空间。比如说，数据目前还没有被完全穷尽，还有很多新型的数据尚未真正铺开应用。同时，算法和基础设施（Infra）方面也仍有比较大的提升空间。当然，长文本问题涉及到的一些结构体系改进，也是接下来的挑战之一。不过整体来看，一切变化发展都很快，所以最终要到今年年底，我们才能真正看到会发生什么样的新变化。

AI 科技评论：好的，那我们就静静期待，今年年底还会有哪些新的突破出现。也非常感谢四位老师今天和我们分享了这么多宝贵的内容，谢谢大家！

参考文档：

1.https://arxiv.org/pdf/2502.12149

2.https://arxiv.org/pdf/2502.11221