上海交大/上海AI Lab翟广涛：当评测不再重要，AGI就实现了|agi|语音助手功能

分享至

机器之心原创

作者：闻菲

上海交通大学教授、上海人工智能实验室双聘研究员翟广涛认为，完美的 AI 评测体系本身就等同于通用人工智能。

人工智能的世界里，数字似乎就是一切。几乎每周，都有某个新发布的 AI 模型在基准测试中打破纪录，MMLU、SuperCLUE、HLE……这些曾经只在学术圈流转的晦涩代号，如今成为衡量一个个大模型「智商」的通用货币，是决定其市场声誉乃至背后公司估值的关键砝码。

然而，胜利捷报的 B 面，一种深层的困惑正在蔓延。

「我们看到大模型能力越来越强，分数越来越高，但这些对个人来说究竟有什么用，我们并不知道。」上海交通大学教授、上海人工智能实验室双聘研究员翟广涛告诉机器之心：「除了文字总结这类相对简单的工作外，好像没有解决很多实际问题。代码能力的受众毕竟有限。」

这位在多媒体信号处理领域深耕二十余年的学者，正将注意力转向「AI 评测」这个近来重要性急剧提升的领域。当预训练的边际效益开始递减，评测已跃升为倒逼技术进步、连接模型潜力与真实价值的关键杠杆。

表面上看，当今评判 AI 的体系严谨而精密，但翟广涛认为，这场围绕分数的竞赛不仅未能准确衡量真正的智能，反而让我们陷入了一种对进步的集体误判与过度乐观。分数的攀升掩盖了尺子本身的问题。这让他意识到，评测的困境，本质上就是我们对智能理解的困境。这一思考的终点，是他的核心论断：

一个完美的评测体系，其存在本身就等同于通用人工智能。因此，当我们不再需要评测时，AGI 或许才真正到来。

进步的幻觉

评测体系面临的首要问题是「数据污染」。由于大多数基准测试都是公开的，它们的题目和答案往往会被纳入下一代模型的训练数据中。

「基本上，大公司都会把与评测数据集相类似的数据放到训练集里面去，」翟广涛教授表示：「这几乎是行业默认的操作，不然模型分数“刷”不高。」

这种做法的问题显而易见，就像让学生提前拿到考试答案一样，它让评测失去了应有的诊断价值。2025 年 4 月，一篇题为《排行榜的幻觉》（The Leaderboard Illusion）的论文揭示了更深层的问题。该研究发现，业界最受推崇的 Chatbot Arena 存在系统性漏洞，少数大模型厂商不但可以进行大规模秘密内测，选择性公布最优成绩，还能利用平台规则攫取海量用户偏好数据，最终导致模型优化方向过度拟合于该平台的特定偏好，而非发展通用的真实能力。

其次是「原子化能力」评测的局限性。

为了实现量化，当前评测体系倾向于将复杂的「智能」拆解为一个个独立的原子能力——数学推理、代码生成、语言理解、常识问答，等等。这种做法固然便于打分和比较，却面临着一个认识困境。

「大模型的能力就像一块海绵，里面有大量细小的空洞，」翟广涛教授用这个比喻来解释评测的核心挑战，「评测时探测到的很多问题实际上是“洞”，而不是模型真正的能力边界。最难的是，你无法确定检测到的问题究竟反映的是模型能力的不足，还是仅仅因为它没有关注到某个细节，而这个问题实际上通过简单的提示优化就能解决。」

通过将「智能」拆解成数百个相对独立的原子化技能，整个行业或许正在训练模型成为应试专家，而非一个能融会贯通的整体。实际应用中，用户需要的往往不是单项任务上的完美表现，而是在复杂、多步骤的任务流程中展现出的综合判断与适应能力。

这种脱节在具身智能领域表现得尤为明显。例如，让一个搭载了顶级 VLA 模型的机械臂执行「拿起桌上的易拉罐」这样的指令，仿真环境中成功率接近 100%，但在真实世界里，zero-shot 成功率也许还不到 5%。「这也正是我们需要更精细、更贴近真实场景的评测体系的原因。」翟广涛教授说。

由于缺乏科技巨头那样的资源，许多高校研究者将评测视为仍能做出贡献的领域。但为了满足论文创新性的要求，研究者们不断提出新的评测维度和指标，却往往在发表后无人维护，导致整个领域呈现出严重的碎片化态势。

「很多评测工作在某种程度上也是一种无奈，」翟广涛教授坦言，「它成了为发表论文、为所谓创新而做出的被迫选择。」这种现象不仅造成了资源的浪费，更重要的是，它可能正在将整个 AI 评测领域引向一个技术上精密但实用性存疑的方向。

而这，也引发了关于评测的主体危机——究竟谁才有资格成为裁判？

企业自评存在明显的利益冲突；学术界尽管相对中立，但往往缺乏长期维护大规模测试平台所需的资源。

上海人工智能实验室的定位为解决这一问题提供了独特的视角。作为新型研究机构，它能够以相对中立的立场，投入长期资源来建设公正的评测平台。「长期投入支持一个反映真实水平的公平公正榜单，这是很有必要并且值得的，」翟广涛教授说。

回归「以人为本」的坐标系

面对当前评测的种种问题，翟广涛教授给出的解法是，回归「以人为中心」（Human-Centered Evaluation）的坐标系。

「大模型终究要为人服务，」他强调：「评测的核心不应是模型与基准之间的对话，而应该是模型在多大程度上提升了人类完成任务的效率和体验。」

「过去的二十年，视频质量为什么能获得如此显著的提升？从模糊的在线视频到随处可见的 4K、8K 超高清，就是因为视觉信号一直以用户的主观体验（Quality of Experience，QoE）为目标。好看就是好看，不好就是不好。」

当然，主观性评测面临着可重复性和标准化的挑战。翟广涛团队通过统计学方法来解决这个问题：「我们不是只看一个人的体验，而是找一群具有代表性的用户。当模型应用有明确指向时，比如面向科研工作者，我们就找科学家来测试；如果面向中小学教育，我们就找学生来提供反馈。多个反馈的平均值或分布在一定程度上能够降低主观随机性，而且实际上这种方法更加公平。」

他带领上海人工智能实验室大模型开源评测司南（OpenCompass）团队提出了一个由三大支柱构成的评测框架：

信息质量（Information Quality）：输出内容是否准确、可靠，幻觉严不严重？模型的回答是否提供了可信的溯源，信息是否充分、深入？
问题解决能力（Problem-Solving Capability）：在一个完整的、多步骤的任务流中，模型在每个决策点的策略是否有效，思考是否全面？这也要求评测走向场景化，考察其是否合理规划，有效处理边界情况，提升了用户任务完成的体验。
交互体验（Interaction Experience）：与模型协作的过程是否顺畅、高效、符合直觉？这一点，恰恰是传统离线评测完全忽略的。

为了将这套评测哲学落地，司南团队设计了「EDGE」技术路径，即 Evolving（演进的）、Dynamic（动态的）、Granular（粒度的）、Ecosystem（生态的），这是一个能够适应 AI 高速发展、充满生命力的动态构想。其核心思想是，评测体系必须通过持续演进的难度、动态变化的题型，来对抗模型能力的发展以及应试化。同时，它必须提供细粒度的诊断，并由整个社区共建共享。

为了从根本上解决数据污染问题，团队更是投入巨大精力，建立了一个规模超十万道题的高质量内部题库。他们计划采用逐步开源的方式，比如每季度开源 500 道题目，既确保了研究的可复现性，又避免了题库被一次性污染而失效。

不仅如此，司南团队还提出了一个更具雄心的目标——训评一体。

「将评测放在训练之外去说是没有价值的，」翟广涛教授强调：「评测的最终目的是反哺训练。」

这里的关键技术是一个足够好的「AI 裁判」（AI Judger）。通过大规模收集以人为中心评测中产生的真实用户反馈，团队训练了一个与人类偏好高度对齐的 AI 评判模型，它可以作为奖励模型，在下一轮训练中指导基础模型朝正确的方向优化。

司南团队在上海人工智能实验室周伯文主任提出的安全与性能共同增长的「45° 平衡律」（AI-45° Law）的基础上，将模型的能力与安全（包括鲁棒性、公平性、价值观对齐等）视为两个同等重要的评测坐标轴。大模型理想的发展轨迹大体沿着 45° 线同步提升，即能力的每一次跃升，都伴随着安全性的同等增强。这为大模型的发展提供了一个清晰、健康的导航，避免了片面追求能力而忽视潜在风险的短视行为。

评测的终点，就是 AGI 的起点

回到我们最初的问题：如何丈量「智能」？

与物理量不同，智能没有标准单位，也没有绝对的测量基准。每一次评测都只是从特定角度的有限观察。

更深层的悖论在于：评测者与被评测者之间的地位关系。「评测本质上是一种上位对下位的度量，」翟广涛教授指出，「人类之所以能评测现有的 AI，是因为在通用智能的广度与深度上，人类仍处于上位。但当一个智能体在所有维度上全面超越人类时，我们用什么标准去评判它呢？」

「一个完美的、万能的评测体系，它的存在本身就等同于AGI。」

「所以，当评测这个领域变得不再重要的时候，AGI 可能就真的实现了，」翟广涛教授说，「只要我们还需要拿着尺子去反复度量，就说明我们离那个阶段还很远。」

这里的「不再重要」并非指评测功能的消失，而是人类作为外部评测主体的谢幕。届时，完美的自我评测能力将成为一种内生的、自我审视的功能，被 AGI 自身所包含。

这也为 AI 发展指明了下一个「圣杯」——构建终极评测体系的努力，本身就是通往 AGI 最重要的路径。

基于这一愿景，司南团队正在擘画一个更为宏大的蓝图，致力于将具身智能、AI 安全、软硬件系统乃至千行百业的垂直应用，全部纳入一个统一、综合性的权威评测框架之下。

「司南的愿景，是成为未来智能时代的度量衡，为 AI 技术的健康发展提供一个权威的参照系，引导全球的创新力量从无序的“刷分”竞赛，走向真正创造价值的、以人为本的健康发展道路。」翟广涛教授表示。

官网地址：https://opencompass.org.cn/home

在这个意义上，司南团队的工作不仅仅是在设计测量工具，更是在探索智能的本质。每一次评测方法的改进，都是对智能边界的新一轮推进；每一个新的评测维度，都是对智能未知侧面的一次必要补充。

这或许是 AI 评测领域最深刻的悖论，也是最美妙的愿景：它的终极成功，恰恰在于自身的消亡。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.