当高分不再等于高能，如何找到真正能“干活”的大模型？|科学|评测|模态|维度

分享至

当前 AI 评测体系正面临前所未有的信任危机。

过去两年，各大模型在学术和标准化测试中不断刷新纪录，仿佛一夜之间，AI 已经无所不能。但在这片繁荣的景象之下，一个更深刻的矛盾正日益凸出：当模型的分数越来越趋同于满分时，我们却似乎离真实世界的价值应用越来越远。

微软 CEO 萨提亚·纳德拉曾直言：“我们自诩达到某些 AGI 里程碑，这不过是荒谬的基准测试作弊。”他强调，评判 AI 成功的真正标准应是其对实体经济的实际贡献。

当高分模型在现实部署中屡屡碰壁，当针对性优化让排行榜失去公信力，整个行业都需要思考一个关键问题：我们究竟需要什么样的 AI 评测？

6 月 24 日，认知智能全国重点实验室联合中国科学院文献情报中心等权威机构升级发布《通用大模型评测体系 2.0》。这一新标准正试图将行业焦点从虚高的分数重新拉回到真实的价值创造——它不仅是评测维度的全面升级，也是对当前 AI 评测困局的一次系统性回应。

当 AI 评测偏离初心

近期，多个国际研究机构发现主流 AI 基准测试正遭遇严重的“信度危机”。

以 SWE-Bench 软件工程评测为例，研究人员发现部分模型通过“针对性优化”取得高分，而非真正具备强大的通用代码能力。同样，在评估网络导航能力的 WebArena 测试中，有模型通过学习特定 URL 结构“走捷径”，在测试中表现优异，却难以在复杂多变的真实环境中展现同等水平。

这种现象已成为行业普遍关注的问题。一方面，数据污染和针对性优化可能导致分数与实际能力存在偏差；另一方面，评测目标本身发生错位，基准测试的排名也成为了作为宣传模型能力的一种手段。

Epoch AI 的研究也证实了这一趋势。在 MMLU 等主流测试中，头部模型得分已接近甚至超越人类水平，评测区分度急剧下降。当所有顶尖模型挤在 90 分以上的狭窄区间时，分数上零点几的差异，已很难真实反映模型之间在能力上的本质区别。

这一变化也反映在应用实践中，模型在标准化测试中的优异表现，与其在具体业务场景中的实际效果之间存在一定差距。特别是在处理垂直领域专业知识、适配企业特定业务流程时，通用评测的参考价值相对有限。

通用基准测试无法有效衡量模型在特定场景下的专业能力，行业需要一把更精准、更务实、更安全的“度量衡”。

评测体系 2.0 的系统性革新

在这样的背景下，《通用大模型评测体系 2.0》升级发布，从设计理念到技术架构上进行了一次系统性革新，推动 AI 评测从“技术验证”迈向“价值证明”。

如果说在 1.0 时代，评测只关心模型“能否正确解答一道复杂的数学题”；2.0 时代，评测将深入考察模型“能否像一位经验丰富的教师一样，以清晰的教学逻辑讲解这道题的解题思路，并根据不同学生的理解水平，设计出分层递进的练习题”。

这种转变背后，是“场景导向”原则的确立。2.0 体系的每一项评测设计，都力求对应一个具体应用场景及其核心痛点。为对抗“刷榜”，该体系引入动态更新机制，承诺对测试数据集进行季度性大比例刷新，防止厂商针对特定数据集过度优化。

此外，评测体系 2.0 还实现了三个维度的关键突破：

首先是规模的突破。评测任务从 481 项扩展至 1186 项，几乎覆盖所有主流应用领域。模态覆盖从单一或双模态扩展到文本、图像、语音、视频的全模态能力评估。更值得关注的是，新体系强调了中英文能力的并重发展，这不仅反映了中国市场的独特性，也体现了中国 AI 产业在全球化背景下的雄心。

其次是专项的突破。针对垂直领域的专业化需求，评测体系 2.0 设立了多个高价值的专项评测。例如，“教育专项”紧密契合中国 K12 教育体系的特点，深入评估模型在智能备课、个性化辅导、作业批改等核心教学场景中的表现。又如，面向前沿科学探索的“科研专项”，即 AI4S（AI for Science，人工智能赋能科学发现），其评测内容涵盖了物理、数学、化学、生物等 6 大科学领域的 98 项细分任务，旨在检验模型是否具备成为科研人员得力助手的能力。

最后是方法的突破。为了确保评测结果的公正与准确，评测体系 2.0 采用了“人工+自动”相结合的复合评测方法。对于那些难以用客观指标量化的创造性、逻辑性任务，体系引入了严格的多人主观双盲评测，由不同领域的专家在互不知道对方身份和模型来源的情况下进行打分。同时，利用先进的 JudgeModel（评判模型）进行辅助评分，提高评测效率与一致性。采用“1+4”的立体评价体系，即一个总体评分，辅以对结果的相关度、连贯度、完整度、有效度四个子维度的精细化评估。

在全球对 AI 伦理和安全日益关注的当下，评测体系 2.0 也在安全合规维度进行了深化，构建包含 16 项细分指标的风险评估框架，不仅覆盖传统内容安全，还将“指令安全”纳入评测维度，对标了中国《生成式人工智能服务管理暂行办法》，确保通过评测的模型能够满足国内市场的合规要求。

评测维度下的模型竞争力解析

在新评测体系的多维度框架下，各大模型的竞争格局正在重塑。与以往单一榜单形成鲜明对比的是，我们看到了不同模型在不同领域展现出明显的差异化能力。

通用能力上，以多模态为例，纵观全球竞争格局，国际厂商 GPT-4o 和 Gemini 在模态融合深度上确实领先，但国内厂商也在特定方向上构建了独特壁垒。

在语音方向，依据通用大模型评测体系 2.0，讯飞星火在“一句话声音复刻技术”音色和风格两个维度的 MOS 分分别为 4.46、4.48（满分为 5 分），处于行业领先水平。这得益于其长期在语音领域的技术积累。这一技术优势也正加速转化为产业价值。据悉，今年 1 月蔚来发布的“Banyan 榕 3.1.0 版本”智能系统，其智能助手 NOMI 具备超拟人情感音色，背后靠的就是讯飞超拟人合成技术，这是行业首个车载生成式语音合成框架。

而在图像生成、视频生成等场景，豆包和 MiniMax 表现突出。豆包依托抖音生态的内容理解优势，在 C 端应用上领先，目前，其 APP 端上线的豆包 P 图、照片动起来等功能爆火，此外其图像生成模型 Seedance 1.0（以及即梦）依靠较出色的文生视频、图生视频能力与跟抖音生态的直接对接，在短视频内容创作领域占据了较大的市场份额。

MiniMax 是多模态领域窜出的新势力，其优势在于“全模态理解+自动化执行”，不再走传统意义上的“对话模型”，而是真正的多模态智能体，在全球 C 端市场获得突破性成功，Hailuo 02 视频生成模型、AI 语音模型 Speech-02 等凭借突出的生成质量和性价比在海外走红，同样在 C 端市场拥有良好口碑。

如果说通用能力是入场券，那么垂直领域的专业能力则是决定模型最终商业价值的关键。

2025 年，是医疗大模型爆发的关键一年。第三方数据显示，2025 年上半年，市场上已有 288 个医疗大模型，中国医疗大模型市场规模达 82 亿元，呈现快速增长态势。在这一高度专业化的赛道上，涌现出讯飞星火医疗大模型、阿里蚂蚁医疗大模型、腾讯优图“天衍”医学大模型等优秀模型，但各家商业化路线有所不同。

面向医院的 B 端场景，医疗 AI 大模型主要用于辅助医生诊疗，围绕医生在问诊、检查、诊断过程中的核心任务（如临床辅助决策、医学影像分析、医疗记录管理等）展开。在医学影像方面，腾讯和讯飞星火都有着不俗的表现，腾讯觅影依托腾讯混元大模型的底层能力，整合医学知识图谱和 3000 万份医疗问答对话数据，构建了覆盖“影像分析-报告生成-临床决策”的全链条解决方案；讯飞星火医学影像大模型也具备“智能质控-智能诊断-智能读片”的全链条方案能力，其与华西医院合作的病历内涵质控系统，在呼吸内科、骨科的复杂质控任务中准确率达 90%。而临床辅助层面，讯飞星火医疗大模型展现出领先优势，在心血管内科、儿科、呼吸内科等专科的核心临床诊疗场景中，大模型的综合诊疗水平达到三甲医院主治医师标准，在完整性、实用性、可读性等关键维度上显著优于人类医生。这得益于在医疗领域的深耕。科大讯飞自 2018 年起便围绕中国基层全科诊疗场景进行布局，其辅助诊断系统最初服务于常见病与多发病。近几年，公司不断将技术能力延展至病历质控、病历生成和专科辅助诊断等更复杂场景，覆盖范围从基层延伸至二级、三级医院。数据显示，智医助理累计提供超 10 亿次 AI 辅诊建议，规范病历超 3.8 亿次。

面向个人使用场景，诸如讯飞晓医、平安好医生等应用成效明显。依托讯飞星火医疗大模型的强大能力，讯飞晓医 APP 支持症状自查、药物查询、体检报告解读等功能，可通过多模态交互实现类真人问诊，还能整合来自第三方健康数据平台（如华为运动健康）、硬件设备（如血压计、血糖仪）以及各类检验检查单等多渠道健康数据，为用户生成更精准的健康画像，实现个性化的自我疾病管理。这方面，蚂蚁近期也有相关动作，加速布局医疗大模型在个人健康管家方向的应用。

再看教育行业，依据评测体系 2.0 教育评测专项，在智能备课、个性化辅导、作业批改等核心教学场景，融合行业数据的模型因其数据的专业性和对场景的深度理解，往往在特定任务上表现更佳。评测结果显示，星火 X1 教育大模型在数学解答题步骤批改、英语主观题评分批改和试题知识点预测三项任务中表现优异，而豆包 1.5-pro 在相似题判断任务中成绩领先。

就具体的应用来看，搭载星火大模型的讯飞 AI 黑板，就很好地体现了人工智能与传统教学工具融合的前沿探索。这款产品搭载虚拟人助教技术，不仅实现语言带读与科学答疑，更以“问题链”教学设计启发学生思维；同时，其板书智能识别功能能够实时处理数学公式、化学方程式等专业内容，并自动关联推荐 3D 动态学科工具，为抽象知识点提供直观可视化呈现。

不止教育、医疗这种民生领域，今年以来，政务、金融、工业等各个行业都在加速探索大模型的场景化落地，从通用场景迈向行业应用的深水区。在此过程中，也正在催生一个更加开放和协作的创新生态：技术端，以 DeepSeek 为代表的模型通过开源社区建设激活开发者创新；消费端，字节、阿里、腾讯等基于生态优势，发展好用、好玩的 AI；行业端，讯飞星火守护底座安全，依托全国产算力在教育、医疗、金融、工业等国计民生行业构筑坚固的护城河。这种多元并存的发展格局不仅满足了不同市场需求，也为中国 AI 产业注入了持续创新的动力。

从“军备竞赛”到“价值创造”，行业的成熟转向

《通用大模型评测体系 2.0》的落地，表明 AI 产业竞争的重心正在从“通用能力”向“专业价值”转变，从“技术突破”向“行业解决方案”转变。这也是中国 AI 产业在经历了一段狂热的“百模大战”后，走向成熟与务实的重要标志。其为行业树立了一个更加关注真实应用、强调安全合规、看重专业深度的价值坐标。

长期来看，评测体系的“指挥棒”效应或将引导厂商研发方向转型，从针对榜单的“像素级”优化转向解决真实世界问题。这对用户选择产生重要影响——企业在 AI 选型时将有标可依，选择在特定场景的专业深度、落地经验和服务能力上有优势的模型，而非仅凭通用能力分数。

当然，AI 评测的进化之路远未结束。未来，我们或许会看到更加动态化的评测，所有的评测都将指向一个终极问题：AI 技术在多大程度上，为经济增长、社会福祉和人类知识的拓展做出了真实的、可衡量的贡献。

这条路依然漫长，但一个更健康、更具价值导向的 AI 发展新阶段，已然开启。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.