网易首页 > 网易科技 > 网易科技 > 正文

中国信通院“方升-全模态”大模型基准测试最新结果发布

0
分享至

(原标题:中国信通院“方升-全模态”大模型基准测试最新结果发布)

  过去一年,全模态大模型持续突破,实现语言、视觉、音频的统一建模与协同理解,成为人工智能走向通用智能的关键路径。然而,现有评测体系多聚焦于单模态或事实性描述任务,缺乏对跨模态因果推理、反事实想象、时间动态理解等深层认知能力的评测。为加快推动全模态大模型能力评估,中国信息通信研究院(以下简称“中国信通院”)研究推出了“方升-全模态”大模型基准测试体系,覆盖推理、生成及动态交互任务。近期,中国信通院组织完成了首期测试工作,最新体系和测试结果如下:

  一、“方升-全模态”基准测试体系

  全模态大模型评测体系构建遵循多维度、立体化原则:在数据构建层面,完善了从文本、图像、音频到长视频序列、3D 点云的全模态覆盖,并引入了模态复杂度、场景真实性、人工偏好及视频长度等多维度标注;在能力验证层面,构建了推理、生成及交互任务三大核心任务,覆盖反事实假设、时序因果、音视频协同、3D 渲染与动态交互等关键认知与应用能力。具体测试框架如下:

  本次评测聚焦全模态大模型的反事实推理能力,要求模型在融合文本、音频与视频信息的基础上,完成假设性因果推理任务。这类推理是人类认知与决策的核心能力,对大模型而言,不仅需要识别并理解多模态内容,更要求其能够针对与事实相悖的假设情境进行推演。反事实推理测试数据围绕音视频构建,兼容多模态组合,涵盖多种视频时长。题库经多轮人工核验,保障答案客观唯一、评测严谨可靠。

  二、测试结果

  1.整体测试结果

  评测模型包含闭源大模型、开源全模态大模型以及音频-视觉大语言模型,整体测试结果如下:

  测试结果显示,一是人类基准大幅领先,人类回答平均准确率远超被测大模型。二是开源模型与闭源模型之间仍存明显差距,闭源大模型平均准确率高于开源全模态大模型。三是部分音频-视觉大语言模型表现靠后,说明单纯依赖音频-视觉融合训练难以实现高质量的反事实推理,而全模态联合预训练展现出优势。

  2.细粒度场景推理

  场景层面聚焦艺术、体育、科学等十大领域开展评测,测试结果如下:

  通过测试结果发现,各模型的场景能力呈现分化:在家居、个人护理等生活化场景中,模型表现普遍更优;而在文化政治、科学技术等专业知识领域,以及体育、音乐等需要复杂逻辑与时序理解的场景中,模型在跨领域知识融合与复杂因果推理上仍存在不足。

  3.多模态输入形式对比

  测试对比模态输入信息对模型推理的影响,测试结果如下:

  通过测试结果发现,模型对不同模态输入形式的有效性存在差异:一是音频信息辅助能力有限,“音频 + 文本”输入下模型准确率普遍最低,纯音频难以提供足够的场景与时序细节支撑;二是视觉信息对反事实推理起到关键作用,参评模型在“视频 + 文本”输入下准确率较高,说明时序视觉信息是构建因果链条的核心支撑;三是多模态融合尚未实现有效协同,大部分模型在“音频 + 视频 + 文本”全模态输入下无法达到最佳表现,反映出当前模型的跨模态融合能力仍存短板,未实现全模态的协同增益。

  下一步重点方向

  后续,中国信通院将联合各界专家学者深入关注全模态大模型的推理、生成及动态交互能力,开展相关基准测试标准研制和全模态数据建设,推动全模态生态健康发展。“方升”基准测试将顺应技术和产业发展需要,持续迭代更新。

相关推荐
热点推荐
让中国孩子列队通过符拉迪沃斯托克广场,这个情况绝不正常!

让中国孩子列队通过符拉迪沃斯托克广场,这个情况绝不正常!

阿龙聊军事
2026-05-09 19:08:47
中方一锤定音给特朗普最高礼遇,普京通告全球:中俄关系独一无二

中方一锤定音给特朗普最高礼遇,普京通告全球:中俄关系独一无二

快看张同学
2026-05-13 09:52:25
25岁失业女子高调征婚,要男方180有肌肉删光异性月薪过万并上交

25岁失业女子高调征婚,要男方180有肌肉删光异性月薪过万并上交

捣蛋窝
2026-05-13 12:35:35
美专机还没抵华,伊朗甩出两个神预测,每一个都不是特朗普想听的

美专机还没抵华,伊朗甩出两个神预测,每一个都不是特朗普想听的

司马平邦
2026-05-13 16:24:00
15万  !比亚迪又一款新车正式上市!

15万 !比亚迪又一款新车正式上市!

科技堡垒
2026-05-12 13:03:17
森林北终于松口!回应与汪峰分手传闻,原来宁静早已把话说透

森林北终于松口!回应与汪峰分手传闻,原来宁静早已把话说透

老搽学科普
2026-05-13 04:08:14
一张定期存单,最好不要超过多少钱?

一张定期存单,最好不要超过多少钱?

说故事的阿袭
2026-05-13 14:24:01
随着41岁C罗造险+胜利队1-1,沙特联最新积分榜出炉:争冠白热化

随着41岁C罗造险+胜利队1-1,沙特联最新积分榜出炉:争冠白热化

侧身凌空斩
2026-05-13 04:19:51
经济复苏的三个标志

经济复苏的三个标志

生命可以承受之轻
2026-05-11 09:05:02
1952年许世友返乡,不顾老母亲下跪劝阻,掏出枪对准三叔:毙了你

1952年许世友返乡,不顾老母亲下跪劝阻,掏出枪对准三叔:毙了你

云端小院
2026-05-12 06:41:03
当雷军开始造电池,宁德时代慌了吗?

当雷军开始造电池,宁德时代慌了吗?

蓝鲸新闻
2026-05-13 12:10:08
为啥现在没人买枇杷了?不是大家不爱吃,是这4个现实原因劝退

为啥现在没人买枇杷了?不是大家不爱吃,是这4个现实原因劝退

椰青美食分享
2026-05-13 00:55:06
中国股市唯一赚钱最快的方法:持有一只股,保留50%仓位,长期做T

中国股市唯一赚钱最快的方法:持有一只股,保留50%仓位,长期做T

股经纵横谈
2026-04-09 18:01:46
国家一级女演员陈丽云被逮捕!

国家一级女演员陈丽云被逮捕!

许三岁
2026-03-28 09:24:30
麦迪:詹姆斯没经历过重大伤病,他会回归再打一个赛季

麦迪:詹姆斯没经历过重大伤病,他会回归再打一个赛季

懂球帝
2026-05-13 13:57:10
感谢特朗普!我国投入巨资建设的瓜达尔港,终于等来了大订单

感谢特朗普!我国投入巨资建设的瓜达尔港,终于等来了大订单

南生今世说
2026-05-02 17:56:11
万亿巨头,涨停!

万亿巨头,涨停!

证券时报
2026-05-13 14:13:20
重庆奔驰撞人后续:家属发声留下两个年幼女儿,其本人很漂亮

重庆奔驰撞人后续:家属发声留下两个年幼女儿,其本人很漂亮

社会日日鲜
2026-05-12 14:15:13
败光王宝强5千万后,马蓉定居国外近况曝光,超市打工只是其中一点

败光王宝强5千万后,马蓉定居国外近况曝光,超市打工只是其中一点

可乐谈情感
2026-05-13 13:11:25
大学生当上村官执行力太强了!网友:任凭你撒泼耍滑,不吃这一套

大学生当上村官执行力太强了!网友:任凭你撒泼耍滑,不吃这一套

夜深爱杂谈
2026-05-12 20:25:13
2026-05-13 17:08:49

科技要闻

谷歌剧透安卓重大升级 Gemini深度集成底层

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

头条要闻

出租车司机被两老外"拐跑":3万车费从海南开到黑龙江

体育要闻

14年半,74万,何冰娇没选那条更安稳的路

娱乐要闻

白鹿掉20万粉,网友为李晨鸣不平

财经要闻

盘中最高4041.99点!创业板创历史新高

汽车要闻

4月BBA无一款车型销量破万 新能源渗透率首破60%

态度原创

房产
数码
旅游
艺术
手机

房产要闻

海口禁摩,3.3万名车主要慌了!

数码要闻

6000 元左右性价比轻薄本怎么选?全能机型深度对比!

旅游要闻

爱上海|一篱月季一阑香 来共青森林公园邂逅初夏浪漫

艺术要闻

乾隆 “翻车” 名画刷屏!

手机要闻

消息称追觅AURORA手机将于今年第四季度发布

无障碍浏览 进入关怀版
×