![]()
但模型能力一直在突破,配套的评测体系却没跟上。
这就导致很多模型看着厉害,一到真实物理场景里就掉链子。
今天要讲的,就是能破解这个症结的全球首个面向真实物理世界的统一全模态评测基准,FysicsWorld。
![]()
本来想聚焦看全模态AI的应用突破,但后来发现,评测体系的滞后才是制约它落地的关键。
现在行业里的主流模型有三十多个,像GPT-5、Gemini-2.5-Pro这些闭源模型,在基础模态处理上确实能打。
可一到真实物理场景,比如让机器人根据语音指令处理复杂环境的任务,就容易出问题。
为啥会这样?核心还是现有评测体系有硬伤。
![]()
其次是缺乏物理关联,模态之间的交互没有真实世界的逻辑,根本检验不出AI对物理规律的理解。
更麻烦的是存在“单模态捷径”隐患,有些评测样本信息冗余,模型不用融合多模态信息,靠单一模态就能答题。
这种滞后对行业影响不小。
![]()
研究者搞不清模型的真实短板,开源模型在长视频理解、复杂推理这些领域的进展就很慢。
而对于想落地的企业来说,没有统一的评测标准,产品在跨场景适配时频繁失灵,规模化发展根本无从谈起。
具身智能现在这么受重视,可没有靠谱的评测工具,落地风险直接翻倍。
为了解决这个问题,飞捷科思和复旦大学的研究团队联手推出了FysicsWorld。
![]()
这个基准最核心的思路,就是把评测场景拉回真实物理世界。
它设计了16大任务,覆盖上百类真实开放域场景,构建了一条从基础感知到高阶交互的能力曲线。
在数据构建上,FysicsWorld做得很严谨。
研究团队先从异构数据集中筛选样本,再通过人工审校和半自动化校对双重把关,确保语义一致、场景匹配。
![]()
这样一来,数据的真实性和可靠性就有了保障。
最让人眼前一亮的是它的跨模态互补性筛选策略,也就是CMCS。
这个策略的逻辑很简单,就是随机移除一个或多个模态,看模型性能会不会下降。
![]()
如果移除后模型还能做好任务,这个样本就会被剔除。
只有那些必须融合多模态信息才能解决的样本,才会被保留。
如此看来,这种方式从根源上杜绝了“单模态捷径”,评测结果自然更靠谱。
![]()
基于FysicsWorld,研究团队对三十多个主流AI模型做了系统性评测。
结果很有意思,在基础模态任务里,闭源模型整体领先,表现稳定。
但开源模型在长视频语义理解、复杂听觉推理这些环节,差距还是很明显。
更关键的是,一旦切换到真实物理场景的多模态协作任务,所有模型的性能都出现了明显下滑。
![]()
像语音驱动的视觉理解、基于视觉的音频合成这些任务,都需要AI具备深层次的跨模态交互和物理常识推理能力。
很显然,当前主流模型在这些关键环节,还有不少短板。
这些实测结果也给行业指了方向。
下一代全模态AI,不仅要巩固单模态能力的根基,更要优化模态融合策略。
![]()
跨模态动态推理、场景化理解与生成能力,会成为衡量模型核心竞争力的关键指标。
毫无疑问,FysicsWorld的出现,给研究者提供了一个清晰的“诊断工具”,能帮他们精准找到模型的问题所在。
总的来说,FysicsWorld的推出填补了物理世界全模态评测的空白。
![]()
它不只是一个评测基准,更像是全模态智能发展的“指南针”。
随着它的推广应用,下一代AI在真实物理世界的理解和交互能力会不断提升,具身智能的规模化落地也会更有底气。
本来以为全模态AI的瓶颈在模型架构,现在看来,一套科学的评测体系,同样是推动行业进步的关键力量。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.