飞捷科思发布首个全模态物理AI基础模型-OmniFysics|显式|实验|新论文

分享至

近日，飞捷科思智能科技（上海）有限公司宣布完成近亿元Pre-A1轮融资。本轮融资由经纬创投与东方富海联合领投，沐曦股份、驰星创投等机构参与投资。

飞捷科思定位为Physical AI（物理AI）核心基础设施供应商，专注于自主研发面向具身智能的新一代可微分、多物理统一求解物理仿真引擎。该引擎适配主流及国产GPU，支持大规模并行仿真，旨在通过生成高质量合成数据，解决机器人训练数据匮乏的行业痛点。

尽管现有顶尖多模态大语言模型（MLLMs）在语义理解与跨模态推理上已展现出惊人能力，但它们在物理感知层面仍面临巨大的“认知鸿沟”。这种物理认知的缺失，导致现有模型在生成任务中频频产生违反因果律的“物理幻觉”，在推理任务中则倾向于依赖浅层的语义标签而非内在的物理属性与参数，限制了其在真实物理世界中的可用性、可靠性与泛化能力。其背后的根本原因在于，关键的物理属性在视觉上具有天然的模糊性，且在现有的网络规模数据中缺乏显式的表征与对齐，导致模型难以像人类一样通过跨模态线索消除歧义，从而无法建立起对物理世界本质的正确认识。

为突破这一物理认知瓶颈，飞捷科思智能科技（Fysics AI）推出了OmniFysics —— 一款面向真实世界的全模态物理AI基础模型。OmniFysics统一了图像、音频、视频和文本的跨模态理解，并集成了高保真的语音与图像生成能力，不仅在标准多模态基准上表现优异，更通过注入显式的物理知识，从根本上重塑了AI模型对物理规律的感知与预测，有效弥合了隐式神经表示与显式物理知识之间的鸿沟，为构建能够真正理解并与物理世界互动的具身智能体奠定了坚实基础。

为了解决高质量物理对齐数据的稀缺问题，团队构建了双中枢数据生态系统：FysicsAny中枢针对静态属性，通过“感知-检索-验证”的五阶段专家协作机制，结合物理定律约束与分层知识检索，构建了包含 943K 验证物理标签和 4.7M 对指令-图像的首个大规模物理属性数据资产；FysicsOmniCap中枢则针对动态过程，利用视听一致性过滤与“大脑-工具”协作机制，提炼出872K富含物理因果链的高保真指令资产，强化了模型对跨模态物理线索的捕捉能力。此外，OmniFysics 融合了高效的统一生成机制与智能动态路由技术。这种创新设计使模型能够根据用户意图自适应调度计算资源，在保持高效推理的同时，精准呈现符合物理定律（如正确的材质纹理与形变）的视觉内容。

核心中枢：

首创“双轮驱动”物理数据生态，跨越感知鸿沟

OmniFysics之所以能“看透”表象背后的物理本质，源于其背后庞大而严谨的物理数据生态。针对现有公开数据集“重语义、轻物理”的缺陷，团队构建了FysicsAny 与 FysicsOmniCap 双中枢，从静态属性到动态因果，为模型注入了可验证的物理知识。

1.FysicsAny：静态物理属性映射中枢

FysicsAny是首个连接视觉实体与内在物理参数的自动化流水线。为了确保数据的严谨性，FysicsAny 摒弃了单纯依赖大模型生成的路径，而是采用了一套包含“混合采样-物理感知-分层检索-定律验证-指令构建”的五阶段专家协作机制。团队构建了包含300个标准物理原型的数据资产，涵盖刚体、软体与流体状态，通过检索专家将视觉对象映射到精确的物理参数空间（如密度、杨氏模量、粘度等）。尤为重要的是，该中枢在生成数据前强制执行物理定律验证，例如通过本构方程验证耦合变量的一致性，以及通过硬边界约束剔除一切违反物理常识的“幻觉”数据。该中枢最终产出了 943K经过物理定律验证的物理标签和 4.7M物理指令-图像数据，构成了当前规模最大的高质量物理属性数据资产。

图 1 FysicsAny 数据管道示意图

2.FysicsOmniCap：动态视听因果中枢

物理世界的本质在于变化与交互，FysicsOmniCap 专注于捕捉时间动态与跨模态因果性。团队引入了视听一致性评分机制，精准筛选出具有强因果关联（如“敲击声-材质硬度”）的动态片段。该引擎采用强专家模型作为中枢大脑，调度视觉、音频与物理感知三大专家模型协同工作。这种机制能够合成深度物理因果链。例如，模型不仅能描述“一个球落地”，还能根据声音推断出“球体具有高刚性，落地后无塑性变形并迅速反弹”。最终，该中枢提炼出 872K 高保真指令对，使模型能够理解隐藏在像素变化背后的物理规律。

建模范式：

紧凑型全模态统一架构，实现高效物理对齐

OmniFysics 打破了传统模型在理解与生成之间的壁垒，提出了一种全新的全模态统一架构，以 3B 参数的大语言模型为基座，实现了对图像、音频、视频与文本的统一处理与生成。

图 2 OmniFyscis模型框架示意图与全模态微调阶段训练数据配比

1.全模态统一交互与高保真生成

模型采用了时间多模态旋转位置编码，能够精确处理交错的视听流输入。在输出端，OmniFysics 集成了两大生成模块：Spoken Voxer支持从多模态上下文直接预测离散音频token，合成高保真语音；同时也具备了物理感知的图像生成能力，能够基于对物理属性的深刻理解，合成符合真实物理规律的高质量元素。

2.智能动态路由机制

为了在复杂交互中平衡推理深度与响应速度，OmniFysics 创新性地融合了智能动态路由技术。该机制充当了模型的“意图指挥官”，能够实时分析用户指令的句法结构与语义意图。当识别到简单的闲聊或基础理解任务时，模型自动切换至轻量级感知模式，极速响应用户指令；当检测到涉及复杂物理模拟或高精度生成的请求时，则智能激活高阶生成模块。这种自适应计算策略确保了模型在保持极低延迟的同时，能够精准执行符合物理规律的复杂意图任务。

3.渐进式四阶段训练与亿级全模态数据配比

OmniFysics 实施了层层递进的四阶段训练策略，逐步解锁全模态理解与生成能力。该流程始于单模态专家的独立预训练，随后进入全模态联合对齐阶段，利用 3700万条精心配比的指令微调数据，将图像、视频、音频与文本映射到统一语义空间，并关键性地融入了 FysicsAny 与 FysicsOmniCap 生成的物理增强数据资产，确保模型建立起稳固的物理世界观。在最后的生成能力突破阶段，OmniFysics 进一步引入了超过 1亿的高质量样本进行专项训练：涵盖用于构建高保真语音映射的音频数据，以及用于图像生成流匹配训练的海量图文对。这种“理解与生成分阶段、物理与语义相融合”的训练范式，确保了模型在习得通用多模态理解的同时，能够内化真实的物理规律。

图 3 OmniFysics的四阶段训练流程

FysicsEval：

首个全维度物理感知与逻辑推理基准，重塑物理AI认知边界

为了全方位量化物理AI的认知边界，我们正式推出了FysicsEval——国际首个全维度物理感知与逻辑推理评测基准。该评测基准是一个面向多模态物理智能的全维度、多粒度评估系统，首次将物理感知与预测、物理逻辑推理、物理世界理解三大核心能力纳入同一评估体系，为通用多模态模型建立了物理认知能力的统一标尺。

1.填补行业空白的综合评估体系

现有评测基准主要针对理论解题或定性场景分析，仅能评估直觉物理或物理答题能力，无法满足下一代通用物理AI与物理现实交互的需求。FysicsEval 强调定量预测与定律推理，旨在解决现有评测无法满足通用大模型与物理世界交互需求的问题。基准包含 3,854 个源自真实世界的样本，覆盖刚体、软体、流体三大物理形态，以及密度、摩擦系数、杨氏模量等 11 类关键物理参数。

表 1 FysicsEval与现有物理评测基准的全方位对比

2.三大核心能力维度的深度覆盖

FysicsEval 建立了统一的评估框架，涵盖三个互补的能力维度：（1）物理属性定量预测，考察模型能否从视觉线索中反推潜在物理参数；（2）可解释性物理推理，要求模型基于守恒定律和受力分析等，生成符合因果律的推理链路；（3）跨模态一致性理解，评估模型对物理世界的理解以及识别违反物理常识的“幻觉”现象的能力。通过整合定量预测、深度推理、物理理解与幻觉识别三大核心维度，FysicsEval 建立了一套严密的物理认知评价体系，迫使模型走出语义舒适区，直面物理世界的因果铁律。

性能验证：

打破 Scaling Law，小参数量下的物理智能涌现

通过多维度的综合实验，OmniFysics 验证了一个重要结论：注入显式物理知识，可以让紧凑型模型在特定领域超越盲目扩大参数规模的通用模型。

1.物理AI感知能力的大幅跃升

在专为物理智能设计的 FysicsEval 评测中，OmniFysics (3B) 展现出惊人的爆发力，其综合得分不仅全面超过同量级开源模型，更在多项关键指标上超越了Gemini-2.5-flash和Claude-4.5-Haiku等大规模参数的闭源模型整体上取得了最好的物理逻辑推理能力。在 PhysBench、QuantiPhy 等权威第三方物理榜单上，OmniFysics 同样保持了领先优势。这一结果有力证明了，专用物理数据中枢能够有效弥合小参数架构与高密度物理知识之间的差距，实现物理认知的越级表现。

图4 FysicsEval全维度物理智能评估结果

图5物理AI感知能力评估结果

2.视觉多模态理解的稳健表现

物理能力的增强并未牺牲通用的视觉感知。在 MMBench、MMStar 等六大通用视觉理解基准评测中，OmniFysics 取得了 72.8% 的平均分，在所有同尺寸的Omni模型中位列第一。特别是在 MMMU 等涉及学科知识推理的任务上，OmniFysics 凭借其强大的物理逻辑训练，展现出了超越传统视觉模型的推理鲁棒性。

图6视觉多模态理解能力评估

3.全模态与视频理解的全面领跑

在OmniBench、Video-MME 等全模态与视频理解榜单中，OmniFysics 以 49.97 的平均分位居 3B 量级模型之首，在 5 个评估基准中有 4 个优于 Qwen2.5-Omni 3B。这证明全模态数据和物理视频感知数据的引入，能够增强模型对于真实音视频环境的适应。

图7全模态与视频理解能力评估

4.音频理解能力评估

在 MMAU 和 MMAR 音频理解基准上，OmniFysics 取得了 61.2 的平均分，这一成绩不仅优于 Qwen2.5-Omni 3B，更在部分指标上超越了音频专家模型。这表明 OmniFysics 的全模态架构成功建立了对声学信号的深度感知，并未因侧重视觉物理而偏废听觉能力。

图8音频理解能力评估

5.物理忠实的高保真图像生成

当前的主流文生图模型及其评测体系主要侧重于“语义一致性”与“艺术美感”，往往忽视了对“物理规律一致性”的考量。在定性实验中，OmniFysics 展现了独特的“物理转译”能力——它能根据“密度”、“杨氏模量”等抽象参数，生成具有正确材质光泽与形变逻辑的图像，这是当前文生图模型无法企及的“物理真实”。

图9高保真物理感知的图像生成

作为首个注入显式物理知识的紧凑型全模态物理大模型，OmniFysics 成功跨越了隐式神经表示与显式物理定律之间的认知鸿沟。它不仅打破了全模态模型在参数规模上的固有依赖，证明了小参数量下物理智能涌现的可行性，更将多模态生成的范式从单纯的“语义对齐”重塑为严谨的“物理忠实”。OmniFysics 确立了具备物理规律的因果逻辑与高精度物理预测能力的物理AI 新范式，为具身智能在真实物理世界中的感知、交互与演进奠定了坚实的基础。

数据基准: https://github.com/Fysics-AI/FysicsEval

Hugging Face链接: https://huggingface.co/datasets/Fysics-AI/FysicsEval

飞捷科思智能科技（上海）有限公司由复旦大学智能机器人与先进制造创新学院副院长、智能机器人研究院常务副院长，原英伟达PhysX物理引擎主要奠基人与研发团队负责人张立华教授创办，是国内唯一拥有完全自主研发的可微分通用物理仿真引擎产品的企业。公司以新一代物理仿真引擎 Fysics为核心，致力于打造全球领先的物理智能关键技术与产品，推动具身智能与人形机器人技术研发及应用场景的快速落地，在高精度物理仿真引擎、高质量具身智能仿真平台、机器人敏捷运动与鲁棒智能控制等领域处于行业领先水平，并向行业提供覆盖“仿真—训练—部署—迭代”的全栈解决方案。依托自主可控的物理智能底座，公司持续赋能中国具身智能与机器人产业的发展。

打开链接：https://arxiv.org/pdf/2602.07064，下载技术报告

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.