Sora时代结束，智象未来用世界模型叩开AGI大门|模态|机器人|智能体|agi|大模型

分享至

2023年2月，新春年味未散，刚刚卸任京东集团副总裁的梅涛，收到一场特别邀约：

前往北京密云北庄·荷畔的静谧小墅，与中国科学技术大学的校友们组织的一场“科大校友ChatGPT论坛”中进行分享新一轮AI热潮。

而到场嘉宾还包括梅涛在中科大的师弟——后来成为诺亦腾机器人创始人兼首席执行官的戴若犁。

雪夜沉沉，山路蜿蜒，梅涛亲自驾车，一路穿行于盘山道间，最终抵达北庄·荷畔。

不到19分钟的时间，梅涛便向校友们阐述了多模态AI大模型的发展趋势。

当时，国内正沉浸在美国OpenAI公司研发的大语言模型聊天机器人ChatGPT带来的震惊与热潮中，但长期深耕视觉AI领域的梅涛却有着与行业主流截然不同的判断。

梅涛是国内极少拥有ACM Fellow、IEEE Fellow，加拿大工程院外籍院士三重国际顶级学术头衔的人工智能学者，他既是长期深耕计算机视觉的科学家，也经历过微软与京东两家大型科技公司的产业化历练。

在他看来，基于物理与数字世界融合的生成式AI多模态大模型，比ChatGPT更具挑战性，也具有更大的创业机遇，且彼时头部企业尚未建立起明显的技术壁垒优势。

这也成为梅涛创立智象未来（HiDream.ai）的起点。

尽管当时不少人并不理解，智象未来为何选择布局多模态大模型AI赛道，但一年后问世的Sora、Google Genie，以及今年推出的字节跳动Seedance 2.0等模型带来是酷炫视觉奇观，已让大众真切感受到多模态基础模型带来的巨大影响力。

而随着技术进一步演进，行业焦点又开始从“视频生成”向更宏大的目标转移——世界模型（World Model）演进。如今，Sora时代已悄然落幕。在统一架构、数据体系与算力支撑下，通用世界模型今年将迎来快速突破。

很显然，AI视频生成赛道正瞄准新的方向——世界模型。

从图灵奖得主杨立昆(Yann LeCun)到“AI教母”李飞飞；从字节、阿里等大厂，到智象未来等行业独角兽，纷纷布局世界模型赛道，结合具身智能与物理AI，加速迈向通用人工智能（AGI）。

其中，智象未来近期宣布与戴若犁的诺亦腾机器人（Noitom Robotics）达成战略合作，双方将在高质量、规模化具身智能视频数据的生成上展开深度合作，从而开启拓宽具身智能行业数据入口的全新模式探索。

经过了智象未来三年的创业探索，在梅涛看来，视频生成不仅是一项多模态大模型的应用能力，更可能是进入世界模型时代的关键入口。

一场更具想象空间的百万亿世界模型新赛道已然开启。

新的“轮回”与趋势

2024年圣诞节期间，一部在美国上映的电影中展示：未来某日，具有了“自我意识”的AI派出两个聊天机器人穿越到过去，试图摧毁“人类反抗军”的首领。

这似曾相识的《终结者2：审判日》剧情，在时隔数十年后，正式被AI技术重制——全球首部由AI生成的长篇电影《Our T2 Remake》由50位AIGC创作者历时数月分段合作完成，全片达到了近90分钟。

尽管这部电影的画面制作还存在不少瑕疵，甚至不被老一代电影人真正接纳，但它展示了AI对自然语言学习和理解的超高天赋，同时也是继OpenAI发布“世界模拟器”Sora之后的震撼AI视频生成行业的重要事件。

正如马斯克直言，AI的发展太快了，未来两年内将实现拥有人类一般自主发现和执行任能力的通用人工智能（AGI）。

今年1月，北京智源人工智能研究院发布年度报告《2026十大AI技术趋势》。报告指出，AI的演进核心正发生关键转移，正从追求参数规模的语言模型，迈向对物理世界底层秩序的深刻理解与建模的多模态世界模型。因此，世界模型成为AGI共识方向，“预测世界下一状态”（Next-State Prediction）或成新的产业范式，从而推动AI从感知走向真正的认知与规划。

过去的一年多时间，AI技术发生了“轮回”，视频生成等多模态AI技术正成为进入世界模型时代的关键基础之一。

所谓世界模型，是指能够理解物理规律、空间属性等真实世界动态的神经网络。它可融合文本、图像、视频、动作等多模态信息，生成高度逼真的物理环境模拟影像；并让AI智能体在执行动作前，于内部世界中“预演未来”，通过视觉感知、记忆、行动控制等环节形成接近人类水平的智能。

有业内人士直言，2026年或是世界模型为AGI奠定基础的元年。

正如斯坦福大学教授李飞飞所述，大语言模型的基本单元是词库，而世界模型的基本单元是像素或体素。

而英伟达机器人主管Jim Fan曾发文称，2026年将成为大世界模型真正为机器人以及更广义的多模态AI奠定基础的第一年。

至于世界模型定义的分类，智象未来联合创始人兼CTO姚霆提出了三种：

第一类是以语言模型为主，属于高层知识的提炼和压缩；

第二类是Yann LeCun做的JEPA，偏中层的表达学习；

第三类是底层的像素生成，也就是视频生成——包括在视频生成模型中融入因果关系和物理规律，根据用户指令实时生成场景（如Genie-3），以及跟具身智能强相关的World Action Model。

早在2023年3月，梅涛带领姚霆等从微软、京东一路深耕图像识别研究的核心技术团队，创立了智象未来。不到半年，智象未来上线参数超60亿的多模态大模型。

2024年2月，初代Sora模型发布之前，智象未来就实现了全球首个15秒视频生成技术突破，自研多模态大模型参数达数百亿。而在过去三年，智象未来已实现了多模态AI生成产品和商业化的驱动能力。

如今，世界模型的发展还需要在具身智能、人形机器人等物理AI领域展开探索，而视频生成能够为物理AI提供更多仿真到真实世界（Sim-to-Real）数据，进而对具身世界模型智能体（WMA）的行为决策产生影响。

今年3月举行的英伟达GTC大会上，黄仁勋提出：AI正经历感知、生成式、Agent阶段，未来将是以具身机器人为代表的物理AI时代。

如果说，生成式AI解决的是“理解与生成信息”的问题，那么物理AI所要面对的，则是一个更复杂的命题：理解世界，并在其中行动。

具身智能的数据瓶颈

实际上，具身智能作为 AI 落地物理世界的核心赛道，正遭遇前所未有的数据瓶颈。

首先，无论是人形机器人的灵巧操作、服务机器人的场景适配，还是工业机器人的精准作业，其核心能力的落地都依赖于大规模、高质量、场景化、多模态的数据，包括三维空间信息、传感器数据与运动轨迹等。然而，现有数据资源数量有限、模态单一、质量参差不齐，难以支撑模型复杂的感知与行为学习需求。

而且，真实数据采集成本与模型视觉泛化能力之间存在矛盾：标准化环境虽能降本增效，但要提升模型的泛化能力，就必须覆盖更多样、更复杂的真实场景。

业内普遍认为，当前具身智能领域正处于2.0阶段，可用训练数据仅约20万–30万小时。参照GPT-3数据量为GPT-2的100倍这一规律，若具身智能从当前阶段（类比GPT-2阶段）迈向更高阶阶段（类比GPT-3阶段），所需数据量将达到1000万–2000万小时。

其次，现有开源数据集规模有限且缺乏统一的采集与标注规范，且多为单一模态数据，限制了模型的跨任务、跨场景泛化能力。同时，国内不同机构与企业间数据封闭，缺乏有效的共享机制，进一步阻碍了规模化、标准化数据体系的建立。

最后，高精度多模态采集设备会干扰视觉信息，形成视觉鸿沟（Vision Gap），后期修复效果有限，难以满足模型训练要求。当前具身智能的核心瓶颈已从算力与模型转向真实数据严重不足，行业可用训练数据仅几十万小时，与智能涌现所需的千万至亿小时规模相差一个数量级以上。

数据的“质”与“量”双重缺失，让行业陷入“高质量数据不开源、开源数据不能用”的“无米之炊”困境。

今年3月在深圳举行的全球首届具身智能开发者大会上，多位行业人士表示，当前用于机器人训练的具身智能数据不仅需求巨大，获取成本也极高，而行业往往忽视了模型厂商在数据采集与训练上的巨额投入。

上述人士认为，今年具身机器人领域有望通过视频生成模型、海量合成数据、开源数据等方式，将物理AI模型收敛到“一条非常确定的技术路线”对应的数据集上进行探索，这将是行业发展的重要趋势。

事实上，具身智能的基础研究主要围绕“感知—交互—规划—仿真—训练—加速”体系展开。

而此次智象未来与诺亦腾的战略合作，正是将多模态大模型的毫米级可控视频生成能力与真实数据基础设施相结合，融合真实数据与生成式视频数据，预计年内合作生成的具身智能视频数据将达数万小时，从而开辟出可规模化供应行业亟需的高质量具身训练数据的全新路径。

作为多模态AI领域的领军者，智象未来自主研发的“智象多模态大模型”是超百亿级别的大模型，拥有行业内丰富的多模态版权语料库，具备强大的视觉内容生成与理解能力，其技术已在视频创作工具vivago、AI影视制作、营销场景应用及更多智能体应用中实现落地。

2025年4月，智象未来自主研发的开源模型HiDream-I1与HiDream-E1.1双双跻身全球第一梯队，并在图像质量、语义理解、艺术表现三大维度刷新行业纪录。同时，基于智象未来技术的AIGC短剧《亦幻未来》《量子湖传说》实现影视工业化落地，电商解决方案覆盖全球超100个国家和地区；ARR（年度经常性收入）达到数千万美元量级，B轮融资正处于最后收尾阶段，持续获得产业资本加持。

对于成立三年的智象未来团队而言，在行业趋势迭代、AI商业化逐渐“收敛”、软硬件不断深度耦合的背景下，视频生成是通往世界模型的数据入口，这也将成为这家全球领先的多模态生成式 AI 创新企业叩响AGI大门、实现新技术跃迁的千载难逢的机遇，更是打通具身智能发展核心“数据瓶颈”、推动通用人形机器人落地的重要路径。

“人生就在于不断折腾。”梅涛在10个月前的一次采访中坦言，人生的不同阶段，总要勇敢踏入新领域、敢于尝试与冒险，始终坚持做难而正确的事；要付出99%的努力，去攀登金字塔尖那1%的高度，这也是他从事创新事业一以贯之的准则。

资本押注百万亿级世界模型

展望未来，世界模型将成为一个百万亿规模的全新AI赛道。

作为支撑物理AI自主决策的核心体系，世界模型是通往通用人工智能的关键路径，其市场覆盖范围广泛，涵盖机器人、自动驾驶、工业仿真、数字孪生等多个核心领域。

据麦肯锡预测，2030年世界模型相关市场规模将突破3万亿美元。

英伟达副总裁雷夫·勒巴雷迪安（Rev Lebaredian）更是大胆预测，若机器能实现对物理世界的理解与自主运行，世界模型相关市场规模或将达到约100万亿美元，足见其巨大的发展潜力。

资本的嗅觉往往先于行业爆发，全球范围内，世界模型领域已成为投资热点。

今年2月，李飞飞创立的世界模型企业World Labs（空间智能）完成10亿美元融资，最新估值超50亿美元；紧随其后，杨立昆的世界模型初创公司AMI也完成逾10亿美元融资。

国际巨头与顶尖科学家的入局，进一步印证了世界模型赛道的核心价值。

国内市场同样热度高涨，公开信息显示，2026年开年不到三个月，国内具身智能领域已披露的融资总额就超过200亿元，估值超百亿的企业扩容至近10家，而这些企业大多聚焦于世界模型、具身模型、大脑交互等核心方向。充分证明了世界模型、物理AI等相关领域在国内的广阔发展前景。

值得注意的是，智象未来与诺亦腾的战略合作所实现的数据范式创新，正是世界模型与通用型具身智能爆发的关键基石——当高质量训练数据的瓶颈被打破，具身智能的潜力将得到彻底释放，进而推动AI真正走进物理世界，为百万亿级市场的开启奠定基础。

当下，智象未来已在技术产品与商业化布局上积累了充足实力，也拥有充足的“弹药”，其在此时切入世界模型赛道恰逢其时，也为整个多模态AI行业提供了极具参考价值的发展样本。

梅涛曾明确提出，AI商业化有两个关键里程碑：一是产品日活用户（DAU）突破100万，标志着企业跨越重要发展鸿沟；二是年经常性收入（ARR）达到1亿美元，意味着公司形成成熟商业模式、进入稳定发展阶段。

在巨头扎堆、竞争白热化的AI赛道中，智象未来作为一家纯技术导向的创业公司，没有走“堆资源、盲目跟风”的捷径，而是凭借扎实的底层架构创新站稳脚跟，深耕视频生成领域，全面构建“技术+商业”双飞轮，实现了技术突破与商业化落地的同步推进。

下一步，智象未来将紧扣世界模型的发展趋势，提前卡位布局，联合诺亦腾机器人率先完成真实场景的规模化部署，构建核心先发优势，或将成为世界模型与AGI领域的领军企业，在百万亿级赛道中抢占发展先机。

声明：个人原创，仅供参考

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.