图源:微软科技
撰文 | 胡芷君
编辑 | 神璐璐
审核 | 刘玉琳
泰伯网讯,近日,微软在人工智能领域再掀波澜,接连发布了时空智能大模型Magma以及生成式AI 3D模型Muse。
据了解,在开源代码共享社区GitHub平台上,微软发布了其联合马里兰大学、威斯康星大学麦迪逊分校、KAIST和华盛顿大学研究人员共同推出的基础大模型Magma。
图源:GitHub平台
与此同时,Nature杂志发布了微软研究院与Xbox游戏工作室Ninja Theory合作开发的生成式AI模型Muse,开发者只需提供一张游戏截图,模型便能迅速生成多个可能的后续游戏画面。
图源:Nature网站
维智科技副总裁Annie(曹佳雯)向泰伯网表示,Magma、Muse这两款模型的核心突破可以用两个关键词概括:多模态统一和场景泛化。
“从技术上来看,它们首次实现了文本、图像、视频与三维点云数据的端到端处理;从产业上来看,微软通过模块化设计平衡了通用性与专业性。”她认为,上述两款大模型虽然不能完全替代专业工具,但至少不用每个企业都从零开始造轮子了。
根据Magma研究成果,它是新型多模态AI基础模型,结合了语言智能、空间智能和时间智能,是第一个不仅能处理文本、图像和视频等多模态数据,还能对其进行原生操作的AI模型,同时适用于网页操作等数字环境和机器人控制等物理环境。
此外,阿里云开发者社区用户认为,Magma主要集中在以下三项功能:
(1)多模态理解:支持图像、视频、文本等多种模态的数据处理,能够提取语义、空间和时间信息,适用于从简单识别到复杂理解的任务。
(2)动作规划与执行:将复杂任务拆解为一系列动作序列,覆盖UI导航(如网页操作、移动应用控制)和物理环境中的机器人操作(如抓取、放置物体)。
(3)环境适应性:具备零样本适应能力,能够快速适配多种下游任务,包括UI导航、机器人操作和多模态理解。
据报道,Muse是微软旗下为游戏创意设计的首个生成式AI模型。业内认为,其功能与目前火热的“空间智能”类似,应用并不局限于游戏行业。
公开信息显示,Muse由机器学习研究团队主导开发,其独特之处在于能够自动生成游戏视觉内容和控制器动作。为了训练这一模型,微软使用了Xbox游戏《Bleeding Edge》中的人类游戏数据,包括视觉画面和手柄操作。
当开发者与Muse交互时,WHAM(世界和人类行动模型)演示器提供了一个用于与WHAM实例交互的视觉界面。只要给定一张游戏截图,就能生成多个潜在的后续游戏画面。此外,开发者可以通过Xbox手柄来控制角色,Muse能生成相应的后续内容。
微软公司高级首席研究经理Katja Hofmann表示,“如果你以前没有见过任何这种生成式游戏画面,你可能会认为这些只是视频游戏中的某个片段”。其Xbox团队和其他业内人士迫切希望利用人工智能来帮助减少爆款产品动辄数以亿计美元的成本。
作为与游戏行业技术联系紧密的数字孪生、实景三维等,能否利用Muse以及Magma降低生产成本,推动产业发展?
曹佳雯持乐观态度。她认为,两个模型如能有效结合,可以解决时空智能领域的瓶颈问题。
“比如在老旧小区改造或智慧园区建设时,Muse可以生成规划方案,Magma可以评估方案的效率、能耗等,辅助决策。而在应急场景中,Magma可以预测火灾的扩散路径、风险点,Muse可以生成疏散动画,进行仿真三维建模,实时推演救援策略等等。”
但在当前阶段,Muse以及Magma距离产业应用仍有差距,如在数据融合与实时性、领域知识嵌入、生成内容的可控性等方面存在局限性。
“当前,数字孪生对毫米级精度和物理仿真的要求,仍需要与传统地理信息技术深度融合。但现有模型能识别三维物体,却难以理解空间关系背后的动力学原理,需要人工介入修正。”
在她看来,未来的空间智能应该像“城市规划专家+地理学家+数据分析师”三位一体——既能洞察微观细节,又能把握宏观规律,让数字世界真正理解并服务于物理世界的运行法则。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.