网易首页 > 网易号 > 正文 申请入驻

开源!阿里甩出首个语言世界模型,能造智能体环境

0
分享至


智东西
作者 程茜
编辑 心缘

智东西6月24日消息,刚刚,阿里千问大模型上新,发布首个原生语言世界模型(LWM)Qwen-AgentWorld,该模型有35B-A3B与397B-A17B两种参数规模。

该模型专门为各类AI智能体研发与训练而生。在博客中,研究人员提到,该语言世界模型的核心目的不是降成本、替代智能体的真实交互环境,而是为了增强通用智能体的能力。其可以让智能体在做动作前,先在内部模拟环境反馈再决策

Qwen-AgentWorld两大核心亮点为:

  • 从预训练阶段就将环境建模作为训练目标,贯穿CPT→SFT→RL全流程。此前完整训练通用基础大模型,往往会在训练结束后,才开始教AI理解环境、预判操作结果。
  • 单一模型同时覆盖7类环境,包括文本类环境(MCP、Search、Terminal、SWE)与GUI类环境(Web、OS、Android),实现跨领域知识迁移。

例如下图,Qwen-AgentWorld可以模拟手机系统,左侧为手机界面的初始状态,右侧为让Agent点击工具栏中的删除图标的操作预测。


研究人员在博客中提到,LWM并不是为了取代真实环境,真实环境交互始终是确保智能体行为可靠性的黄金标准,LWM提供的是一条互补路径,其具备超越真实环境的可扩展性与可控性,还有内化的世界预测能力。

此外,阿里还发布了配套的覆盖七大领域的语言世界模型评测基准AgentWorldBench


▲AgentWorldBench概览

阿里开源了Qwen-AgentWorld-35B-A3B(模型权重)和AgentWorldBench(评估基准)。


▲AgentWorld开源主页

GitHub开源地址:https://github.com/QwenLM/Qwen-AgentWorld

ModelScope开源地址:https://modelscope.cn/collections/Qwen/qwen-agentworld

Hugging Face:https://huggingface.co/collections/Qwen/qwen-agentworld

一、覆盖7类环境,支持跨领域知识迁移

Qwen-AgentWorld单一模型同时覆盖7类环境,包括文本类环境(MCP、Search、Terminal、SWE)与GUI类环境(Web、OS、Android),能实现跨领域知识迁移。

对于三个GUI领域,环境观测以可渲染代码(无障碍树XML、HTML、UI层级标记)而非像素帧的形式呈现,使得仅凭纯文本世界建模即可覆盖视觉环境。


▲Qwen-AgentWorld可模拟的7类交互环境

Qwen-AgentWorld可以模拟电脑系统,例如下面左侧就是电脑初始界面,右侧为Agent从菜单栏中单击“文件”>“打印”的操作预测。


该模型还能模拟网站交互,下图左侧就是某网站的仪表盘界面,右侧为Agent点击“添加用户”按钮的操作预测。


在博客中,阿里研究人员提到,他们希望探索基于语言模型的世界建模,能否进一步拓展通用智能体能力的边界。

第一个方向是构建智能体环境模拟的基础模型:Qwen-AgentWorld是首个在单一模型中覆盖七大智能体交互领域的语言世界模型,基于超过1000万条真实环境交互轨迹,经由CPT→SFT→RL三阶段训练而成。


▲三阶段训练流程

第二个方向是探讨世界建模在智能体训练中的作用,并通过两种互补范式加以验证:作为解耦的环境模拟器,它为智能体强化学习提供了更优的可扩展性与可控性,可控的模拟RL能够以真实环境无法实现的方式塑造智能体行为,且显著优于仅在真实环境中训练的RL。

作为统一的智能体基础模型,LWM的预训练可有效迁移至涵盖七个基准(其中三个完全未出现在训练集中)的多轮智能体任务,且无需针对智能体任务进行任何RL微调,初步验证了语言世界模型能够作为构建更强智能体模型的基础。


▲Qwen-AgentWorld架构图

二、整体模拟质量超Claude Opus 4.8、Gemini 3.1 Pro

为系统评估语言世界模型,研究人员推出综合性评测基准AgentWorldBench

该基准基于5个前沿模型在9个成熟评测集上的真实环境交互观测构建而成。AgentWorldBench采用开放式评分准则(rubric),从格式、事实性、一致性、真实性和质量五个维度全面评估世界建模能力,深入考察模型的推理能力、领域知识以及长上下文处理水平。

在AgentWorldBench评测中,Qwen-AgentWorld-397B-A17B的整体模拟质量超越GPT-5.4、Claude Opus 4.8与Gemini 3.1 Pro。

Qwen-AgentWorld-397B-A17B在AgentWorldBench上取得最高的整体均分(58.71),超越GPT-5.4(58.25)及所有其他前沿模型。这一优势在Terminal和SWE两个领域最为显著,研究人员认为这是因为这两个领域的预测需要准确模拟代码执行状态和工具API行为。

在35B-A3B规模上,三阶段训练流水线将整体均分提升了8.66分,使Qwen-AgentWorld-35B-A3B的表现超过Claude Sonnet 4.6。这一提升在文本类和GUI类领域中均保持一致。


▲AgentWorldBench评测结果

三、涌现3种推理模式:自纠错、防信息泄露、多步因果推理

在整体分数的分析之外,研究人员还分析了4个文本类领域的129条思维链,发现3种涌现的推理模式。

自我修正:模型使用「Wait!」作为自我纠错的触发信号,以修正中间预测。在129个轮次中有1347次此类中断(平均每turn 10.4次),包括事实错误、知识边界或视角转换等情况。

信息泄漏防护:在搜索领域,模型已知智能体正在搜索的参考答案,当查询与答案无关时,模型通过确保摘要不会意外透露目标来防止泄漏。

多步因果推理:预测curl -s localhost:3000 python3 -m json.tool的输出需要一条6步推理链:Node.js缺失→服务器未启动→端口3000无监听→curl静默失败→空管道→json.tool抛出JSONDecodeError。


▲Qwen-AgentWorld的推理模式

结语:单一模型统一七大交互环境,语言世界建模或打开通用智能体新路径

Qwen-AgentWorld是一个原生语言世界模型,在单一模型中覆盖七大智能体交互领域,基于此研究人员探索了世界模型加强通用智能体的两种互补范式。

作为统一智能体基础模型,语言世界模型(LWM)的预训练可迁移至涵盖七个基准的多轮智能体任务,初步验证了语言世界模型能够作为构建更强智能体模型的基础。语言世界建模或开辟了一条互补的扩展路径,推动通用智能体超越真实环境交互的能力上限。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
詹姆斯前队友谈湖人顶薪签里夫斯:有点奇怪,防守端存在问题的人

詹姆斯前队友谈湖人顶薪签里夫斯:有点奇怪,防守端存在问题的人

好火子
2026-06-25 05:23:36
三大运营商终于作“死”了自己

三大运营商终于作“死”了自己

细雨中的呼喊
2026-06-10 23:49:50
悉尼妹火辣睡衣掀热潮,粉丝尖叫:太迷人了!

悉尼妹火辣睡衣掀热潮,粉丝尖叫:太迷人了!

浅遇时光
2026-06-24 18:26:07
他一野二号人物,保卫主席28年没当元帅,但儿子比元帅后代都厉害

他一野二号人物,保卫主席28年没当元帅,但儿子比元帅后代都厉害

莹莹的历史说
2026-06-25 02:45:51
美加墨世界杯最新9大超新星:18岁中场已是大师 20岁瑞士妖人进3球

美加墨世界杯最新9大超新星:18岁中场已是大师 20岁瑞士妖人进3球

仰卧撑FTUer
2026-06-25 06:27:04
在广东,2026高考多少分排名位次可以上华南理工大学?

在广东,2026高考多少分排名位次可以上华南理工大学?

户外阿毽
2026-06-25 00:56:04
内马尔替补出场!981天首次登场,四战世界杯,3届已造12球

内马尔替补出场!981天首次登场,四战世界杯,3届已造12球

奥拜尔
2026-06-25 07:44:03
针对巴拿马无端指责,中方阐明立场

针对巴拿马无端指责,中方阐明立场

环球时报国际
2026-06-24 17:57:34
李小冉没有网上夸的那么年轻漂亮一看就是5旬老太还没李心洁年轻

李小冉没有网上夸的那么年轻漂亮一看就是5旬老太还没李心洁年轻

手工制作阿歼
2026-06-25 00:05:44
宇树宣布大降价,开放现货销售!

宇树宣布大降价,开放现货销售!

每日经济新闻
2026-06-24 21:33:18
躺进半决赛!王欣瑜收3号种子因伤退赛大礼 第2次进草地赛四强

躺进半决赛!王欣瑜收3号种子因伤退赛大礼 第2次进草地赛四强

醉卧浮生
2026-06-25 00:26:07
苦熬5年,拿到4年1.85亿顶薪!里夫斯创造历史,湖人操作值不值?

苦熬5年,拿到4年1.85亿顶薪!里夫斯创造历史,湖人操作值不值?

萌兰聊个球
2026-06-25 07:21:45
德黑兰的扳手:为何让人讨厌

德黑兰的扳手:为何让人讨厌

民间胡扯老哥
2026-06-18 06:32:28
泽连斯基下最后通牒,卢卡申科突然宣布长期离境,白俄罗斯恐生变数

泽连斯基下最后通牒,卢卡申科突然宣布长期离境,白俄罗斯恐生变数

麓谷隐士
2026-06-25 03:06:01
详解尼克斯休赛季阵容名单 唐斯的大合同成为管理层最大问题

详解尼克斯休赛季阵容名单 唐斯的大合同成为管理层最大问题

篮球小烟花
2026-06-25 08:10:03
随着世界杯第二轮结束,金球奖概率更新:凯恩领跑,梅西升至第三

随着世界杯第二轮结束,金球奖概率更新:凯恩领跑,梅西升至第三

侧身凌空斩
2026-06-24 17:54:16
成都大爷强拽女孩社死!多官媒怒批,网友抵制举报,退休金恐难保

成都大爷强拽女孩社死!多官媒怒批,网友抵制举报,退休金恐难保

北纬的咖啡豆
2026-06-24 19:45:36
你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

你们都是什么时候对男女之事开窍的?网友:果然还是拦不住有心人

夜深爱杂谈
2026-02-21 21:37:02
上海女子在公司上厕所时闻到一股恶臭,当晚喉咙肿到没法吞口水,第二天确诊!医生紧急提醒→

上海女子在公司上厕所时闻到一股恶臭,当晚喉咙肿到没法吞口水,第二天确诊!医生紧急提醒→

新民晚报
2026-06-24 18:24:40
Windhorst:詹姆斯愿意和骑士签约,湖人愿与其先签后换得到艾伦

Windhorst:詹姆斯愿意和骑士签约,湖人愿与其先签后换得到艾伦

懂球帝
2026-06-25 00:46:06
2026-06-25 09:07:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
12114文章数 117112关注度
往期回顾 全部

科技要闻

盘后大涨16%!AI存储需求带飞美光业绩

头条要闻

知情人:日本驻华大使多次请求与中方会面 均未成功

头条要闻

知情人:日本驻华大使多次请求与中方会面 均未成功

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

美光,业绩、指引炸裂

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

手机
房产
教育
公开课
军事航空

手机要闻

iQOO 新机现身 Geekbench,天玑9500芯片加持

房产要闻

白鹅潭新增优质宅地!沙涌地块对望太古里,容积率仅 2.14

教育要闻

2026河南高考成绩查询渠道和重要时间节点一定要牢记!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗代表:霍尔木兹海峡已免费开放

无障碍浏览 进入关怀版