网易首页 > 网易号 > 正文 申请入驻

阿里千问发布首个原生语言世界模型 Qwen-AgentWorld,可在七大领域中模拟智能体交互环境

0
分享至

6 月 24 日消息,阿里巴巴千问大模型今天正式发布 Qwen-AgentWorld,官方称这是首个原生语言世界模型,能够在七大领域中模拟智能体交互环境,提供两种规模(35B-A3B 与 397B-A17B)。

原生世界建模:环境建模从继续预训练(CPT)阶段起即为训练目标,贯穿 CPT → SFT → RL 全流程,而非对通用大语言模型的事后适配。

七大领域,一个模型:单一模型同时覆盖文本类环境(MCP、Search、Terminal、SWE)与 GUI 类环境(Web、OS、Android),实现跨领域知识迁移。

同步发布的还有 AgentWorldBench—— 覆盖七大领域的语言世界模型评测基准,每条测试样本均配备真实环境执行所得的真实环境观测数据。模型与评测基准可从 Hugging Face 和 ModelScope 获取。

IT之家附官方介绍如下:

Qwen-AgentWorld 代表了我们的核心探索:基于语言模型的世界建模,能否进一步拓展通用智能体能力的边界。

我们从两个方向探索如何实现语言世界建模,以及如何将其应用于推进通用智能体:

首先,我们构建了智能体环境模拟的基础模型:Qwen-AgentWorld 是首个在单一模型中覆盖七大智能体交互领域(MCP、Search、Terminal、SWE、Web、OS、Android)的语言世界模型,基于超过 1000 万条真实环境交互轨迹,经由 CPT → SFT → RL 三阶段训练而成。在 AgentWorldBench 评测中,Qwen-AgentWorld-397B-A17B 取得了最高的整体模拟质量,超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。

其次,我们探讨世界建模在智能体训练中的作用,并通过两种互补范式加以验证:作为解耦的环境模拟器,它为智能体强化学习提供了更优的可扩展性与可控性 —— 可控的模拟 RL 能够以真实环境无法实现的方式塑造智能体行为,且显著优于仅在真实环境中训练的 RL;作为统一的智能体基础模型,LWM 预热训练可有效迁移至涵盖七个基准(其中三个完全未出现在训练集中)的多轮智能体任务,且无需在智能体任务上进行任何 RL 微调,初步验证了语言世界模型能够作为构建更强智能体模型的基础。

通过三阶段训练范式 —— 持续预训练(CPT)注入环境知识、监督微调(SFT)激活下一状态预测推理、强化学习(RL)打磨模拟真实性 —— 自底向上逐步构建世界建模能力。我们探索了世界模型赋能通用智能体的两种互补范式:作为解耦的环境模拟器,我们在 Tool Decathlon、MCPMark 和 WideSearch 上验证了可控模拟的有效性,其表现超越了无控模拟与真实环境训练;作为统一智能体基础模型,语言世界模型(LWM)的预热训练可迁移至涵盖七个基准(其中三个完全属于域外)的多轮智能体任务,初步验证了语言世界模型能够作为构建更强智能体模型的基础。语言世界建模开辟了一条互补的扩展路径,使通用智能体的能力边界得以突破真实环境交互所能提供的上限。

AgentWorldBench 已在 Hugging Face 上发布,以按领域划分的 JSONL 文件形式提供,每个文件包含来自真实环境的交互轨迹及对应的真实观测数据。

本文源自:IT之家

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
我国的老朋友叶利钦:归还大片领土,却被俄罗斯人视为罪人!

我国的老朋友叶利钦:归还大片领土,却被俄罗斯人视为罪人!

抽象派大师
2026-06-30 01:16:43
“走个面儿”风波持续发酵!韩红诚恳道歉,罗永浩的评价一针见血

“走个面儿”风波持续发酵!韩红诚恳道歉,罗永浩的评价一针见血

叨唠
2026-07-01 04:16:43
Shams:詹姆斯愿底薪加盟争冠队 详解8大潜在下家勇骑热领衔

Shams:詹姆斯愿底薪加盟争冠队 详解8大潜在下家勇骑热领衔

醉卧浮生
2026-07-02 09:33:18
央媒,集体放弃施琅?

央媒,集体放弃施琅?

人间颂
2026-07-01 12:10:26
太丢人?世界杯头号内讧队又内讧:队长和前锋当场吵架 卢卡库劝架

太丢人?世界杯头号内讧队又内讧:队长和前锋当场吵架 卢卡库劝架

风过乡
2026-07-02 06:01:55
王晶没说谎,58岁久居日本农村的郑伊健,印证了他的评价

王晶没说谎,58岁久居日本农村的郑伊健,印证了他的评价

陈意小可爱
2026-06-20 15:03:28
网红专拍国内黑人留学生,几乎每人都有女友,都是中国女大学生

网红专拍国内黑人留学生,几乎每人都有女友,都是中国女大学生

新游戏大妹子
2026-07-01 12:44:20
​迈阿密静候梅西登场, 阿根廷球迷已占领佛罗里达

​迈阿密静候梅西登场, 阿根廷球迷已占领佛罗里达

足球推文C
2026-07-02 09:39:22
原来医护工作者不吃这些东西,真不是迷信,网友:芒果真不能吃!

原来医护工作者不吃这些东西,真不是迷信,网友:芒果真不能吃!

另子维爱读史
2026-07-01 23:26:24
绿源电动车旗舰店被指擦边营销:多条视频已删除 客服致歉

绿源电动车旗舰店被指擦边营销:多条视频已删除 客服致歉

中国能源网
2026-06-30 18:35:06
从“交作业”到“真享受”:找准这三个G点,高潮自然就来了!

从“交作业”到“真享受”:找准这三个G点,高潮自然就来了!

樱桃小丸子1987
2026-06-17 15:14:23
重庆荒山上发现大量废弃电车,整整齐齐停满山坡,到底是什么原因

重庆荒山上发现大量废弃电车,整整齐齐停满山坡,到底是什么原因

混沌录
2026-07-01 18:31:18
英媒:若击败民主刚果,英格兰通往争冠的路线是这样的

英媒:若击败民主刚果,英格兰通往争冠的路线是这样的

热血体育社
2026-07-02 01:31:56
明天世界杯3场前瞻:西班牙别急着吹,葡萄牙要防加时

明天世界杯3场前瞻:西班牙别急着吹,葡萄牙要防加时

宝哥精彩赛事
2026-07-02 12:10:23
党龄满50年老党员,每月补贴多少?3步自查分三类

党龄满50年老党员,每月补贴多少?3步自查分三类

王二哥老搞笑
2026-07-01 16:33:24
3-1,3-1!WTT美国大满贯战报:国乒双打两连胜,王曼昱走出低谷

3-1,3-1!WTT美国大满贯战报:国乒双打两连胜,王曼昱走出低谷

顺静自然
2026-07-02 14:17:20
为去中国化,多年前韩国把“汉城”改名首尔,如今他们后悔莫及

为去中国化,多年前韩国把“汉城”改名首尔,如今他们后悔莫及

抽象派大师
2026-07-02 04:01:17
直线跳水!日本股市跌超1300点,韩国综指瞬间暴跌超500点,触发熔断!三星电子跌超7%,SK海力士跌超8%

直线跳水!日本股市跌超1300点,韩国综指瞬间暴跌超500点,触发熔断!三星电子跌超7%,SK海力士跌超8%

每日经济新闻
2026-07-02 10:56:07
Shams:湖人先签后换4年1.3亿美元得到凯斯勒,送出两首轮+两首轮互换

Shams:湖人先签后换4年1.3亿美元得到凯斯勒,送出两首轮+两首轮互换

懂球帝
2026-07-01 23:55:26
调查发现:喜欢锻炼的人,患脑梗概率,比久坐不动的人高10倍不止

调查发现:喜欢锻炼的人,患脑梗概率,比久坐不动的人高10倍不止

重庆头条官方
2026-06-30 10:33:35
2026-07-02 14:47:00
金融界 incentive-icons
金融界
投资者信赖的财经金融门户网站
9194706文章数 487630关注度
往期回顾 全部

科技要闻

奥特曼的新算盘:给白宫5%股权 换政策绿灯

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

头条要闻

中国超级计算机时隔9年重回世界第一 中方亮出底牌

体育要闻

世界杯硬核球迷,把自己变成了雕像

娱乐要闻

霍震霆回应霍启山娜然结婚传闻

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

小鹏MONA L03 智能化水平拉满 还有玩法多样的巧思大空间

态度原创

旅游
健康
时尚
本地
公开课

旅游要闻

机票走低、小城走热,多重客流撬动暑期文旅全面升温

这4类消化病患者 吃粘食管住嘴

月入3万,时代红利砸向文科生

本地新闻

这场穿越酉阳的光影之旅,张张都是壁纸!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版