网易首页 > 网易号 > 正文 申请入驻

Meta 推出强化学习新框架 SWEET-RL,让 AI 更懂人类意图

0
分享至

IT之家 3 月 24 日消息,科技媒体 marktechpost 昨日(3 月 23 日)发布博文,报道称 Meta AI 公司携手加州大学伯克利分校,合作推出名为 SWEET-RL 的强化学习框架,并发布了 CollaborativeAgentBench(ColBench)基准测试。

这一创新旨在提升大语言模型(LLMs)在多轮人机协作任务中的表现,特别是在后端编程和前端设计领域。SWEET-RL 通过逐轮优化决策,显著提高了模型的任务完成率,并展示了其在开源模型(如 Llama-3.1-8B)与专有模型(如 GPT-4o)竞争中的潜力。

项目背景

IT之家援引博文介绍,大语言模型正逐渐演变为能够执行复杂任务的自主智能体,但在多轮决策任务中仍面临挑战。

传统训练方法依赖于单轮反馈或模仿高概率行为,无法有效处理长期依赖和累积目标。这导致模型在协作场景中表现不佳,特别是在理解人类意图和多步骤推理方面。

SWEET-RL 的创新之处

SWEET-RL 采用非对称的“演员-评论家”结构,评论家在训练过程中可以访问额外信息(如正确答案),从而更精确地评估演员的决策。

该框架直接建模逐轮的优势函数,简化了信用分配过程,并与 LLMs 的预训练架构更好地对齐。实验结果显示,SWEET-RL 在后端编程任务中通过率提升至 48.0%,前端设计任务的余弦相似度达到 76.9%,显著优于其他多轮强化学习方法。

ColBench 基准测试

ColBench 包含超过 10000 个训练任务和 1000 个测试案例,模拟真实的人机协作场景。任务设计涵盖后端编程(如 Python 函数编写)和前端设计(如 HTML 代码生成),并限制每轮交互最多 10 次。

这一基准测试通过单元测试通过率(代码)和余弦相似度(设计)评估模型表现,为多轮任务提供了可靠的评估标准。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
湖北一学校家长给孩子送饭,就餐区用栏杆焊接遭质疑;教育局回应

湖北一学校家长给孩子送饭,就餐区用栏杆焊接遭质疑;教育局回应

潇湘晨报
2026-01-28 21:40:18
涉嫌严重违纪违法,郭伟被查

涉嫌严重违纪违法,郭伟被查

中国基金报
2026-01-28 21:25:46
孙涛含泪告别春晚!背后原因太扎心,此前落泪发布辟谣视频!

孙涛含泪告别春晚!背后原因太扎心,此前落泪发布辟谣视频!

乌娱子酱
2026-01-28 17:03:53
出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

出卖信任的刀,最终刺向了谁?汇丰银行为孟晚舟事件付出惊人代价

一曲一场談
2026-01-28 17:47:47
人神共愤!最新数据曝光,伊朗神权政府血债累累

人神共愤!最新数据曝光,伊朗神权政府血债累累

山间听雨
2026-01-27 20:05:08
足协明日发布假赌黑名单:曝北京国安名宿上榜,涉事俱乐部不降级

足协明日发布假赌黑名单:曝北京国安名宿上榜,涉事俱乐部不降级

姜大叔侃球
2026-01-28 19:29:09
1月28日俄乌最新:今年以来的最好的一个消息

1月28日俄乌最新:今年以来的最好的一个消息

西楼饮月
2026-01-28 20:02:37
“中方警告将报复”?外交部回应

“中方警告将报复”?外交部回应

环球时报国际
2026-01-28 16:38:25
网传哈工大的大瓜:疑一学生刀了俩老师,因不满严苛考勤、工时压榨

网传哈工大的大瓜:疑一学生刀了俩老师,因不满严苛考勤、工时压榨

小星球探索
2026-01-28 23:59:08
“想让孩子住亲戚家”引热议:你毫无边界的样子,真丑!

“想让孩子住亲戚家”引热议:你毫无边界的样子,真丑!

精读君
2026-01-27 10:10:03
美联储开始出手救市,银价深夜暴跌,日元大涨,美元危机彻底缓解

美联储开始出手救市,银价深夜暴跌,日元大涨,美元危机彻底缓解

一簌月光
2026-01-28 17:24:13
刘强东发放年货现场曝光,令人恶心的一幕出现,当场被人制止

刘强东发放年货现场曝光,令人恶心的一幕出现,当场被人制止

奇思妙想草叶君
2026-01-27 23:32:18
“尼帕病毒”来势汹汹!建议:1不喝、2不碰、1坚持,别马虎了!

“尼帕病毒”来势汹汹!建议:1不喝、2不碰、1坚持,别马虎了!

现代小青青慕慕
2026-01-28 08:54:56
这一次,哈梅内伊真的怕了!!!

这一次,哈梅内伊真的怕了!!!

山河路口
2026-01-27 12:42:53
退休老干部频繁“联系”女幼师,聊天记录被公开,网友看上瘾了

退休老干部频繁“联系”女幼师,聊天记录被公开,网友看上瘾了

乌娱子酱
2026-01-28 16:52:21
外媒:伊朗总统启动紧急措施“备战”

外媒:伊朗总统启动紧急措施“备战”

参考消息
2026-01-28 20:05:24
金融、电力、烟草、石油,多地对“近亲繁殖”出手了

金融、电力、烟草、石油,多地对“近亲繁殖”出手了

中国新闻周刊
2026-01-27 14:23:19
20年来首次!特朗普发现:亚洲刺头不止中国一个,美5年阴谋泡汤

20年来首次!特朗普发现:亚洲刺头不止中国一个,美5年阴谋泡汤

军机Talk
2026-01-28 14:26:48
中国甩出“王炸”!5000万人直接改命!已进入最后倒计时

中国甩出“王炸”!5000万人直接改命!已进入最后倒计时

毛豆论道
2026-01-27 17:51:43
上海一司机加油站加油遇溢油,静电起火致全身49%烧伤,加油站被判担责后上诉称无过错

上海一司机加油站加油遇溢油,静电起火致全身49%烧伤,加油站被判担责后上诉称无过错

大风新闻
2026-01-28 15:02:06
2026-01-29 00:31:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
327019文章数 606919关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

"盒马错发水仙"当事人索赔从375万降至48万:准备起诉

头条要闻

"盒马错发水仙"当事人索赔从375万降至48万:准备起诉

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

时尚
艺术
本地
数码
手机

想年前用3周“刷新”好状态?做第一点就够

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

本地新闻

云游中国|拨开云雾,巫山每帧都是航拍大片

数码要闻

电商店铺泄露AMD锐龙7 9850X3D处理器定价:3919~3999元

手机要闻

今年iPhone 18 Pro会涨价吗?分析师认为苹果将保持起售价稳定

无障碍浏览 进入关怀版