网易首页 > 网易号 > 正文 申请入驻

6.4万star的开源智能体框架重构!OpenHands重大升级,叫板OpenAI

0
分享至

来源:市场资讯

(来源:机器之心Pro)


机器之心报道

编辑:Panda

刚刚,OpenHands 开发团队发布了一篇新论文,正式宣布广受欢迎的软件开发智能体框架 OpenHands (GitHub star 已超 6.4 万)中的智能体组件完成了架构重构,即OpenHands Software Agent SDK

这一轮重新设计改进巨大,也让 OpenHands 从 V0 进化到了 V1。包括:

该团队表示:「这些元素使得 OpenHands Software Agent SDK 能够为原型设计、解锁新型自定义应用以及大规模可靠部署智能体提供一个实用的基础。」


OpenHands V1 的四项设计原则

OpenHands 团队表示,OpenHands V0 最初设计为单体架构,即将智能体逻辑、评估和应用组合在同一个代码库中;这样做目的是为了实现快速原型设计和迭代,但这种设计在项目的发展中暴露出了许多短板,包括沙盒僵化、可变配置庞杂,以及研究与生产之间过度耦合。因此,全面的重构势在必行。


汲取了这些教训,OpenHands V1 引入了一个基于四项设计原则的新架构,这些原则直接解决了 V0 的局限性。具体来说,这些原则包括:

1、沙盒化应该是可选的,而非普遍适用的

V1 默认设置是在单个进程中统一智能体和工具的执行,这与 MCP 的假设一致。当需要隔离时,同一个栈可以被透明地容器化。沙盒化变成了可选的,从而在不牺牲安全性的前提下保持了灵活性。

2、默认无状态,状态的真值来源单一

V1 将所有智能体及其组件(工具、LLM 等)视作在构建时即被验证的、不可变的且可序列化的 Pydantic 模型。唯一可变的实体是会话状态,它是一个单一的、明确定义的真值来源(source of truth),用于跟踪正在进行的执行。这种设计将变化隔离在一个地方,实现了确定性重放、强一致性和稳定的长期恢复。

3、保持严格的相关项分离

V1 将智能体核心隔离成了「软件工程 SDK」。应用通过 SDK API 进行集成,使得研究可以独立于应用进行演进。

4、一切都应是可组合且可安全扩展的

V1 将可组合性作为两个层面上的首要设计目标。

在部署层面,其四个模块化包(SDK, Tools、Workspace 和 Agent Server)可以灵活组合,以支持本地、托管或容器化执行。

在能力层面,该 SDK 会暴露一个类型化的组件模型(工具、LLM、上下文等),让开发人员可以声明式地扩展或重新配置智能体,而无需触及核心。

OpenHands V1:一个完整的软件智能体生态系统

OpenHands V1 便是基于这些原则而生的,这是一个完整的软件智能体生态系统,包括 CLI 和 GUI 应用。它们构建在一个共享的基础上:OpenHands Software Agent SDK (图 1b)。

下图展示了一个极简示例:


该 SDK 定义了一个具有确定性重放 (deterministic replay) 功能的事件溯源 (event-sourced) 状态模型、一个用于智能体的不可变配置,以及一个集成了 MCP 的类型化工具系统。


其工作区抽象使得同一个智能体能够在本地运行以进行原型设计,或者在安全、容器化的环境中远程运行,而只需最少的代码更改。


与之前仅提供库的 SDK 不同,OpenHands 包含一个用于远程执行的内置 REST/WebSocket 服务器,以及一套用于人工审查和控制的交互式工作区界面 —— 一个基于浏览器的 VSCode IDE、VNC 桌面和持久化的 Chromium 浏览器。


该团队还系统地比较了其 SDK 与 OpenAI Agents SDK、Claude Agent SDK 和 Google ADK 的 31 个特性,发现尽管有 15 个特性与它们中的至少一个共享,但 OpenHands 的 SDK 独特地结合了16个额外特性,包括原生远程执行、带沙盒功能的生产服务器,以及跨越 100+ 供应商的模型无关的多 LLM 路由。



该 SDK 还增加了一个用于智能体操作的安全分析器、灵活的生命周期控制(暂停 / 恢复、子智能体委托、历史恢复等),以及用于保障生产可靠性的内置 QA (质量保证) 插桩(单元测试、基于 LLM 的集成测试和评估基准)。

OpenHands Software Agent SDK 已在 MIT 许可下完全开源。

可靠性与评估

该团队通过两个互补的过程评估了 OpenHands Agent SDK 的可靠性和性能:持续测试和基准评估。

持续测试流程结合了程序化测试和基于 LLM 的测试,并在每个拉取请求 (pull request) 上自动运行,且每天运行一次。它检查的是 SDK 在多种语言模型下是否表现一致,及早发现推理、工具使用和状态管理方面的回归问题。这些自动化测试每次完整运行的成本仅为 0.5–3 美元,并能在 5 分钟内完成。

而基准评估则是在标准化的智能体任务上衡量 SDK 的整体能力,从而帮助了解模型质量和系统性能。

持续质量保证

该 SDK 采用了三层测试策略来平衡覆盖范围、成本和深度:

集成测试覆盖多种基于场景的工作流(例如,文件操作、命令执行、git 操作和浏览),而示例测试(example tests)则会定期运行所有 SDK 示例(自定义工具、MCP 集成、持久化、异步执行、路由等),以确保端到端的可靠性。该测试套件会随着新智能体行为和故障模式的发现而不断扩展,从而提高覆盖范围和回归敏感性。

该团队还针对这些基于 LLM 的测试的按需执行进一步优化了 CI/CD 成本:集成测试针对高风险变更,示例测试覆盖面向用户的模块,而每日运行则跟踪整个代码库更新中的回归问题。

基准测试

该 SDK 为评估智能体能力的各种学术基准提供了内置支持。

如表 2 所示,该 SDK 在软件工程和通用智能体基准测试中表现得很有竞争力。


在衡量智能体在软件工程任务中能力的 SWE-Bench Verified 上,该 SDK 使用 Claude Sonnet 4.5 配合扩展思维实现了 72% 的解决率;在衡量智能体通用计算机任务解决能力的 GAIA 上,SDK 使用 Claude Sonnet 4.5 实现了 67.9% 的准确率,展现了有效的多步推理和工具使用能力。

此外,强大的开源编码模型 Qwen3 Coder 480B 实现了 41.21% 的分数。这些结果略优于 OpenHands-Versa 的结果,表明该 SDK 的架构并未牺牲智能体能力,并实现了与研究专精系统相媲美的性能。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

比缅北更恐怖!曾经的旅游胜地,如今黄赌毒俱全,性交易随处可见

来科点谱
2025-10-24 09:25:32
G7发表联合声明,不许中国援俄,不许对台动武,不许阻止稀土出口

G7发表联合声明,不许中国援俄,不许对台动武,不许阻止稀土出口

头条爆料007
2025-11-13 20:24:04
今年以来,中国已经垮塌了3座特大桥

今年以来,中国已经垮塌了3座特大桥

基本常识
2025-11-14 23:37:04
佘智江:出身湖南黑道,创建KK园区,他表哥成大佬司机娶小燕子

佘智江:出身湖南黑道,创建KK园区,他表哥成大佬司机娶小燕子

阿胡
2025-11-13 10:17:34
俄军大部队开入红军城

俄军大部队开入红军城

鲁中晨报
2025-11-12 19:55:06
奇葩一幕!四川全运女篮赛后拒绝接受采访,或许就是这两点原因!

奇葩一幕!四川全运女篮赛后拒绝接受采访,或许就是这两点原因!

田先生篮球
2025-11-14 08:35:50
沈伯洋跑到德国,叫嚣“永不退缩”,话音刚落,大陆已经重拳出击

沈伯洋跑到德国,叫嚣“永不退缩”,话音刚落,大陆已经重拳出击

起喜电影
2025-11-13 14:28:39
女篮全运最疯狂逆转!女篮霸主遭22分逆袭:末节被轰33比15输麻了

女篮全运最疯狂逆转!女篮霸主遭22分逆袭:末节被轰33比15输麻了

篮球快餐车
2025-11-14 07:23:52
可以批评清朝吗?

可以批评清朝吗?

一个坏土豆
2025-11-12 20:14:24
枸杞立大功!中科院发现护肝因子:6周改善肝损伤,助力肝脏减负

枸杞立大功!中科院发现护肝因子:6周改善肝损伤,助力肝脏减负

思思夜话
2025-11-13 17:27:27
内蒙古披露:张锐、张晓兵、高润喜受处分,被免去自治区党委委员

内蒙古披露:张锐、张晓兵、高润喜受处分,被免去自治区党委委员

澎湃新闻
2025-11-14 20:06:31
惊!苏州一快递员因送错件被杀,凶手还用脚踹了躺在地上的受害者

惊!苏州一快递员因送错件被杀,凶手还用脚踹了躺在地上的受害者

恪守原则和底线
2025-11-14 12:36:01
向佑彻底没救了!现身南昌酒吧,新交的女友又胖又颓,烟酒不离手

向佑彻底没救了!现身南昌酒吧,新交的女友又胖又颓,烟酒不离手

喜欢历史的阿繁
2025-11-12 01:28:08
曾医生日常容颜,没有美颜的样子才是真实的

曾医生日常容颜,没有美颜的样子才是真实的

诗意世界
2025-11-12 20:52:54
死得绝望!摇滚女歌手阿珍离世,长得漂亮!遭座椅挤压,肋骨断裂

死得绝望!摇滚女歌手阿珍离世,长得漂亮!遭座椅挤压,肋骨断裂

鋭娱之乐
2025-11-14 13:51:56
加州大学研究发现:有焦虑症的人,大脑中往往缺乏一种常见的营养素

加州大学研究发现:有焦虑症的人,大脑中往往缺乏一种常见的营养素

健康榨知机
2025-11-13 22:37:26
朱婷虚晃一枪,河南女排0-3负江苏队,任凭“小朱婷”抢走风头

朱婷虚晃一枪,河南女排0-3负江苏队,任凭“小朱婷”抢走风头

真理是我亲戚
2025-11-14 21:13:47
23℃“速降”0℃!入秋后首场寒潮周日抵沪

23℃“速降”0℃!入秋后首场寒潮周日抵沪

文汇报
2025-11-14 19:27:13
日本驻澳大利亚大使在社交平台发文称,侮辱日本等同于宣战!

日本驻澳大利亚大使在社交平台发文称,侮辱日本等同于宣战!

我心纵横天地间
2025-11-14 18:40:58
她是“央视一姐”,结婚12年选择离婚,坦然:婚姻给我的尽是痛苦

她是“央视一姐”,结婚12年选择离婚,坦然:婚姻给我的尽是痛苦

娱小余
2025-11-13 21:03:47
2025-11-15 01:39:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1391267文章数 4497关注度
往期回顾 全部

科技要闻

京东“失去的五年”后,找到新增长了吗?

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

头条要闻

怀疑19.9元"原切牛肉卷"是合成肉消费者送检 多方回应

体育要闻

7-0狂胜!15万人口小岛离世界杯只差1分

娱乐要闻

王家卫让古二替秦雯写剧情主线?

财经要闻

财政部:加强逆周期和跨周期调节

汽车要闻

小鹏X9超级增程动态评测全网首发 高速实测车内65分贝

态度原创

本地
教育
数码
游戏
房产

本地新闻

云游安徽 | 江声浩荡阅千年,文脉相承看芜湖

教育要闻

独家!小初高贯通部正式成立!朝阳家长的福气还在后头

数码要闻

小米发布Xiaomi Miloco,探索大模型驱动全屋智能生活

迟迟没有Switch2版!这三款任天堂第一方游戏太可惜

房产要闻

共话产业变革下的投资新思维与新机遇|蓝湾财富论坛精华

无障碍浏览 进入关怀版