网易首页 > 网易号 > 正文 申请入驻

清华大学突破:让AI学会自己"写操作说明书"

0
分享至

来源:市场资讯

(来源:科技行者)


当你买回一台新的智能家电时,最让人头疼的往往不是如何使用它,而是如何让它真正"聪明"起来。现在,清华大学深圳国际研究生院和哈尔滨工业大学(深圳)的研究团队找到了一个令人惊喜的解决方案——让人工智能自己学会写"操作说明书"。这项发表于2026年3月的突破性研究(论文编号arXiv:2603.25723v1),提出了一种全新的概念叫做"自然语言智能体线束",简单说就是用普通话来指挥AI干活,而不是复杂的编程代码。

传统的AI系统就像一个需要严格按照程序运行的工厂流水线,每个步骤都必须用复杂的代码预先设定好。但现实世界的任务往往千变万化,就好比你想让机器人帮你做饭,它需要会选菜、洗菜、切菜、调味、掌握火候等等一系列复杂操作。以往的做法是工程师要为每个环节写大量代码,这些代码分散在各个角落,难以修改和重复使用,更别提让非专业人士理解和调整了。

研究团队的创新之处在于,他们开发了一套"智能线束运行时系统",可以直接理解和执行用自然语言写成的操作指南。这就好比原来需要用专业的电路图来控制机器,现在只需要用普通话写一份详细的操作手册,机器就能看懂并且执行。更重要的是,这套系统还具备了"文件备份状态模块",就像给AI配备了一个永不丢失的记事本,确保它在执行长期任务时不会忘记之前做过什么。

为了验证这个想法是否真的有效,研究团队选择了两个极具挑战性的测试场景。第一个是让AI解决软件开发中的实际问题,使用的是SWE-bench验证数据集,包含了125个真实的软件bug修复任务。第二个是让AI在真实的计算机环境中完成各种操作任务,使用OSWorld数据集的36个样本,涵盖了从文档编辑到系统配置等各种复杂操作。

在软件问题解决测试中,研究团队对比了几种不同的配置方案。完整的智能线束系统在TRAE方法下达到了74.4%的问题解决率,虽然数字上看起来与简化版本差异不大,但更重要的是系统行为发生了质的变化。完整系统使用了大量的工具调用和多层次的智能体协作,其中约90%的计算资源都用在了子任务的委派执行上,这表明系统真正实现了复杂任务的智能化分解和并行处理。

更有趣的是模块化测试结果。研究团队就像搭积木一样,从一个基础版本开始,逐步添加不同的功能模块。文件备份状态模块带来了最稳定的提升,在SWE测试中提高了1.6个百分点,在操作系统测试中更是提升了5.5个百分点。这个模块的作用就像给AI装上了"外置大脑",让它能够在长时间工作中保持记忆的连续性和状态的稳定性。

自进化模块展现了另一种有趣的能力提升。它不是让AI盲目地重复尝试,而是在每次失败后进行反思和调整,就像一个会学习的学生,从错误中总结经验,下次遇到类似问题时能够采取更好的策略。在一个典型的成功案例中,系统在第一次尝试修复代码时就设定了明确的成功标准,避免了无意义的重复尝试,最终成功解决了问题。

然而,并不是所有模块都带来了预期的改善。验证器模块和多候选搜索模块在某些情况下反而降低了性能。这个现象揭示了一个重要规律:更复杂的结构不一定意味着更好的结果。验证器有时会产生与最终评价标准不一致的判断,导致系统在错误的方向上越走越远。多候选搜索虽然让选择过程更加透明,但在当前的运行环境和资源限制下,额外的开销反而拖累了整体性能。

最引人关注的是代码到文本的迁移实验。研究团队将原本用传统编程方式实现的OS-Symphony系统重新用自然语言线束的方式实现,结果不仅没有性能损失,反而从30.4%提升到了47.2%的成功率。这个提升的背后隐藏着一个有趣的行为变化:传统系统更多依赖屏幕截图进行界面操作,经常在图形界面的焦点控制上遇到困难;而自然语言线束系统则更倾向于使用文件操作、命令行和系统级接口,这些方式虽然不够直观,但更加稳定可靠。

在一个典型的系统配置任务中,传统方法会反复尝试通过鼠标点击来调整界面设置,经常因为焦点丢失而失败;而新系统直接通过命令行修改配置文件,然后验证SSH服务是否正常启动,整个过程更加直接有效。在处理电子表格任务时,传统方法试图通过界面操作来编辑内容,容易在拖拽和对象绑定上出错;新系统则直接编辑文件格式,最后验证生成的文档是否符合要求。

这种行为差异反映了两种不同的问题解决哲学。传统的屏幕操作方式更接近人类的直觉,但在自动化执行中容易受到界面变化、时序问题等因素干扰。而基于文件和系统接口的操作方式虽然需要更深入的系统理解,但提供了更强的确定性保证。自然语言线束系统能够自然地选择后一种方式,说明它在某种程度上"理解"了任务的本质需求,而不是简单地模仿表面操作。

研究团队也诚实地承认了当前方法的局限性。自然语言相比代码确实缺乏精确性,某些依赖隐藏服务状态或专有调度器的复杂机制很难完全通过文本描述来复现。同时,强大的共享运行时可能会"吸收"一部分原本应该归属于线束文本的功能,这在评估时可能产生混淆。模块级的消融实验虽然提供了有价值的洞察,但并不等同于严格的因果识别,文本表示中可能存在指令显著性和提示长度等混淆因素。

尽管存在这些限制,这项研究的意义远超技术层面的改进。它代表了人工智能系统设计思路的一次重要转变:从"为AI编写程序"转向"让AI理解指令"。这种转变可能会大大降低构建智能系统的门槛,让更多没有编程背景的专业人士也能参与到AI系统的设计和优化中来。

更深层的影响在于,一旦线束逻辑变成了可显式表达的对象,它们就可以被搜索、组合、迁移和系统性地改进。这开辟了"线束表示科学"的可能性,让线束模块不再是围绕模型的偶然胶水代码,而是成为一流的研究对象。未来的研究可能会发展出自动化的线束搜索和优化技术,而不是依赖不透明的整体工程。

从更广阔的视角来看,这项研究呼应了软件工程中"声明式编程"的理念,但将其推向了一个新的高度。传统的声明式编程让程序员描述"要什么"而不是"怎么做",而自然语言线束更进一步,让非程序员也能用自然语言描述复杂的控制逻辑。这种进步可能会催生新的工作方式,专业领域的专家可以直接用自己熟悉的语言描述工作流程,而不需要依赖程序员进行翻译。

当然,自然语言控制也带来了新的风险和挑战。便携式的线束逻辑和脚本可能降低传播风险工作流的门槛,因为线束负责工具使用、文件处理和任务委派,它们可能引入提示注入、恶意工具嫁接或供应链污染等新的攻击面。因此,实际部署时需要结合来源追踪、审查机制、权限控制和沙箱隔离等安全措施。

说到底,这项研究最吸引人的地方在于它展示了人工智能系统可能的未来形态:不是替代人类思考,而是更好地理解和执行人类的意图。当AI能够读懂我们用自然语言写下的复杂指令时,人机协作就有了全新的可能性。我们可能正在见证一个转折点,从"训练AI适应我们的编程语言"转向"让AI适应我们的自然语言"。这不仅是技术进步,更是人机关系的一次深刻调整。

有兴趣深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2603.25723v1查找完整的研究论文。这项工作为我们提供了一个令人兴奋的未来预览:也许不久的将来,操控复杂的AI系统会像写一份详细的工作指南一样简单直接。

Q&A

Q1:自然语言智能体线束是什么?

A:自然语言智能体线束是清华大学团队提出的一种新技术,它让AI系统能够直接理解和执行用普通话写成的操作指南,就像给机器写一份详细的工作手册,它就能看懂并执行,不再需要复杂的编程代码。

Q2:这个技术比传统编程有什么优势?

A:主要优势是大大降低了使用门槛,让没有编程背景的专业人士也能参与AI系统设计。同时这种方式更容易修改、重复使用和理解,就像修改一份工作指南比重写程序代码要简单得多。

Q3:这项技术的实际效果如何?

A:在软件问题解决测试中达到了74.4%的成功率,在操作系统任务测试中从30.4%提升到47.2%。更重要的是系统行为发生了质的变化,能够智能分解复杂任务并进行并行处理,约90%的计算资源用于子任务协作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
跳水运动员全红婵涉嫌遭网暴,全红婵所在训练中心已向公安机关报警

跳水运动员全红婵涉嫌遭网暴,全红婵所在训练中心已向公安机关报警

界面新闻
2026-04-08 12:41:59
美国完全陷入中国的圈套!纽约时报:特朗普正在领导超级大国自杀

美国完全陷入中国的圈套!纽约时报:特朗普正在领导超级大国自杀

混沌录
2026-04-07 22:00:06
太可怜了!全红婵被霸凌,282人微信群聊天曝光,体育总局动真格

太可怜了!全红婵被霸凌,282人微信群聊天曝光,体育总局动真格

乌娱子酱
2026-04-08 14:10:45
大风315 | 在淘宝买卡萨帝冰箱,店家限时优惠又送高档电器,保温杯顶替冰箱发了货,冰箱没收到店铺已关闭

大风315 | 在淘宝买卡萨帝冰箱,店家限时优惠又送高档电器,保温杯顶替冰箱发了货,冰箱没收到店铺已关闭

大风新闻
2026-04-08 18:45:10
打了40天,没有输家?伊朗宣布大获全胜,特朗普宣布“完全胜利”

打了40天,没有输家?伊朗宣布大获全胜,特朗普宣布“完全胜利”

不掉线电波
2026-04-08 20:21:53
美国AI三巨头联手限制蒸馏:最便宜的那条路,被掐断了

美国AI三巨头联手限制蒸馏:最便宜的那条路,被掐断了

卢松松
2026-04-08 14:07:41
戏剧性转变:通牒到期,美伊停火

戏剧性转变:通牒到期,美伊停火

南风窗
2026-04-08 14:07:48
马上检查你家冰箱!23岁女孩开颅3次,元凶就在冰箱里,你家可能也有

马上检查你家冰箱!23岁女孩开颅3次,元凶就在冰箱里,你家可能也有

奇妙的本草
2026-04-08 12:01:43
有趣的医学案例:直肠射精!

有趣的医学案例:直肠射精!

黯泉
2026-04-07 21:58:25
脱口秀女演员思文官宣生子:正式介绍下,我儿子多多;此前发文与脱口秀演员程璐离婚

脱口秀女演员思文官宣生子:正式介绍下,我儿子多多;此前发文与脱口秀演员程璐离婚

极目新闻
2026-04-08 12:16:43
消失9年,芙蓉姐姐近况曝光:病中探望老友,衣着朴素身价过亿

消失9年,芙蓉姐姐近况曝光:病中探望老友,衣着朴素身价过亿

可爱小菜
2026-04-08 14:47:21
中俄投下反对票!傅聪:不给使用武力开通行证

中俄投下反对票!傅聪:不给使用武力开通行证

看看新闻Knews
2026-04-08 16:59:04
瑾汐和温州爸爸不再来往,爸爸账号清空,各自安好,大家各有说法

瑾汐和温州爸爸不再来往,爸爸账号清空,各自安好,大家各有说法

以茶带书
2026-04-08 16:34:40
巴塞罗那0-2马竞,赛后评分:不是马竞球员第1,巴塞罗那10号第1

巴塞罗那0-2马竞,赛后评分:不是马竞球员第1,巴塞罗那10号第1

侧身凌空斩
2026-04-09 04:56:44
2-0!夺冠大热门笑傲欧冠八强战 10.2亿豪门被按着打仅1射太狼狈

2-0!夺冠大热门笑傲欧冠八强战 10.2亿豪门被按着打仅1射太狼狈

狍子歪解体坛
2026-04-09 05:01:35
美伊停火后伊朗导弹射向以色列

美伊停火后伊朗导弹射向以色列

财联社
2026-04-08 08:27:09
上海市格致中学原校长柴志洪因病逝世,享年83岁

上海市格致中学原校长柴志洪因病逝世,享年83岁

澎湃新闻
2026-04-08 10:34:26
布伦特原油失守90美元/桶,为3月11日以来首次

布伦特原油失守90美元/桶,为3月11日以来首次

每日经济新闻
2026-04-08 20:10:10
郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

郑丽文的婚姻:女主外男主内,不生育孩子,事业理想置于家庭之上

芳芳历史烩
2026-04-08 16:28:15
随着马竞2-0掀翻巴萨,利物浦溃败,欧冠四强席位基本浮出水面

随着马竞2-0掀翻巴萨,利物浦溃败,欧冠四强席位基本浮出水面

阿心文史
2026-04-09 06:01:17
2026-04-09 06:43:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2800378文章数 6503关注度
往期回顾 全部

科技要闻

造出地表最强AI,却死活不给你用!

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

头条要闻

特朗普认为北约未通过“考验” 将考虑“退群”

体育要闻

40岁,但实力倒退12年

娱乐要闻

侯佩岑全家悉尼度假,一家四口幸福满溢

财经要闻

天津海河乳业回应直播间涉黄

汽车要闻

20万级满配华为全家桶 华境S是懂家庭的大六座

态度原创

本地
家居
旅游
教育
军事航空

本地新闻

跟着歌声游安徽,听古村回响

家居要闻

自在恣意 侘寂风别墅

旅游要闻

视频|入境游客眼中的上海长啥样?外国游客:“每个人一生都要来一次上海”

教育要闻

“新型啃老”席卷全国:孩子不工作也不伸手要钱,家长害怕毁一生

军事要闻

文化符号当“弹药” 美伊将信息战带入新阶段

无障碍浏览 进入关怀版