网易首页 > 网易号 > 正文 申请入驻

清华大学突破:让AI学会自己"写操作说明书",比人工编程更聪明?

0
分享至


当你买回一台新的智能家电时,最让人头疼的往往不是如何使用它,而是如何让它真正"聪明"起来。现在,清华大学深圳国际研究生院和哈尔滨工业大学(深圳)的研究团队找到了一个令人惊喜的解决方案——让人工智能自己学会写"操作说明书"。这项发表于2026年3月的突破性研究(论文编号arXiv:2603.25723v1),提出了一种全新的概念叫做"自然语言智能体线束",简单说就是用普通话来指挥AI干活,而不是复杂的编程代码。

传统的AI系统就像一个需要严格按照程序运行的工厂流水线,每个步骤都必须用复杂的代码预先设定好。但现实世界的任务往往千变万化,就好比你想让机器人帮你做饭,它需要会选菜、洗菜、切菜、调味、掌握火候等等一系列复杂操作。以往的做法是工程师要为每个环节写大量代码,这些代码分散在各个角落,难以修改和重复使用,更别提让非专业人士理解和调整了。

研究团队的创新之处在于,他们开发了一套"智能线束运行时系统",可以直接理解和执行用自然语言写成的操作指南。这就好比原来需要用专业的电路图来控制机器,现在只需要用普通话写一份详细的操作手册,机器就能看懂并且执行。更重要的是,这套系统还具备了"文件备份状态模块",就像给AI配备了一个永不丢失的记事本,确保它在执行长期任务时不会忘记之前做过什么。

为了验证这个想法是否真的有效,研究团队选择了两个极具挑战性的测试场景。第一个是让AI解决软件开发中的实际问题,使用的是SWE-bench验证数据集,包含了125个真实的软件bug修复任务。第二个是让AI在真实的计算机环境中完成各种操作任务,使用OSWorld数据集的36个样本,涵盖了从文档编辑到系统配置等各种复杂操作。

在软件问题解决测试中,研究团队对比了几种不同的配置方案。完整的智能线束系统在TRAE方法下达到了74.4%的问题解决率,虽然数字上看起来与简化版本差异不大,但更重要的是系统行为发生了质的变化。完整系统使用了大量的工具调用和多层次的智能体协作,其中约90%的计算资源都用在了子任务的委派执行上,这表明系统真正实现了复杂任务的智能化分解和并行处理。

更有趣的是模块化测试结果。研究团队就像搭积木一样,从一个基础版本开始,逐步添加不同的功能模块。文件备份状态模块带来了最稳定的提升,在SWE测试中提高了1.6个百分点,在操作系统测试中更是提升了5.5个百分点。这个模块的作用就像给AI装上了"外置大脑",让它能够在长时间工作中保持记忆的连续性和状态的稳定性。

自进化模块展现了另一种有趣的能力提升。它不是让AI盲目地重复尝试,而是在每次失败后进行反思和调整,就像一个会学习的学生,从错误中总结经验,下次遇到类似问题时能够采取更好的策略。在一个典型的成功案例中,系统在第一次尝试修复代码时就设定了明确的成功标准,避免了无意义的重复尝试,最终成功解决了问题。

然而,并不是所有模块都带来了预期的改善。验证器模块和多候选搜索模块在某些情况下反而降低了性能。这个现象揭示了一个重要规律:更复杂的结构不一定意味着更好的结果。验证器有时会产生与最终评价标准不一致的判断,导致系统在错误的方向上越走越远。多候选搜索虽然让选择过程更加透明,但在当前的运行环境和资源限制下,额外的开销反而拖累了整体性能。

最引人关注的是代码到文本的迁移实验。研究团队将原本用传统编程方式实现的OS-Symphony系统重新用自然语言线束的方式实现,结果不仅没有性能损失,反而从30.4%提升到了47.2%的成功率。这个提升的背后隐藏着一个有趣的行为变化:传统系统更多依赖屏幕截图进行界面操作,经常在图形界面的焦点控制上遇到困难;而自然语言线束系统则更倾向于使用文件操作、命令行和系统级接口,这些方式虽然不够直观,但更加稳定可靠。

在一个典型的系统配置任务中,传统方法会反复尝试通过鼠标点击来调整界面设置,经常因为焦点丢失而失败;而新系统直接通过命令行修改配置文件,然后验证SSH服务是否正常启动,整个过程更加直接有效。在处理电子表格任务时,传统方法试图通过界面操作来编辑内容,容易在拖拽和对象绑定上出错;新系统则直接编辑文件格式,最后验证生成的文档是否符合要求。

这种行为差异反映了两种不同的问题解决哲学。传统的屏幕操作方式更接近人类的直觉,但在自动化执行中容易受到界面变化、时序问题等因素干扰。而基于文件和系统接口的操作方式虽然需要更深入的系统理解,但提供了更强的确定性保证。自然语言线束系统能够自然地选择后一种方式,说明它在某种程度上"理解"了任务的本质需求,而不是简单地模仿表面操作。

研究团队也诚实地承认了当前方法的局限性。自然语言相比代码确实缺乏精确性,某些依赖隐藏服务状态或专有调度器的复杂机制很难完全通过文本描述来复现。同时,强大的共享运行时可能会"吸收"一部分原本应该归属于线束文本的功能,这在评估时可能产生混淆。模块级的消融实验虽然提供了有价值的洞察,但并不等同于严格的因果识别,文本表示中可能存在指令显著性和提示长度等混淆因素。

尽管存在这些限制,这项研究的意义远超技术层面的改进。它代表了人工智能系统设计思路的一次重要转变:从"为AI编写程序"转向"让AI理解指令"。这种转变可能会大大降低构建智能系统的门槛,让更多没有编程背景的专业人士也能参与到AI系统的设计和优化中来。

更深层的影响在于,一旦线束逻辑变成了可显式表达的对象,它们就可以被搜索、组合、迁移和系统性地改进。这开辟了"线束表示科学"的可能性,让线束模块不再是围绕模型的偶然胶水代码,而是成为一流的研究对象。未来的研究可能会发展出自动化的线束搜索和优化技术,而不是依赖不透明的整体工程。

从更广阔的视角来看,这项研究呼应了软件工程中"声明式编程"的理念,但将其推向了一个新的高度。传统的声明式编程让程序员描述"要什么"而不是"怎么做",而自然语言线束更进一步,让非程序员也能用自然语言描述复杂的控制逻辑。这种进步可能会催生新的工作方式,专业领域的专家可以直接用自己熟悉的语言描述工作流程,而不需要依赖程序员进行翻译。

当然,自然语言控制也带来了新的风险和挑战。便携式的线束逻辑和脚本可能降低传播风险工作流的门槛,因为线束负责工具使用、文件处理和任务委派,它们可能引入提示注入、恶意工具嫁接或供应链污染等新的攻击面。因此,实际部署时需要结合来源追踪、审查机制、权限控制和沙箱隔离等安全措施。

说到底,这项研究最吸引人的地方在于它展示了人工智能系统可能的未来形态:不是替代人类思考,而是更好地理解和执行人类的意图。当AI能够读懂我们用自然语言写下的复杂指令时,人机协作就有了全新的可能性。我们可能正在见证一个转折点,从"训练AI适应我们的编程语言"转向"让AI适应我们的自然语言"。这不仅是技术进步,更是人机关系的一次深刻调整。

有兴趣深入了解这项研究技术细节的读者,可以通过论文编号arXiv:2603.25723v1查找完整的研究论文。这项工作为我们提供了一个令人兴奋的未来预览:也许不久的将来,操控复杂的AI系统会像写一份详细的工作指南一样简单直接。

Q&A

Q1:自然语言智能体线束是什么?

A:自然语言智能体线束是清华大学团队提出的一种新技术,它让AI系统能够直接理解和执行用普通话写成的操作指南,就像给机器写一份详细的工作手册,它就能看懂并执行,不再需要复杂的编程代码。

Q2:这个技术比传统编程有什么优势?

A:主要优势是大大降低了使用门槛,让没有编程背景的专业人士也能参与AI系统设计。同时这种方式更容易修改、重复使用和理解,就像修改一份工作指南比重写程序代码要简单得多。

Q3:这项技术的实际效果如何?

A:在软件问题解决测试中达到了74.4%的成功率,在操作系统任务测试中从30.4%提升到47.2%。更重要的是系统行为发生了质的变化,能够智能分解复杂任务并进行并行处理,约90%的计算资源用于子任务协作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
两性实情:不管你是否相信,女性过60岁基本都会有以下这7个现状

两性实情:不管你是否相信,女性过60岁基本都会有以下这7个现状

皓皓情感说
2026-04-07 07:35:08
海康威视辟谣“监控系统出现漏洞,总部300多人被带走”:公司不存在上述情况,目前在伊朗暂无相关业务

海康威视辟谣“监控系统出现漏洞,总部300多人被带走”:公司不存在上述情况,目前在伊朗暂无相关业务

潇湘晨报
2026-04-07 13:40:22
张本智和死死盯着世界杯!告诫松岛辉空:多打王楚钦 就知道怕了

张本智和死死盯着世界杯!告诫松岛辉空:多打王楚钦 就知道怕了

念洲
2026-04-07 09:38:23
《生化9》格蕾丝"大奶牛"MOD:极品大雷身材太火爆

《生化9》格蕾丝"大奶牛"MOD:极品大雷身材太火爆

游民星空
2026-04-05 12:06:10
海河牛奶直播间被指涉黄,市监部门:正在核实处理

海河牛奶直播间被指涉黄,市监部门:正在核实处理

现代快报
2026-04-07 21:17:05
张雪母亲是一名作家,发文讲述母子故事:抵押房子贷款55万帮儿子创业,张雪骑车撞人她赔了3万多

张雪母亲是一名作家,发文讲述母子故事:抵押房子贷款55万帮儿子创业,张雪骑车撞人她赔了3万多

极目新闻
2026-04-07 15:59:36
陈丽华去世48小时内现多件恶心事件

陈丽华去世48小时内现多件恶心事件

晓岇就是我
2026-04-07 20:20:37
拉斐尔在大都会,一场“至美诗篇”

拉斐尔在大都会,一场“至美诗篇”

澎湃新闻
2026-04-06 09:02:37
中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

中朝边境鸭绿江口现状:朝鲜领土正在不断增加,中方却在逐渐减少

普览
2026-02-26 21:29:19
周总理好心建议贺龙搬出中南海,贺龙:我没想到把我看成这种人

周总理好心建议贺龙搬出中南海,贺龙:我没想到把我看成这种人

北海史记
2026-04-07 17:16:32
果然阳谋在任何面前都是无敌的!网友:把水搅混了,也是一种智慧

果然阳谋在任何面前都是无敌的!网友:把水搅混了,也是一种智慧

夜深爱杂谈
2026-04-07 17:50:08
马桶前放垃圾桶:一个让肛肠科医生沉默的"神操作"

马桶前放垃圾桶:一个让肛肠科医生沉默的"神操作"

摸鱼算法
2026-04-06 00:15:55
复活节的沉默:英国王室信仰天平的倾斜与文明退却

复活节的沉默:英国王室信仰天平的倾斜与文明退却

斌闻天下
2026-04-07 07:30:03
中国正式向全世界宣告,解放军打日本不用获得任何人的同意授权

中国正式向全世界宣告,解放军打日本不用获得任何人的同意授权

纪中百大事
2026-04-07 14:49:55
卡斯尔19+11+13马刺战胜76人收获60胜,文班亚马17分伤退

卡斯尔19+11+13马刺战胜76人收获60胜,文班亚马17分伤退

湖人崛起
2026-04-07 10:32:12
特朗普“狼来了”闹剧暴露美霸权嘴脸

特朗普“狼来了”闹剧暴露美霸权嘴脸

烽火瞭望者
2026-04-07 06:46:55
A股:股民做好下车准备,主力彻底明牌,周三或迎新一轮震荡考验

A股:股民做好下车准备,主力彻底明牌,周三或迎新一轮震荡考验

云鹏叙事
2026-04-08 00:00:08
男人的生理需求能有多难忍?网友:我对我老公只有动物本能

男人的生理需求能有多难忍?网友:我对我老公只有动物本能

带你感受人间冷暖
2026-02-07 03:58:56
被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

被抓后家中查出20吨黄金?秘密移民国外?赵本山身上的谣言太离谱

涵豆说娱
2026-03-25 11:05:38
伊朗哈尔克岛遭袭,传出多次爆炸声,美股三大股指期货小幅走低 ,现均转跌

伊朗哈尔克岛遭袭,传出多次爆炸声,美股三大股指期货小幅走低 ,现均转跌

每日经济新闻
2026-04-07 23:59:36
2026-04-08 03:08:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7889文章数 558关注度
往期回顾 全部

科技要闻

满嘴谎言!OpenAI奥特曼黑料大起底

头条要闻

特朗普:伊朗人愿为自由承受轰炸

头条要闻

特朗普:伊朗人愿为自由承受轰炸

体育要闻

阿森纳客战葡体:哲凯赖什战旧主,马杜埃凯、厄德高首发

娱乐要闻

女首富陈丽华离世 被曝生前已分好遗产

财经要闻

10万亿财政转移支付,被谁拿走了?

汽车要闻

不止是大 极狐首款MPV问道V9静态体验

态度原创

健康
本地
手机
家居
军事航空

干细胞抗衰4大误区,90%的人都中招

本地新闻

跟着歌声游安徽,听古村回响

手机要闻

REDMI K90 Max突然官宣:天玑9500+165Hz高刷,K90至尊版也在路上

家居要闻

雅致惬意 感知生活之美

军事要闻

美军营救飞行员出动155架飞机

无障碍浏览 进入关怀版