网易首页 > 网易号 > 正文 申请入驻

哥德堡大学团队重新定义AI交互:让大语言模型突破语言界限

0
分享至


这项由瑞典哥德堡大学(Chalmers University of Technology)和哥德堡大学(University of Gothenburg)的岳忠琪(Zhongqi Yue)和弗雷德里克·约翰松(Fredrik D. Johansson)领导,与SAP公司王维石(Weishi Wang)、丹尼尔·达尔迈尔(Daniel Dahlmeier)以及浙江大学詹云大川(Yundaichuan Zhan)、李俊城(Juncheng Li)等学者合作完成的研究,发表于2025年10月的人工智能顶级会议论文集。该研究提出了一种全新的ExpA(Expanded Action)框架和EARL(ExpA Reinforcement Learning)算法,首次让大语言模型能够直接与外部环境交互,而不是仅仅依靠文本描述。有兴趣深入了解的读者可以通过论文编号arXiv:2510.07581v2查询完整论文。

目前的大语言模型就像一个被关在图书馆里的博学者,虽然知识渊博,但想要操作外界的工具时,只能通过写纸条的方式来表达意图。比如当它需要进行数学计算时,必须写出"请帮我计算12+34"这样的文字指令,然后等待外部程序解析这些文字,再执行相应操作。这种方式不仅效率低下,还容易出错,就像隔着一层厚厚的玻璃与世界互动。

研究团队发现了这个根本性问题:现有的大语言模型将语言推理和环境操作混合在一起,导致模型既要思考问题,又要学会如何用特定的格式表达操作指令。这就好比让一个厨师在做菜的同时,还要学会用密码来告诉助手拿哪个调料,既增加了复杂度,又降低了效率。更重要的是,这种方式需要为每种新工具编写专门的解析程序,限制了模型的灵活性和扩展能力。

哥德堡大学的研究团队提出了一个革命性的解决方案:ExpA框架。这个框架的核心思想是让AI模型拥有两套完全不同的"行动能力"。第一套是传统的语言能力,用于思考和推理,就像人类的大脑思维活动。第二套则是全新的"直接行动能力",让模型能够像人类使用手脚一样,直接操控外部工具和环境。

ExpA框架的工作原理可以用一个生动的比喻来理解。传统的大语言模型就像一个只会写信的人,想要使用计算器时必须写信说"请帮我按1,再按+,再按2,再按等号"。而ExpA框架下的模型则像一个真正的人,既可以用大脑思考,也可以直接伸手按计算器上的按钮。当模型在语言环境中思考时,它会正常进行推理和分析。但当需要使用外部工具时,它可以发出一个"路由指令",直接切换到工具操作模式,然后像人类一样直接操控工具。

这种设计的巧妙之处在于完全分离了思考和行动两个过程。模型在思考时专心思考,不用担心如何表达操作指令;在操作工具时专心操作,不用将注意力分散到语言表达上。这就像让厨师专心做菜,让助手专心递工具,各司其职,效率自然大大提升。

然而,拥有新的行动能力还不够,关键是如何让模型学会在合适的时候使用这些能力。就像给一个人新的工具,他需要练习才能熟练使用。研究团队为此开发了EARL算法,这是一种专门的强化学习方法,帮助模型学会何时以及如何使用新的行动能力。

EARL算法的创新之处在于使用了"反事实学习"的策略。简单来说,就是让模型不仅要学会成功的经验,还要学会"如果当时我选择了另一种方法会怎样"。这就像一个学习下棋的人,不仅要记住获胜的棋局,还要思考"如果我刚才选择了另一步棋,结果会不会更好"。通过这种方式,模型能够更全面地探索各种可能性,发现那些容易被忽视但实际很有用的操作策略。

为了验证这个框架的有效性,研究团队设计了两套完全不同类型的测试任务。第一套是Calc-Bench测试,就像给AI一个功能完整的计算器,看它能否学会正确使用。这套测试包含了从简单的算术运算到复杂的数学推理等多种挑战。第二套是排序测试,更像一个智力游戏:给AI一堆看不见具体数值的物品,它只能通过"比较"和"交换"两种操作来将它们排序。

在Calc-Bench测试中,传统方法的表现就像一个不太熟练的计算器使用者,经常出现按错键或者不知道何时该使用计算器的情况。而使用ExpA框架的模型表现得像一个经验丰富的数学家,不仅能准确使用计算器,还能根据问题的复杂程度灵活决策。在最具挑战性的Countdown任务中,ExpA框架的成功率比传统方法高出了26.3%,这相当于从勉强及格提升到了优秀水平。

更令人惊喜的是排序测试的结果。在这个看似简单但实际极其复杂的任务中,ExpA框架不仅达到了完美的准确率,还自主发现了一种高效的排序算法。这个算法的效率甚至可以与经典的计算机排序算法相媲美,展现了AI系统的创造性学习能力。研究团队将这个AI发现的算法命名为EARL*,它的运行效率非常接近理论最优值。

这种创造性体现在算法的设计策略上。EARL*采用了一种"支点比较"的策略,首先选择一个元素作为参考点,然后依次与其他元素比较,根据比较结果构建排序关系,最后通过最少的交换次数完成排序。这种策略的优雅之处在于它能够根据比较结果动态调整后续的比较计划,避免不必要的重复比较。

研究团队还深入分析了ExpA框架成功的原因。他们发现,传统方法在处理复杂任务时容易陷入"语言混乱",即模型在思考问题的同时还要分心处理如何表达操作指令,导致两方面都做不好。而ExpA框架通过清晰的职责分离,让模型在语言推理时能够使用更多样化的"规划短语",比如"这个结果离目标还很远"或"让我们尝试不同的组合"等,显示出更强的逻辑思维能力。

从技术实现的角度来看,ExpA框架的设计非常巧妙。当模型需要从语言环境切换到工具操作环境时,系统会自动在对话历史中添加相应的描述信息,比如"开始使用计算器"。这样既保持了对话的连贯性,又明确标记了操作的边界。同时,新的操作能力通过扩展模型的"行动词汇表"来实现,这些新词汇的初始权重设置为与其对应描述词相同,确保模型能够快速适应新的操作方式。

研究团队还特别关注了模型的泛化能力,即学会使用一种工具后能否快速适应其他类似工具。实验结果显示,ExpA框架具有良好的迁移学习能力。当模型学会使用基础计算器后,面对科学计算器或其他数学工具时,能够快速掌握新功能,而不需要从零开始重新训练。

这项研究的意义远不止于技术层面的突破。它预示着AI系统与人类协作方式的根本性变革。在不久的将来,AI助手可能不再局限于回答问题和生成文本,而是能够直接帮助我们操作各种软件工具、控制智能设备,甚至协助完成复杂的创造性任务。

从实用性角度考虑,ExpA框架为AI应用开发者提供了一个全新的工具箱。开发者不再需要为每个新工具编写复杂的文本解析程序,只需要定义工具的基本操作接口,AI就能够学会使用。这大大降低了AI应用的开发难度,也提高了系统的可靠性和扩展性。

研究团队也坦诚地讨论了当前工作的局限性。由于计算资源的限制,他们的实验主要基于较小规模的模型(最大70亿参数),ExpA框架在更大规模模型上的表现还有待进一步验证。此外,当前的测试环境相对简单,如何在更复杂、更真实的环境中应用这个框架,仍然是一个开放性问题。

另一个值得关注的研究方向是如何优化新操作能力的初始化策略。目前的方法虽然有效,但在面对完全陌生的工具时可能需要较长的学习时间。研究团队正在探索更智能的初始化方法,希望能够让AI系统更快地适应全新的工具和环境。

展望未来,ExpA框架可能会成为下一代AI系统的标准配置。我们可以想象这样的场景:AI写作助手不仅能够生成文章,还能直接操作文档编辑软件进行排版;AI数据分析师不仅能够解读数据趋势,还能直接操作分析工具生成图表;AI设计助手不仅能够提供创意建议,还能直接使用设计软件实现想法。

这种技术进步也提出了新的思考题。当AI系统拥有直接操控工具的能力时,如何确保操作的安全性和可控性?如何在提高效率的同时避免过度依赖AI?这些问题需要技术专家、伦理学家和政策制定者共同探讨解决方案。

哥德堡大学这项研究的真正价值在于它开辟了一个全新的研究方向。ExpA框架不仅仅是一个技术改进,更是对AI系统能力边界的重新定义。它告诉我们,AI的未来不仅在于理解和生成语言,更在于与物理世界和数字世界的直接交互。这种交互能力的获得,标志着AI系统向真正的通用人工智能又迈进了重要一步。

说到底,这项研究为我们描绘了一个令人兴奋的未来图景:AI不再是被动的问答工具,而是主动的协作伙伴,能够理解我们的需求,并直接帮助我们完成各种任务。虽然这个未来还需要更多的技术突破和实践验证,但ExpA框架无疑为我们指明了正确的方向。对于那些关注AI技术发展趋势的读者来说,这项研究提供了宝贵的前瞻性见解,值得持续关注其后续发展。

Q&A

Q1:ExpA框架和传统大语言模型有什么本质区别?

A:传统大语言模型只能通过文本与外部工具交互,就像只会写纸条指挥别人操作。ExpA框架让AI拥有两套能力:既能用语言思考,也能直接操控工具,就像人类既能用大脑思考也能用手操作一样。

Q2:EARL算法的反事实学习是怎么工作的?

A:EARL算法让AI不仅学习成功经验,还会思考"如果当时选择另一种方法会怎样"。这就像下棋高手不仅记住获胜棋局,还会反思其他走法的可能性,从而更全面地探索各种策略。

Q3:ExpA框架在实际应用中有哪些优势?

A:ExpA框架最大的优势是效率和准确性的双重提升。在数学计算任务中成功率提高了26.3%,在排序任务中甚至发现了接近理论最优的算法。更重要的是,它为每种新工具都不需要编写专门的解析程序。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
22年过去了!曾承诺为张国荣终生不娶的唐鹤德,66岁现状如何?

22年过去了!曾承诺为张国荣终生不娶的唐鹤德,66岁现状如何?

小徐讲八卦
2026-02-23 15:49:27
今夜,直线暴跌!

今夜,直线暴跌!

中国基金报
2026-02-24 00:14:32
我备的年货被搬空,老公除夕夜掀了桌:这日子不过了!

我备的年货被搬空,老公除夕夜掀了桌:这日子不过了!

晓艾故事汇
2026-02-22 16:18:20
都在质疑是不是演的?看完小乩童下轿这30秒,评论区彻底安静了

都在质疑是不是演的?看完小乩童下轿这30秒,评论区彻底安静了

奇思妙想生活家
2026-02-22 12:38:41
毛主席在湖南接见韦国清,谈话时突然问:你和韦拔群是不是一家

毛主席在湖南接见韦国清,谈话时突然问:你和韦拔群是不是一家

大运河时空
2026-02-23 07:50:03
建筑高度从180米调整为249米!上海华贸中心项目,打造北京华贸升级版!全新效果图曝光!

建筑高度从180米调整为249米!上海华贸中心项目,打造北京华贸升级版!全新效果图曝光!

建筑师杂志
2026-02-23 13:02:16
“流水220万,利润0” 2026开年多了个新词——无利润繁荣

“流水220万,利润0” 2026开年多了个新词——无利润繁荣

餐饮界
2026-02-13 19:49:19
“土皇帝”禹作敏扬言:副总理随便当,部长以下不接待,结局如何

“土皇帝”禹作敏扬言:副总理随便当,部长以下不接待,结局如何

顾史
2026-02-23 12:28:26
一吃东西就胃胀,胃镜检查全做了,没毛病!杭州27岁姑娘崩溃:我到底得了什么病?

一吃东西就胃胀,胃镜检查全做了,没毛病!杭州27岁姑娘崩溃:我到底得了什么病?

都市快报橙柿互动
2026-02-24 00:24:48
什叶派领袖放话:若美军打伊朗,将号召圣战

什叶派领袖放话:若美军打伊朗,将号召圣战

桂系007
2026-02-23 23:48:28
上海高速,司机突然四肢瘫软,120因拥堵无法抵达

上海高速,司机突然四肢瘫软,120因拥堵无法抵达

看看新闻Knews
2026-02-23 19:44:06
林俊杰们用行动证明:男人的终极审美,真的很一致

林俊杰们用行动证明:男人的终极审美,真的很一致

橙星文娱
2026-01-03 21:41:06
《镖人》历史真相:知世郎为什么失败?

《镖人》历史真相:知世郎为什么失败?

最爱历史
2026-02-23 18:12:06
机枪封锁高速,火烧汽车飞机!墨西哥击毙最大毒枭引发多地混乱,贩毒集团恐“内战”

机枪封锁高速,火烧汽车飞机!墨西哥击毙最大毒枭引发多地混乱,贩毒集团恐“内战”

红星新闻
2026-02-23 13:56:15
3-0横扫晋级!中国女乒22岁第三巨头崛起:追赶孙颖莎王曼昱?

3-0横扫晋级!中国女乒22岁第三巨头崛起:追赶孙颖莎王曼昱?

李喜林篮球绝杀
2026-02-23 20:35:54
经济下行,2026年、2027年、2028年这三年,六大忠告要记牢!

经济下行,2026年、2027年、2028年这三年,六大忠告要记牢!

深度报
2026-01-20 22:16:48
堵车卷到极致!广东返程路上的“堵神”们,你们还好吗?

堵车卷到极致!广东返程路上的“堵神”们,你们还好吗?

芭比衣橱
2026-02-23 19:40:36
一顿吃上千元,4500万打掉亲骨肉,45岁阿娇求子无门 全因当年那事

一顿吃上千元,4500万打掉亲骨肉,45岁阿娇求子无门 全因当年那事

阿废冷眼观察所
2026-02-22 20:04:25
国防部直接把话挑明了,家里有满18岁男青年必须办的就是兵役登记

国防部直接把话挑明了,家里有满18岁男青年必须办的就是兵役登记

南权先生
2026-02-12 15:38:28
“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

“不好看,有点吓人!”艺考生晒堪比小燕子的大眼睛,引人不适

蝴蝶花雨话教育
2026-02-08 12:47:42
2026-02-24 08:35:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7289文章数 551关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

特朗普发起新一轮无差别攻击 外媒:中国巴西受益最大

头条要闻

特朗普发起新一轮无差别攻击 外媒:中国巴西受益最大

体育要闻

苏翊鸣总结米兰征程:我仍是那个热爱单板滑雪的少年

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

速览!假期这些大事影响节后市场

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

家居
房产
健康
教育
军事航空

家居要闻

本真栖居 爱暖伴流年

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

转头就晕的耳石症,能开车上班吗?

教育要闻

郑州3所优质高铁学校推荐!精准锁定目标

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版