网易首页 > 网易号 > 正文 申请入驻

中美澳15位科学家定义AI新时代学科,揭示大模型存在根本性不对称

0
分享至

还记得安德烈·卡帕西(Andrej Karpathy)在上个月带火的上下文工程吗?他曾盛赞上下文工程“是一门精心设计、科学填充上下文窗口的精密艺术。”


(来源:X)

时隔不到一个月,上下文工程更是被一众科学家正式定义为一门学科。日前,来自中美澳累计 6 家高校科研机构的 15 名研究人员,通过分析 1400 多篇研究论文,首次将上下文工程作为一门正式学科加以全面探讨,并指出它能够系统性地设计、优化和管理大模型的信息有效载荷。


(来源:https://arxiv.org/pdf/2507.13334)

论文作者们分别来自中国科学院计算技术研究所、美国加利福尼亚大学默塞德分校、澳大利亚昆士兰大学、北京大学、清华大学和中国科学院大学。论文中,研究人员将上下文工程确立为开发复杂 AI 系统的关键基础,并指出这类复杂 AI 系统的特征在于能够有效整合外部知识、维持持久记忆,以及能与复杂环境进行动态交互。

本次研究的主要贡献在于提出了一个统一的分类框架,该框架将上下文工程技术分为基础组件和系统实现方法两大块。通过这一系统性的研究,他们得出了以下关键见解。

  • 第一,尽管大模型在理解复杂语境上有着出色表现,但是在生成同样复杂的输出时却存在局限性,而这两者之间存在根本性的不对称,这种理解与生成之间的差距是大模型领域面临的最关键挑战之一。
  • 第二,本次研究表明多种技术正在以日益复杂的方式进行协同融合,这种集成模式所产生的综合能力已经超越各独立组件的简单叠加。研究人员所观察到一个明显趋势是:模块化和组合性不断增强,使得架构能够灵活适应各种应用,同时还能保持系统的一致性。

总的来说,通过系统地分析 1400 多篇论文,本次综述论文不仅为该领域确立了技术路线图,还揭示了一个关键的研究空白:即模型能力之间存在根本性的不对称。尽管当前模型通过先进的上下文工程得到了增强,在理解复杂上下文方面也有着出色表现,但在生成同样复杂的长篇输出时却存在明显的局限性,而填补这一空白是未来领域内的首要任务。


(来源:https://arxiv.org/pdf/2507.13334)



将上下文工程进行概念化

很多人都知道,大模型的性能和效能从根本上取决于它们所接收的上下文。这种上下文——从简单的指令提示到复杂的外部知识库,是引导其行为、扩充其知识和释放其能力的主要机制。随着大模型从基本的“指令遵循系统”演变为复杂应用的“核心推理引擎”,设计和管理其信息载荷的方法也相应地演变为上下文工程这样一门正式学科。

当前,上下文工程领域正以爆炸性的速度扩展,催生了众多专业且分散的研究方向。如前所述,研究人员将这一领域进行了概念化,进而指出上下文工程由以下两个部分组成:基础组件和系统实现方法。

基础组件通过三个关键阶段构成了上下文工程的系统性流程:

1.第一个阶段是上下文检索与生成,包括基于提示的生成和外部知识获取;

2.第二个阶段是上下文处理,这涉及到长序列处理、自我完善机制和结构化信息整合;

3.第三个阶段是上下文管理,这涉及到内存层次结构、压缩技术和优化策略。

这些基础组件催生了更复杂的面向应用的实现方式,进一步地这些实现方式能够将大模型与外部现实联系起来。

系统实现方法主要包括:

1.第一种是高级检索增强生成,该技术目前已经发展为模块化、智能体驱动的架构,能被用于动态知识注入;

2.第二种是模拟人类认知能力以便实现持久信息保留的显性内存系统;

3.第三种工具集成推理,它能将模型从被动的文本生成器转变为能够动态利用工具和操纵环境的主动世界交互者。这种实现方式使模型能够通过函数调用机制、集成推理框架和复杂的环境交互能力,突破其固有的局限性。

4.第四种是基于智能体系统的完整生态系统,这种技术代表着目前上下文工程的巅峰技术,它能让智能体利用函数调用和工具集成推理来与世界进行交互,并能够通过依赖于复杂的智能体通信协议和上下文编排,进而在多智能体配置中实现复杂目标。


(来源:https://arxiv.org/pdf/2507.13334)



上下文工程的基础组件、系统实现和评估

研究人员指出,当前大模型领域的碎片化发展掩盖了技术之间的根本联系,也给业内人士带来了研究障碍和使用障碍。因此,该领域迫切需要一个统一的框架来系统性地整合这些技术,进而阐明其基本原理,以及揭示它们之间的相互依赖关系。

随着大模型从简单的指令遵循系统演变为复杂、多应用的核心推理引擎,与之交互的方法也必须随之发展。

研究人员认为,提示工程固然很重要,但是已经无法全面涵盖现代 AI 系统所需的信息载荷的设计、管理和优化。关于此,在本文开头的 X 贴文截图中卡帕西也表达了类似观点。原因在于,这些 AI 系统并非基于单一、静态的文本字符串进行操作,它们利用的是动态、结构化且多方面的信息流。为了弥补这一关键空白,本次综述论文首次针对大模型的上下文工程进行了全面且系统的回顾,同时引入并规范了上下文工程这一学科。

如前所述,上下文工程建立在三个基本组件之上,这些组件能够共同应对大模型中信息管理的核心挑战:

  • 上下文检索与生成,它通过提示工程、外部知识检索和动态上下文组装来获取适当的上下文信息;
  • 上下文处理,它通过长序列处理、自我优化机制和结构化数据整合,来针对获取的信息进行转换和优化;
  • 上下文管理,它通过解决基本约束、实施复杂的内存层次结构以及开发压缩技术,来处理上下文信息的有效组织和利用。

这些基础组件为所有上下文工程的实施奠定了理论和实践基础,并能形成一个全面的框架。其中,每个组件都能处理上下文工程流程的不同方面,同时各组件之间保持协同关系,从而实现全面的上下文优化和有效的上下文工程策略。

基于上下文工程的基础组件,研究人员探讨了复杂的系统实现方式,这些实现方式可以将上述组件整合到实用的智能架构中,同时这些实现代表了从理论框架到可部署系统的演进。

如前所述,研究人员提出了四类系统实现方式:

  • 第一类实现方式是检索增强生成系统,它通过模块化架构和图增强方法实现外部知识的整合。
  • 第二类实现方式是内存系统,它通过复杂的内存架构展示了持续的上下文管理,从而能够支持长期学习。
  • 第三类实现方式是工具集成推理,它通过函数调用和环境交互,将语言模型转化为能够与世界交互的实体。
  • 第四类实现方式是多智能体系统,它通过通信协议和编排机制呈现出协调一致的方法。

以上四类实现方式中的每一个都基于基础组件构建,同时解决了上下文利用中的特定挑战,展示了理论原则转化为实际系统的背后原理。


(来源:https://arxiv.org/pdf/2507.13334)



“AI 模型的性能本质上取决于上下文信息”

研究人员指出,当前上下文工程正处于一个关键的转折点,当前这种基础进展与新兴应用需求相融合的阶段,既创造了前所未有的创新机遇,也暴露出了一些必须在多个维度开展持续研究才能解决的根本性挑战。

随着该领域逐渐从孤立的组件开发向集成系统架构过渡,一些研究难题的复杂性也会呈现指数级的增长,因此需要采用跨学科的方法,将理论计算机科学、实用系统工程和特定领域专业知识结合起来。

基于此,研究人员通过本次论文为 AI 从业者提供了一个统一的框架。与此同时,研究人员通过本次研究所发现的大模型评估挑战,凸显了该领域对于全面评估框架的需求,这类全面评估框架需要能够捕捉上下文工程系统所展现出的复杂、动态的行为。因此,传统评估方法对于多组件集成、具有自适应行为且长期持续运行的大模型来说已经显得力不从心。但在这之中也蕴含着一些重大机遇,比如未来人们可以开发用于高效长上下文处理的下一代架构、构建智能上下文组装系统,以及打造多智能体的协调机制等。

总的来说,本次综述论文不仅呈现了该领域的一些现状,也为未来研究提供了路线图,并将上下文工程确立为一门独立学科,它的独立性体现在它拥有独属于自身的原则、方法和挑战,能够推动并支持具有上下文感知能力的AI 模型实现“负责任”的发展。

而随着大模型的不断发展,“AI 模型的性能本质上取决于上下文信息”的这一关于上下文工程的核心洞见,仍将在 AI 模型的发展中占据关键地位。未来,随着 AI 模型逐渐朝着复杂的多组件系统发展,上下文工程有望在 AI 发展中扮演日益核心的角色。而上下文工程的跨学科性质,即其涵盖计算机科学、认知科学、语言学以及特定领域专业知识的特点,也要求人们必须采取跨领域合作的方法来将 AI 之路走宽走远。

参考资料:

https://arxiv.org/pdf/2507.13334

https://x.com/karpathy

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
被俄影响上百年的蒙古国,突然选择“脱俄入中”,究竟有何目的?

被俄影响上百年的蒙古国,突然选择“脱俄入中”,究竟有何目的?

超人强动物俱乐部
2025-11-12 15:56:33
这一次当众落泪的陈芋汐,给全红婵提了个醒,原来周继红说的没错

这一次当众落泪的陈芋汐,给全红婵提了个醒,原来周继红说的没错

小鬼头体育
2025-11-08 01:47:10
赖清德喊话韩国瑜声援沈伯洋,蓝营回呛:关他什么事

赖清德喊话韩国瑜声援沈伯洋,蓝营回呛:关他什么事

海峡导报社
2025-11-11 21:31:02
17分钟视频后续来了!主要是这几点

17分钟视频后续来了!主要是这几点

魔都姐姐杂谈
2025-11-09 15:45:32
给《沉默的荣耀》演技最好8位演员排名:于和伟第2,第1实至名归

给《沉默的荣耀》演技最好8位演员排名:于和伟第2,第1实至名归

洲洲影视娱评
2025-10-07 12:13:20
80分钟!U22国足丢球,目前0比1落后越南

80分钟!U22国足丢球,目前0比1落后越南

极目新闻
2025-11-12 21:33:30
葡萄牙穷到什么程度?我住了8个月,有些尴尬的现实得说出来

葡萄牙穷到什么程度?我住了8个月,有些尴尬的现实得说出来

诗意世界
2025-11-06 10:27:22
国足新帅首次亮相!邵佳一空降成都,观战U22比赛,挑选新国脚

国足新帅首次亮相!邵佳一空降成都,观战U22比赛,挑选新国脚

小金体坛大视野
2025-11-12 20:50:35
总在凌晨3-5点醒来的人,并非睡不好,而是你的“前世”在求救

总在凌晨3-5点醒来的人,并非睡不好,而是你的“前世”在求救

古怪奇谈录
2025-11-06 14:50:51
知名车评人陈震驾驶小鹏X9复刻“劳斯莱斯闪灵事故”场景引争议!小鹏员工发文回应:证明中国车企在安全方面的领先实力

知名车评人陈震驾驶小鹏X9复刻“劳斯莱斯闪灵事故”场景引争议!小鹏员工发文回应:证明中国车企在安全方面的领先实力

和讯网
2025-11-12 12:02:49
研究发现:天冷坚持戴帽子的人,过不了几个月,身体会有4大变化

研究发现:天冷坚持戴帽子的人,过不了几个月,身体会有4大变化

新时代的两性情感
2025-11-12 16:21:46
六氟磷酸锂疯涨,带飞了谁的股价?

六氟磷酸锂疯涨,带飞了谁的股价?

新浪财经
2025-11-12 20:23:47
复合11年后,李嫣谢振轩联手,撕碎了王菲和谢霆锋仅剩的体面

复合11年后,李嫣谢振轩联手,撕碎了王菲和谢霆锋仅剩的体面

冷紫葉
2025-11-03 17:07:58
虽然毛主席享年83岁,保健医生却说:其实毛主席不具备长寿条件

虽然毛主席享年83岁,保健医生却说:其实毛主席不具备长寿条件

刘哥谈体育
2025-11-12 09:18:23
福建舰入列!搭载的歼15和歼35数量,比越南全国的四代机都多

福建舰入列!搭载的歼15和歼35数量,比越南全国的四代机都多

boss外传
2025-11-11 18:00:03
这一夜!辽宁、北京等各地球迷炸锅了!有不甘和遗憾,更有不服气

这一夜!辽宁、北京等各地球迷炸锅了!有不甘和遗憾,更有不服气

篮球国度
2025-11-12 15:07:52
从一场8∶0的足球赛,照见四川与江苏的终极差距

从一场8∶0的足球赛,照见四川与江苏的终极差距

城市研究室
2025-11-12 14:45:57
曾毓群再谈固态电池

曾毓群再谈固态电池

第一财经资讯
2025-11-12 15:49:50
被无数人吐槽的10个“蠢设计”,得知正确用法:哑巴不许当设计师

被无数人吐槽的10个“蠢设计”,得知正确用法:哑巴不许当设计师

Home范
2025-11-11 13:57:32
彭总视察哈军工,晚饭时看到一学员,便问陈赓:他有什么资格坐这

彭总视察哈军工,晚饭时看到一学员,便问陈赓:他有什么资格坐这

鹤羽说个事
2025-11-12 15:50:09
2025-11-12 22:15:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
15849文章数 514289关注度
往期回顾 全部

科技要闻

前阿里人亲述: “经济上行”期双11什么样

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

头条要闻

1家5口被邻居杀害:3岁孩子都没放过 行凶全程仅2分钟

体育要闻

消磨你上千小时的足球游戏,走过第20年

娱乐要闻

再王珞丹和白百何 明白两人"差别"在哪

财经要闻

段永平最新访谈:聊企业经营 投资理念

汽车要闻

7座皆独立座椅/新增5座版 体验第三代吉利豪越L

态度原创

亲子
本地
手机
家居
公开课

亲子要闻

秋冬咳嗽难受?这1止咳绝招,比吃药管用!

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

手机要闻

小米米家 App 安卓端推送 11.1.505.302 体验版,3D 家居视图上线

家居要闻

情感之所 生活教会设计

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版