网易首页 > 网易号 > 正文 申请入驻

中美澳15位科学家定义AI新时代学科,揭示大模型存在根本性不对称

0
分享至

还记得安德烈·卡帕西(Andrej Karpathy)在上个月带火的上下文工程吗?他曾盛赞上下文工程“是一门精心设计、科学填充上下文窗口的精密艺术。”

时隔不到一个月,上下文工程更是被一众科学家正式定义为一门学科。日前,来自中美澳累计 6 家高校科研机构的 15 名研究人员,通过分析 1400 多篇研究论文,首次将上下文工程作为一门正式学科加以全面探讨,并指出它能够系统性地设计、优化和管理大模型的信息有效载荷。

论文作者们分别来自中国科学院计算技术研究所、美国加利福尼亚大学默塞德分校、澳大利亚昆士兰大学、北京大学、清华大学和中国科学院大学。论文中,研究人员将上下文工程确立为开发复杂 AI 系统的关键基础,并指出这类复杂 AI 系统的特征在于能够有效整合外部知识、维持持久记忆,以及能与复杂环境进行动态交互。

本次研究的主要贡献在于提出了一个统一的分类框架,该框架将上下文工程技术分为基础组件和系统实现方法两大块。通过这一系统性的研究,他们得出了以下关键见解。

  • 第一,尽管大模型在理解复杂语境上有着出色表现,但是在生成同样复杂的输出时却存在局限性,而这两者之间存在根本性的不对称,这种理解与生成之间的差距是大模型领域面临的最关键挑战之一。
  • 第二,本次研究表明多种技术正在以日益复杂的方式进行协同融合,这种集成模式所产生的综合能力已经超越各独立组件的简单叠加。研究人员所观察到一个明显趋势是:模块化和组合性不断增强,使得架构能够灵活适应各种应用,同时还能保持系统的一致性。

总的来说,通过系统地分析 1400 多篇论文,本次综述论文不仅为该领域确立了技术路线图,还揭示了一个关键的研究空白:即模型能力之间存在根本性的不对称。尽管当前模型通过先进的上下文工程得到了增强,在理解复杂上下文方面也有着出色表现,但在生成同样复杂的长篇输出时却存在明显的局限性,而填补这一空白是未来领域内的首要任务。

将上下文工程进行概念化

很多人都知道,大模型的性能和效能从根本上取决于它们所接收的上下文。这种上下文——从简单的指令提示到复杂的外部知识库,是引导其行为、扩充其知识和释放其能力的主要机制。随着大模型从基本的“指令遵循系统”演变为复杂应用的“核心推理引擎”,设计和管理其信息载荷的方法也相应地演变为上下文工程这样一门正式学科。

当前,上下文工程领域正以爆炸性的速度扩展,催生了众多专业且分散的研究方向。如前所述,研究人员将这一领域进行了概念化,进而指出上下文工程由以下两个部分组成:基础组件和系统实现方法。

基础组件通过三个关键阶段构成了上下文工程的系统性流程:

1.第一个阶段是上下文检索与生成,包括基于提示的生成和外部知识获取;

2.第二个阶段是上下文处理,这涉及到长序列处理、自我完善机制和结构化信息整合;

3.第三个阶段是上下文管理,这涉及到内存层次结构、压缩技术和优化策略。

这些基础组件催生了更复杂的面向应用的实现方式,进一步地这些实现方式能够将大模型与外部现实联系起来。

系统实现方法主要包括:

1.第一种是高级检索增强生成,该技术目前已经发展为模块化、智能体驱动的架构,能被用于动态知识注入;

2.第二种是模拟人类认知能力以便实现持久信息保留的显性内存系统;

3.第三种工具集成推理,它能将模型从被动的文本生成器转变为能够动态利用工具和操纵环境的主动世界交互者。这种实现方式使模型能够通过函数调用机制、集成推理框架和复杂的环境交互能力,突破其固有的局限性。

4.第四种是基于智能体系统的完整生态系统,这种技术代表着目前上下文工程的巅峰技术,它能让智能体利用函数调用和工具集成推理来与世界进行交互,并能够通过依赖于复杂的智能体通信协议和上下文编排,进而在多智能体配置中实现复杂目标。

上下文工程的基础组件、系统实现和评估

研究人员指出,当前大模型领域的碎片化发展掩盖了技术之间的根本联系,也给业内人士带来了研究障碍和使用障碍。因此,该领域迫切需要一个统一的框架来系统性地整合这些技术,进而阐明其基本原理,以及揭示它们之间的相互依赖关系。

随着大模型从简单的指令遵循系统演变为复杂、多应用的核心推理引擎,与之交互的方法也必须随之发展。

研究人员认为,提示工程固然很重要,但是已经无法全面涵盖现代 AI 系统所需的信息载荷的设计、管理和优化。关于此,在本文开头的 X 贴文截图中卡帕西也表达了类似观点。原因在于,这些 AI 系统并非基于单一、静态的文本字符串进行操作,它们利用的是动态、结构化且多方面的信息流。为了弥补这一关键空白,本次综述论文首次针对大模型的上下文工程进行了全面且系统的回顾,同时引入并规范了上下文工程这一学科。

如前所述,上下文工程建立在三个基本组件之上,这些组件能够共同应对大模型中信息管理的核心挑战:

  • 上下文检索与生成,它通过提示工程、外部知识检索和动态上下文组装来获取适当的上下文信息;
  • 上下文处理,它通过长序列处理、自我优化机制和结构化数据整合,来针对获取的信息进行转换和优化;
  • 上下文管理,它通过解决基本约束、实施复杂的内存层次结构以及开发压缩技术,来处理上下文信息的有效组织和利用。

这些基础组件为所有上下文工程的实施奠定了理论和实践基础,并能形成一个全面的框架。其中,每个组件都能处理上下文工程流程的不同方面,同时各组件之间保持协同关系,从而实现全面的上下文优化和有效的上下文工程策略。

基于上下文工程的基础组件,研究人员探讨了复杂的系统实现方式,这些实现方式可以将上述组件整合到实用的智能架构中,同时这些实现代表了从理论框架到可部署系统的演进。

如前所述,研究人员提出了四类系统实现方式:

  • 第一类实现方式是检索增强生成系统,它通过模块化架构和图增强方法实现外部知识的整合。
  • 第二类实现方式是内存系统,它通过复杂的内存架构展示了持续的上下文管理,从而能够支持长期学习。
  • 第三类实现方式是工具集成推理,它通过函数调用和环境交互,将语言模型转化为能够与世界交互的实体。
  • 第四类实现方式是多智能体系统,它通过通信协议和编排机制呈现出协调一致的方法。

以上四类实现方式中的每一个都基于基础组件构建,同时解决了上下文利用中的特定挑战,展示了理论原则转化为实际系统的背后原理。

“AI 模型的性能本质上取决于上下文信息”

研究人员指出,当前上下文工程正处于一个关键的转折点,当前这种基础进展与新兴应用需求相融合的阶段,既创造了前所未有的创新机遇,也暴露出了一些必须在多个维度开展持续研究才能解决的根本性挑战。

随着该领域逐渐从孤立的组件开发向集成系统架构过渡,一些研究难题的复杂性也会呈现指数级的增长,因此需要采用跨学科的方法,将理论计算机科学、实用系统工程和特定领域专业知识结合起来。

基于此,研究人员通过本次论文为 AI 从业者提供了一个统一的框架。与此同时,研究人员通过本次研究所发现的大模型评估挑战,凸显了该领域对于全面评估框架的需求,这类全面评估框架需要能够捕捉上下文工程系统所展现出的复杂、动态的行为。因此,传统评估方法对于多组件集成、具有自适应行为且长期持续运行的大模型来说已经显得力不从心。但在这之中也蕴含着一些重大机遇,比如未来人们可以开发用于高效长上下文处理的下一代架构、构建智能上下文组装系统,以及打造多智能体的协调机制等。

总的来说,本次综述论文不仅呈现了该领域的一些现状,也为未来研究提供了路线图,并将上下文工程确立为一门独立学科,它的独立性体现在它拥有独属于自身的原则、方法和挑战,能够推动并支持具有上下文感知能力的AI 模型实现“负责任”的发展。

而随着大模型的不断发展,“AI 模型的性能本质上取决于上下文信息”的这一关于上下文工程的核心洞见,仍将在 AI 模型的发展中占据关键地位。未来,随着 AI 模型逐渐朝着复杂的多组件系统发展,上下文工程有望在 AI 发展中扮演日益核心的角色。而上下文工程的跨学科性质,即其涵盖计算机科学、认知科学、语言学以及特定领域专业知识的特点,也要求人们必须采取跨领域合作的方法来将 AI 之路走宽走远。

参考资料:

https://arxiv.org/pdf/2507.13334

https://x.com/karpathy

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
受权发布|中华人民共和国国务院令  第833号

受权发布|中华人民共和国国务院令  第833号

新华社
2026-03-26 17:03:04
Manus的两名联合创始人被告知不要离开中国

Manus的两名联合创始人被告知不要离开中国

新浪财经
2026-03-26 13:50:59
我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

我有一个朋友在张雪峰公司上班他说张雪峰根本不是大家看到的样子

乐悠悠娱乐
2026-03-26 10:27:07
演员张晋曝突发心脏病,血管堵塞80%!蔡少芬痛哭:我要成寡妇了?

演员张晋曝突发心脏病,血管堵塞80%!蔡少芬痛哭:我要成寡妇了?

小椰的奶奶
2026-03-26 15:15:39
中国买了欧洲1000亿人民币的飞机:东航向空客购买101架A320

中国买了欧洲1000亿人民币的飞机:东航向空客购买101架A320

观察者网
2026-03-25 18:00:06
伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

伊朗战争还将持续多久?据传特朗普希望4-6周内终结战事

财联社
2026-03-26 18:29:05
张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

张雪峰被骂8年,走后全网才发现:他说的5句话是给普通人的保命符

奇思妙想草叶君
2026-03-25 13:22:05
伊朗称正在搜捕逃亡美军

伊朗称正在搜捕逃亡美军

界面新闻
2026-03-25 23:21:14
伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

伊朗或开辟新战线!伊朗外长:霍尔木兹海峡只对敌人关闭,中国、俄罗斯、巴基斯坦、伊拉克、印度、孟加拉国等国船只都安全通过了

每日经济新闻
2026-03-26 09:53:07
勇敢发声!科威特记者联合国痛批“反以仪式”

勇敢发声!科威特记者联合国痛批“反以仪式”

Nee看
2026-03-26 14:15:21
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

因祸得福!烧129年的地下火被灭,新疆凭空多了个“金饭碗”

刘蕳爱下厨
2026-03-24 17:29:01
砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

砸6700亿建雄安,面积抵3个纽约,如今究竟咋样了?

娱乐圈的笔娱君
2026-03-26 12:15:32
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
中共中央批准,开除刘慧党籍

中共中央批准,开除刘慧党籍

新京报
2026-03-26 17:14:17
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

想拿中国尿素救春耕?先把欠中企的百亿欠款还了!否则一粒不售

过期少女致幻录
2026-03-26 11:44:43
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

坚决反对中国任何城市申办奥运会,国际奥委会这次怕是真失算了

南权先生
2026-03-25 15:25:11
黎真主党导弹袭击以国防部及军营

黎真主党导弹袭击以国防部及军营

北青网-北京青年报
2026-03-26 10:19:17
2026-03-26 18:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16488文章数 514797关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

头条要闻

原正部级刘慧被开除党籍:结交政治骗子 匿名诬告他人

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

旅游
教育
游戏
房产
公开课

旅游要闻

世界那么大,来安美如画丨「与V四季行」倒计时1天,这份春日请柬请查收→

教育要闻

2026高考捡漏指南:西安藏着4所“就业王炸”院校,考生闭眼冲

《刺客信条》又一新作野心炸裂!三张地图横跨半个地球

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版