网易首页 > 网易号 > 正文 申请入驻

华人科学家登上Nature:几行代码,优化复合AI系统

0
分享至

华人学者、斯坦福大学副教授 James Zou

人工智能(AI)领域的突破越来越多地由协调多个大语言模型(LLM)和其他专业工具(如搜索引擎和模拟器)的系统驱动。迄今为止,这些系统主要由领域专家手工制作,并通过启发式方法进行调整,而不是自动优化。

人工神经网络的发展也面临着类似的挑战,直到反向传播和自动分化技术的出现,才使优化工作变得简单易行,从而改变了这一领域。

受此启发,华人学者、斯坦福大学副教授 James Zou 领导的团队提出了 TextGrad ,通过文本自动化“微分”反向传播大语言模型(LLM)文本反馈来优化 AI 系统。

只需几行代码,你就可以自动将用于分类数据的“逐步推理”提示转换为一个更复杂的、针对特定应用的提示。

据介绍,TextGrad 是一个多功能框架,通过反向传播 LLM 生成的反馈来执行优化,从而改进人工智能系统。TextGrad 基于三个原则构建

  • 它是一个通用的高性能框架,并非为特定应用领域而手工打造;

  • 易于使用,与 PyTorch 的抽象概念如出一辙,因此可以进行知识转移;

  • 完全开源。

在 TextGrad 中,一切都是文本,使用语言模型评估输出、评论它们、更新输入。开发自动优化算法是利用 LLM 构建复合系统并加速未来突破的最关键挑战之一。利用自然语言反馈来批评,对系统的任何部分提出改进建议--从提示到输出,如分子或治疗方案等--TextGrad 能够在各种任务中自动优化生成式人工智能系统。

图|TextGrad 概述

相关研究论文以"Optimizing generative AI by backpropagating language model feedback"为题发表在权威科学期刊 Nature 上。

论文链接: https://www.nature.com/articles/s41586-025-08661-4

研究团队展示了如何在 GPQA(博士级问题解答)和 LeetCode Hard(高难度编程问题)中实现 SOTA 性能。

他们通过优化药物发现的分子来解决有影响力的科学问题,并通过优化治疗方案来改善患者的治疗效果。他们发现,无需修改框架,TextGrad 即可在许多领域发挥作用。

他们表示,TextGrad 可以帮助科学家和工程师轻松开发有影响力的生成式人工智能系统。

Textgrad:LLM 系统「缺失的一环」

Pytorch 是构建复杂神经网络最流行的框架,多年来,不同的原因使它获得成功,但其中一个原因是其语法的灵活性和“友好性”。

TextGrad 提供了一个遵循 PyTorch 语法的 API,允许用户通过使用仅由(可能不同的)语言模型提供的文本反馈来优化任何提示或结果。他们可以使用少量的示例数据将提示优化为语言模型。

此外,TextGrad 还允许语言模型自我完善其响应,评估由任何潜在的黑盒函数提供,例如语言模型本身或代码解释器的输出。

他们在解法优化、代码优化、推理提示优化、放疗计划优化、复合人工智能系统优化上进行了研究。

解法优化中,解决方案优化目标 = LLM(问题 + 解决方案 + 测试时指令),优化的参数是解决方案,损失函数通过对解决方案的评估获得。在每次迭代中,LLM 都会收到问题、当前解决方案和测试时指令的提示,要求对当前迭代进行评判。

代码优化的目标是修改代码以提高其正确性或运行时的复杂性。通过有限的本地单元测试监督,并通过测试指令进行自我评估要求对当前的代码迭代进行判别。

推理提示优化中,完善目标 = LLM(问题 + 代码 + 测试时指令 + 测试结果)。LLM 在推理任务中的表现对用于指导其行为的提示非常敏感。有了正确的提示,它们的推理能力就能得到显著提高。

放射治疗是一种癌症治疗方法,它利用 X 射线等强能量束来杀死癌细胞。治疗前,放射肿瘤专家和规划师团队会合作设计有效的治疗方案,包括确定必要的放射治疗剂量,并精确定位需要治疗的部位。

TextGrad 在实现 PTV 区域临床目标方面的能力表现优于临床计划,实现了更高的平均剂量和与规定剂量完全一致的 D95,其中 D95 表示 95% 靶区/器官容积所接受的最小剂量。

TextGrad 通过迭代改进平均剂量并降低 PTV 的剂量方差,从而实现临床目标。

经过 TextGrad 优化的计划对这些健康器官的平均剂量较低,表明对器官的保护效果优于人类优化计划。

最后,他们还研究了 TextGrad 优化涉及多个变量和较长推理链的复合 AI 系统的能力。

以 Chameleon 系统为例,其原始静态执行流程易导致错误累积,TextGrad 通过迭代优化每个模块的输出(如规划、图像描述、知识检索等),反向传播文本反馈以修正中间推理步骤,最终在 ScienceQA-IMG 任务上实现 7.7% 的准确率提升。

此外,TextGrad 支持联合优化多模态任务的指令提示、解决方案及评估提示,在空间推理数据集 HQH 上将准确率提升 9%。实验表明,TextGrad 能够灵活处理多变量、长链推理的复杂系统,显著提升整体性能,为自动化优化多组件 AI 系统提供了通用框架。

曾获“诺奖风向标”斯隆奖学金

James Zou 本科毕业于杜克大学,并于哈佛大学取得博士学位,现为斯坦福大学生物医学数据科学副教授,曾获被称为“诺奖风向标”的斯隆奖学金。

他的研究工作主要聚焦于使机器学习更加可靠、符合人类需求以及统计严谨,同时也涉及 AI 在人类疾病和健康方面的应用

2023 年 8 月,他和他的团队在 Nature Medicine 上发表论文,首次展示了利用 Twitter 上的数据,来开发“病理图像-文本对应”的自然语言-图像预训练模型。

2024 年 4 月,James Zou 在 Nature Machine Intelligence 上发表论文,他们推出了一个生成式 AI 模型 SyntheMol,该模型可以设计数十亿种新的抗生素分子,而这些分子价格低廉且易于在实验室中合成。

此外,James Zou 团队还构建了一个名为 Vitual Lab(虚拟实验室)的多智能体系统。该团队由一个 AI 模型作为首席研究员,并带领具有不同科学背景(如化学、计算机科学等)的 agent,团队里还有一名人类研究员提供反馈。人类科学家负责制定研究目标,为 agent 安排会议,允许它们相互讨论项目,通过多轮讨论提供规范的科学文本。

可以想象的是,随着人工智能的范式从训练单个模型转向优化涉及多个相互作用的 LLM 组件和工具的复合系统,自动优化器 TextGrad 将为训练大型复合 AI 模型开辟令人兴奋的机会。

作者:与可

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
事态升级,中方开打第二波反击,高市或突然辞职,石破茂已扛旗

事态升级,中方开打第二波反击,高市或突然辞职,石破茂已扛旗

小祁谈历史
2026-04-26 07:49:13
男子夜晚爬树采香椿不慎掉落卡树干间,倒挂7个多小时才被发现

男子夜晚爬树采香椿不慎掉落卡树干间,倒挂7个多小时才被发现

半岛晨报
2026-04-25 21:38:11
商务部新闻发言人就美众议院外交事务委员会通过MATCH等法案答记者问

商务部新闻发言人就美众议院外交事务委员会通过MATCH等法案答记者问

新京报
2026-04-25 10:28:06
不想访华了?美国务院发声站台赖清德,外交部反将一军

不想访华了?美国务院发声站台赖清德,外交部反将一军

摘史
2026-04-25 01:43:34
中央明确了!社保最低缴费年限要提高,70、80后得早做准备

中央明确了!社保最低缴费年限要提高,70、80后得早做准备

云鹏叙事
2026-04-12 16:36:39
金正恩自己都没想到,下令出兵俄罗斯后,会给朝鲜带来这么多惊喜

金正恩自己都没想到,下令出兵俄罗斯后,会给朝鲜带来这么多惊喜

混沌录
2026-04-11 20:56:12
足坛两大狠人!阿什拉夫与旺达传绯闻,伊卡尔迪再成笑柄?

足坛两大狠人!阿什拉夫与旺达传绯闻,伊卡尔迪再成笑柄?

罗氏八卦
2026-04-25 18:00:03
王钰栋暴怒!终场哨后怒骂队友,赛季3次情绪失控,曾怒怼球迷

王钰栋暴怒!终场哨后怒骂队友,赛季3次情绪失控,曾怒怼球迷

奥拜尔
2026-04-25 21:13:40
因为大鼻子又火了!北大校友会副会长给泰华中学做宣传,鼻子太抢眼

因为大鼻子又火了!北大校友会副会长给泰华中学做宣传,鼻子太抢眼

趣笔谈
2026-04-23 12:35:03
突发!台高层偷抵非洲,大陆已经看透特朗普的最坏打算:就是这个

突发!台高层偷抵非洲,大陆已经看透特朗普的最坏打算:就是这个

潇湘烟雨水
2026-04-26 10:34:17
王治郅入选名人堂,中国篮协发声!字字不提姚明,句句戳中他心窝

王治郅入选名人堂,中国篮协发声!字字不提姚明,句句戳中他心窝

阿纂看事
2026-04-25 18:13:00
美国波音获得267架F-15EX新型战机订单,这战机能比过我国歼-16吗

美国波音获得267架F-15EX新型战机订单,这战机能比过我国歼-16吗

科普大世界
2026-04-26 10:16:14
海外评测DeepSeek-V4:智能体任务排名开源第一,幻觉率上升,Token消耗大

海外评测DeepSeek-V4:智能体任务排名开源第一,幻觉率上升,Token消耗大

每日经济新闻
2026-04-25 13:27:09
58岁江珊露面,西装身材腚大腰圆,脸显年轻无皱纹

58岁江珊露面,西装身材腚大腰圆,脸显年轻无皱纹

今夜繁星坠落
2026-04-25 07:32:19
德尔加多面临挖角!鲁媒:不去青岛,或准备追随恩师,加盟豪门

德尔加多面临挖角!鲁媒:不去青岛,或准备追随恩师,加盟豪门

建哥说体育
2026-04-26 09:35:53
醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

醪糟再次被关注!医生发现:高血脂患者喝醪糟,不用多久4大变化

芹姐说生活
2026-04-19 15:52:53
总台记者观察丨伊朗外长将出访三国 美伊谈判窗口未关

总台记者观察丨伊朗外长将出访三国 美伊谈判窗口未关

国际在线
2026-04-25 07:28:18
为什么大家可以接受网红馆长,但却接受不了张敬轩?

为什么大家可以接受网红馆长,但却接受不了张敬轩?

大秦共和国
2026-04-25 11:14:41
哈维:阿拉贡内斯和瓜迪奥拉是最佳教练;主场5-0皇马最难忘

哈维:阿拉贡内斯和瓜迪奥拉是最佳教练;主场5-0皇马最难忘

懂球帝
2026-04-26 10:38:33
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
2026-04-26 11:11:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

涨价浪潮下,DeepSeek推动AI“价格战”

头条要闻

牛弹琴:伊朗放了美国人鸽子 特朗普被气坏了

头条要闻

牛弹琴:伊朗放了美国人鸽子 特朗普被气坏了

体育要闻

那一刻开始,两支球队的命运悄然改变了

娱乐要闻

《八千里路云和月》大结局意难平

财经要闻

DeepSeek V4背后,梁文锋的转身

汽车要闻

2026款乐道L90亮相北京车展 乐道L80正式官宣

态度原创

教育
房产
时尚
家居
公开课

教育要闻

校长领导力三要素:品德为基,思想为核,行动为要

房产要闻

新一轮教育大爆发来了!海口,开始疯狂建学校!

伊姐周六热推:电视剧《方圆八百米》;电视剧《金关》......

家居要闻

自然肌理 温润美学

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版