网易首页 > 网易号 > 正文 申请入驻

华人科学家登上Nature:几行代码,优化复合AI系统

0
分享至

华人学者、斯坦福大学副教授 James Zou

人工智能(AI)领域的突破越来越多地由协调多个大语言模型(LLM)和其他专业工具(如搜索引擎和模拟器)的系统驱动。迄今为止,这些系统主要由领域专家手工制作,并通过启发式方法进行调整,而不是自动优化。

人工神经网络的发展也面临着类似的挑战,直到反向传播和自动分化技术的出现,才使优化工作变得简单易行,从而改变了这一领域。

受此启发,华人学者、斯坦福大学副教授 James Zou 领导的团队提出了 TextGrad ,通过文本自动化“微分”反向传播大语言模型(LLM)文本反馈来优化 AI 系统。

只需几行代码,你就可以自动将用于分类数据的“逐步推理”提示转换为一个更复杂的、针对特定应用的提示。

据介绍,TextGrad 是一个多功能框架,通过反向传播 LLM 生成的反馈来执行优化,从而改进人工智能系统。TextGrad 基于三个原则构建

  • 它是一个通用的高性能框架,并非为特定应用领域而手工打造;

  • 易于使用,与 PyTorch 的抽象概念如出一辙,因此可以进行知识转移;

  • 完全开源。

在 TextGrad 中,一切都是文本,使用语言模型评估输出、评论它们、更新输入。开发自动优化算法是利用 LLM 构建复合系统并加速未来突破的最关键挑战之一。利用自然语言反馈来批评,对系统的任何部分提出改进建议--从提示到输出,如分子或治疗方案等--TextGrad 能够在各种任务中自动优化生成式人工智能系统。

图|TextGrad 概述

相关研究论文以"Optimizing generative AI by backpropagating language model feedback"为题发表在权威科学期刊 Nature 上。

论文链接: https://www.nature.com/articles/s41586-025-08661-4

研究团队展示了如何在 GPQA(博士级问题解答)和 LeetCode Hard(高难度编程问题)中实现 SOTA 性能。

他们通过优化药物发现的分子来解决有影响力的科学问题,并通过优化治疗方案来改善患者的治疗效果。他们发现,无需修改框架,TextGrad 即可在许多领域发挥作用。

他们表示,TextGrad 可以帮助科学家和工程师轻松开发有影响力的生成式人工智能系统。

Textgrad:LLM 系统「缺失的一环」

Pytorch 是构建复杂神经网络最流行的框架,多年来,不同的原因使它获得成功,但其中一个原因是其语法的灵活性和“友好性”。

TextGrad 提供了一个遵循 PyTorch 语法的 API,允许用户通过使用仅由(可能不同的)语言模型提供的文本反馈来优化任何提示或结果。他们可以使用少量的示例数据将提示优化为语言模型。

此外,TextGrad 还允许语言模型自我完善其响应,评估由任何潜在的黑盒函数提供,例如语言模型本身或代码解释器的输出。

他们在解法优化、代码优化、推理提示优化、放疗计划优化、复合人工智能系统优化上进行了研究。

解法优化中,解决方案优化目标 = LLM(问题 + 解决方案 + 测试时指令),优化的参数是解决方案,损失函数通过对解决方案的评估获得。在每次迭代中,LLM 都会收到问题、当前解决方案和测试时指令的提示,要求对当前迭代进行评判。

代码优化的目标是修改代码以提高其正确性或运行时的复杂性。通过有限的本地单元测试监督,并通过测试指令进行自我评估要求对当前的代码迭代进行判别。

推理提示优化中,完善目标 = LLM(问题 + 代码 + 测试时指令 + 测试结果)。LLM 在推理任务中的表现对用于指导其行为的提示非常敏感。有了正确的提示,它们的推理能力就能得到显著提高。

放射治疗是一种癌症治疗方法,它利用 X 射线等强能量束来杀死癌细胞。治疗前,放射肿瘤专家和规划师团队会合作设计有效的治疗方案,包括确定必要的放射治疗剂量,并精确定位需要治疗的部位。

TextGrad 在实现 PTV 区域临床目标方面的能力表现优于临床计划,实现了更高的平均剂量和与规定剂量完全一致的 D95,其中 D95 表示 95% 靶区/器官容积所接受的最小剂量。

TextGrad 通过迭代改进平均剂量并降低 PTV 的剂量方差,从而实现临床目标。

经过 TextGrad 优化的计划对这些健康器官的平均剂量较低,表明对器官的保护效果优于人类优化计划。

最后,他们还研究了 TextGrad 优化涉及多个变量和较长推理链的复合 AI 系统的能力。

以 Chameleon 系统为例,其原始静态执行流程易导致错误累积,TextGrad 通过迭代优化每个模块的输出(如规划、图像描述、知识检索等),反向传播文本反馈以修正中间推理步骤,最终在 ScienceQA-IMG 任务上实现 7.7% 的准确率提升。

此外,TextGrad 支持联合优化多模态任务的指令提示、解决方案及评估提示,在空间推理数据集 HQH 上将准确率提升 9%。实验表明,TextGrad 能够灵活处理多变量、长链推理的复杂系统,显著提升整体性能,为自动化优化多组件 AI 系统提供了通用框架。

曾获“诺奖风向标”斯隆奖学金

James Zou 本科毕业于杜克大学,并于哈佛大学取得博士学位,现为斯坦福大学生物医学数据科学副教授,曾获被称为“诺奖风向标”的斯隆奖学金。

他的研究工作主要聚焦于使机器学习更加可靠、符合人类需求以及统计严谨,同时也涉及 AI 在人类疾病和健康方面的应用

2023 年 8 月,他和他的团队在 Nature Medicine 上发表论文,首次展示了利用 Twitter 上的数据,来开发“病理图像-文本对应”的自然语言-图像预训练模型。

2024 年 4 月,James Zou 在 Nature Machine Intelligence 上发表论文,他们推出了一个生成式 AI 模型 SyntheMol,该模型可以设计数十亿种新的抗生素分子,而这些分子价格低廉且易于在实验室中合成。

此外,James Zou 团队还构建了一个名为 Vitual Lab(虚拟实验室)的多智能体系统。该团队由一个 AI 模型作为首席研究员,并带领具有不同科学背景(如化学、计算机科学等)的 agent,团队里还有一名人类研究员提供反馈。人类科学家负责制定研究目标,为 agent 安排会议,允许它们相互讨论项目,通过多轮讨论提供规范的科学文本。

可以想象的是,随着人工智能的范式从训练单个模型转向优化涉及多个相互作用的 LLM 组件和工具的复合系统,自动优化器 TextGrad 将为训练大型复合 AI 模型开辟令人兴奋的机会。

作者:与可

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

女人为还赌债,被迫在两人围观下发生关系,她的结局最终是怎样

长安一孤客
2026-03-25 16:22:18
黄仁勋:芯片公司的时代已经结束了

黄仁勋:芯片公司的时代已经结束了

芯榜
2026-03-26 01:34:50
张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

张雪峰早就防着这一天了:为女儿注册40枚商标,防亲戚父爱太沉重

墨染时光
2026-03-26 07:50:31
又是1-3、又是输在决赛!向鹏淘汰温瑞博,获世乒赛参赛资格

又是1-3、又是输在决赛!向鹏淘汰温瑞博,获世乒赛参赛资格

十点街球体育
2026-03-25 20:08:11
1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

1965年,毛主席点名让彭德怀复出,背后有人拼命阻挠,这人后来判了18年

史海孤雁
2026-03-25 18:31:11
终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

终于知道广东人为啥不抑郁了!网友:西医叫抑郁,中医叫郁结

另子维爱读史
2026-03-25 22:34:08
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
中国移动正式发布通知:全国将统一执行:4月30日起

中国移动正式发布通知:全国将统一执行:4月30日起

云舟史策
2026-03-26 07:34:02
大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

大崩盘!骑士最多落后高达21分:全队三分15中3,哈登心不在焉

体坛小李
2026-03-26 08:53:49
伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

伊朗伊斯兰革命卫队责令一艘擅自通过霍尔木兹海峡船只返航

财联社
2026-03-25 02:02:18
雷霆遭绿军逆转结束12连胜:亚历山大33+8创纪录 布朗31+8+8

雷霆遭绿军逆转结束12连胜:亚历山大33+8创纪录 布朗31+8+8

醉卧浮生
2026-03-26 10:06:01
何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

何洁自曝养家艰难,40岁断崖式衰老?明明一手好牌,为何被打烂

扒点半吃瓜
2026-03-10 07:00:13
6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

6岁男孩躲避母亲殴打离家22年,长大方知母亲悲惨人生

孤酒老巷QA
2026-03-25 20:19:35
人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

人社部明确:事业编制改革启动,3100万人的“铁饭碗”要变了

慧眼看世界哈哈
2026-03-24 06:36:05
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

章泽天看展带火春日穿搭叫“针织衫+弯刀裤”,配色清新很少女!

明星私服穿搭daily
2026-03-26 09:44:53
太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

太阳报:大量枪迷想抢票见证夺冠,西汉姆联严查主队看台购票

懂球帝
2026-03-26 13:21:13
研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

研究所所长猥亵下属后续,女主多张高清照曝光,知情人再爆料

观察鉴娱
2026-03-26 09:25:28
2026-03-26 14:12:49
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

教育
本地
艺术
房产
公开课

教育要闻

2027届注意:暑期实习=秋招通行证,错过等一年

本地新闻

春日吃花第三站——广东

艺术要闻

哪一座桥不是风景?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版