华人科学家登上Nature：几行代码，优化复合AI系统|算法|人工智能|james|云计算费用

华人科学家登上Nature：几行代码，优化复合AI系统

2025-03-23 12:04:27　来源: 学术头条

北京举报

分享至

华人学者、斯坦福大学副教授 James Zou

人工智能（AI）领域的突破越来越多地由协调多个大语言模型（LLM）和其他专业工具（如搜索引擎和模拟器）的系统驱动。迄今为止，这些系统主要由领域专家手工制作，并通过启发式方法进行调整，而不是自动优化。

人工神经网络的发展也面临着类似的挑战，直到反向传播和自动分化技术的出现，才使优化工作变得简单易行，从而改变了这一领域。

受此启发，华人学者、斯坦福大学副教授 James Zou 领导的团队提出了 TextGrad ，通过文本自动化“微分”反向传播大语言模型（LLM）文本反馈来优化 AI 系统。

只需几行代码，你就可以自动将用于分类数据的“逐步推理”提示转换为一个更复杂的、针对特定应用的提示。

据介绍，TextGrad 是一个多功能框架，通过反向传播 LLM 生成的反馈来执行优化，从而改进人工智能系统。TextGrad 基于三个原则构建：

它是一个通用的高性能框架，并非为特定应用领域而手工打造；
易于使用，与 PyTorch 的抽象概念如出一辙，因此可以进行知识转移；
完全开源。

在 TextGrad 中，一切都是文本，使用语言模型评估输出、评论它们、更新输入。开发自动优化算法是利用 LLM 构建复合系统并加速未来突破的最关键挑战之一。利用自然语言反馈来批评，对系统的任何部分提出改进建议--从提示到输出，如分子或治疗方案等--TextGrad 能够在各种任务中自动优化生成式人工智能系统。

图｜TextGrad 概述

相关研究论文以"Optimizing generative AI by backpropagating language model feedback"为题发表在权威科学期刊 Nature 上。

论文链接： https://www.nature.com/articles/s41586-025-08661-4

研究团队展示了如何在 GPQA（博士级问题解答）和 LeetCode Hard（高难度编程问题）中实现 SOTA 性能。

他们通过优化药物发现的分子来解决有影响力的科学问题，并通过优化治疗方案来改善患者的治疗效果。他们发现，无需修改框架，TextGrad 即可在许多领域发挥作用。

他们表示，TextGrad 可以帮助科学家和工程师轻松开发有影响力的生成式人工智能系统。

Textgrad：LLM 系统「缺失的一环」

Pytorch 是构建复杂神经网络最流行的框架，多年来，不同的原因使它获得成功，但其中一个原因是其语法的灵活性和“友好性”。

TextGrad 提供了一个遵循 PyTorch 语法的 API，允许用户通过使用仅由（可能不同的）语言模型提供的文本反馈来优化任何提示或结果。他们可以使用少量的示例数据将提示优化为语言模型。

此外，TextGrad 还允许语言模型自我完善其响应，评估由任何潜在的黑盒函数提供，例如语言模型本身或代码解释器的输出。

他们在解法优化、代码优化、推理提示优化、放疗计划优化、复合人工智能系统优化上进行了研究。

在解法优化中，解决方案优化目标 = LLM（问题 + 解决方案 + 测试时指令），优化的参数是解决方案，损失函数通过对解决方案的评估获得。在每次迭代中，LLM 都会收到问题、当前解决方案和测试时指令的提示，要求对当前迭代进行评判。

代码优化的目标是修改代码以提高其正确性或运行时的复杂性。通过有限的本地单元测试监督，并通过测试指令进行自我评估要求对当前的代码迭代进行判别。

在推理提示优化中，完善目标 = LLM（问题 + 代码 + 测试时指令 + 测试结果）。LLM 在推理任务中的表现对用于指导其行为的提示非常敏感。有了正确的提示，它们的推理能力就能得到显著提高。

放射治疗是一种癌症治疗方法，它利用 X 射线等强能量束来杀死癌细胞。治疗前，放射肿瘤专家和规划师团队会合作设计有效的治疗方案，包括确定必要的放射治疗剂量，并精确定位需要治疗的部位。

TextGrad 在实现 PTV 区域临床目标方面的能力表现优于临床计划，实现了更高的平均剂量和与规定剂量完全一致的 D95，其中 D95 表示 95% 靶区/器官容积所接受的最小剂量。

TextGrad 通过迭代改进平均剂量并降低 PTV 的剂量方差，从而实现临床目标。

经过 TextGrad 优化的计划对这些健康器官的平均剂量较低，表明对器官的保护效果优于人类优化计划。

最后，他们还研究了 TextGrad 优化涉及多个变量和较长推理链的复合 AI 系统的能力。

以 Chameleon 系统为例，其原始静态执行流程易导致错误累积，TextGrad 通过迭代优化每个模块的输出（如规划、图像描述、知识检索等），反向传播文本反馈以修正中间推理步骤，最终在 ScienceQA-IMG 任务上实现 7.7% 的准确率提升。

此外，TextGrad 支持联合优化多模态任务的指令提示、解决方案及评估提示，在空间推理数据集 HQH 上将准确率提升 9%。实验表明，TextGrad 能够灵活处理多变量、长链推理的复杂系统，显著提升整体性能，为自动化优化多组件 AI 系统提供了通用框架。

曾获“诺奖风向标”斯隆奖学金

James Zou 本科毕业于杜克大学，并于哈佛大学取得博士学位，现为斯坦福大学生物医学数据科学副教授，曾获被称为“诺奖风向标”的斯隆奖学金。

他的研究工作主要聚焦于使机器学习更加可靠、符合人类需求以及统计严谨，同时也涉及 AI 在人类疾病和健康方面的应用。

2023 年 8 月，他和他的团队在 Nature Medicine 上发表论文，首次展示了利用 Twitter 上的数据，来开发“病理图像-文本对应”的自然语言-图像预训练模型。

2024 年 4 月，James Zou 在 Nature Machine Intelligence 上发表论文，他们推出了一个生成式 AI 模型 SyntheMol，该模型可以设计数十亿种新的抗生素分子，而这些分子价格低廉且易于在实验室中合成。

此外，James Zou 团队还构建了一个名为 Vitual Lab（虚拟实验室）的多智能体系统。该团队由一个 AI 模型作为首席研究员，并带领具有不同科学背景（如化学、计算机科学等）的 agent，团队里还有一名人类研究员提供反馈。人类科学家负责制定研究目标，为 agent 安排会议，允许它们相互讨论项目，通过多轮讨论提供规范的科学文本。

可以想象的是，随着人工智能的范式从训练单个模型转向优化涉及多个相互作用的 LLM 组件和工具的复合系统，自动优化器 TextGrad 将为训练大型复合 AI 模型开辟令人兴奋的机会。

作者：与可

如需转载或投稿，请直接在公众号内留言

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.