网易首页 > 网易号 > 正文 申请入驻

全新TextGrad框架:用GPT-4o作引擎,自动优化端到端任务

0
分享至

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

该文章的作者团队来自于斯坦福大学,共同第一作者团队Mert Yuksekgonul,Federico Bianchi, Joseph Boen, Sheng Liu, Zhi Huang

Mert Yuksekgonul,斯坦福大学博士生,师从James Zou 和 Carlos Guestrin教授。研究方向包括 AI系统自我优化以及其安全性和可靠性。

Federico Bianchi,Xyla AI 工程师, 斯坦福大学博后,师从 Dan Jurafsky 和 James Zou教授。研究方向为机器学习和大语言模型的开发。

Joseph Boen,斯坦福大学博士生,师从James Zou,研究方向为AI在科学中的应用。

刘晟,美国斯坦福大学博后,师从 James Zou和 Lei Xing 教授,博士毕业于纽约大学数据科学和人工智能。研究方向包括深度学习的安全性和可靠性,多模态大语言模型, 以及AI在生物医疗方向应用。

黄治,现宾夕法尼亚大学教授, 斯坦福大学博后。博士毕业于普渡大学。研究方向为生物医学工程,AI在病理学的应用。

TextGrad 团队

用文本做梯度下降?!最近,来自斯坦福大学的研究者,推出了全新的 TextGrad 框架, 来高效协调和优化由大语言模型 (LLM) 等组件构成的 AI 系统,自动优化端到端任务性能。

目前,用 GPT-4o 作为引擎的 TextGrad 优化后的 AI 系统能实现:

LeetCode-Hard 最好的结果

GPQA SoTA

发现新的分子同时兼顾药效和毒性等多个优化目标

设计出超过人工的癌症放疗计划

TextGrad website: http://www.textgrad.com/

TextGrad paper: https://arxiv.org/abs/2406.07496

TextGrad Github:https://github.com/zou-group/textgrad

生成式人工智能正处于从单一模型训练向复杂系统优化的范式转变中,开发合成 AI 系统的原则化自动优化方法成为当下最重要的新挑战之一。如何高效协调优化大语言模型 (LLM) 等 AI 组件,自动优化端到端任务性能,成为当前最紧迫的挑战之一。要说 AI 界有多卷,还得看斯坦福大学。这两天,斯坦福大学的研究者们又放大招了,推出了全新的 TextGrad 框架,为这一难题提供了一种全新的解决方案。借鉴了同是斯坦福发布的 DSPy,融合了 PyTorch 的强大梯度反向传播功能,实现自动优化复杂 AI 系统。本文将深入剖析 TextGrad 的核心理念和优化机制,探讨它的广阔应用前景,展望语言驱动优化的未来图景。

核心思想

TextGrad 将 LLM 应用视为一个计算图 (Computation Graph),以自然语言为媒介实现不同组件之间的 "梯度" 传递。通过从语言模型的输出中反向传播文本反馈到所有可能的早期组件,来优化各种系统中的各种变量。在 TextGrad 中,一切都是文本,这意味着我们使用语言模型来 1)评估输出,2)批评输出,3)更新输入。这一过程有点类似于 PyTorch 的反向传播,只不过传播的不再是数值梯度,而是文本形式的反馈。

这种统一的语言交互界面赋予了 TextGrad 极强的普适性,它将 prompt、question、output 等都视为 variable,不要求其可微,具有超强的兼容性。TextGrad 能和任意支持自然语言 I/O 的 LLM 或者其它 API 无缝协作,也不要求计算图中的其他函数可微。这使得它非常适合集成 retrieval、tool calling 等 plug-and-play 能力,构建灵活多变的复合 AI pipeline。TextGrad 也不需要手工设计 prompt,自动搜索最忧的任务描述直接参与优化。这让开发者从 prompt engineering 中解放出来,有望自动找到更棒的 in-context learning 范式。

TextGrad 能做什么?

1. 提示(prompt)工程 通过 TextGrad 优化的 prompt,能将 GPT-3.5-turbor 的 QA 准确率从 78% 提升到了 92%,而且只需进行少量几次的优化迭代。如果你想复现这个成果并进一步探索 TextGrad,TextGrad 团队已经为你准备好了一个简单的教程。

TextGrad 能被非常简单方便地应用到 prompt engineer(提示工程)上。

2. 优化模型输出 除了更新模型的 prompt,模型的回答(response)以及文字表示的输出,也能够得到 TextGrad 的优化。上图, TextGrad 优化了 LLM 生成的 LeetCode 问题的代码。

还有更多 AI for science 的应用!

药物探索(Drug Discovery)

使用 TextGrad,我们可以优化化学结构的两个关键属性:药物相似性(即药物在体内吸收的难易程度)和结合亲和力(即药物与靶蛋白结合的紧密程度)。药物相似性通过 QED 评分来衡量,范围是 0 到 1,1 表示最符合药物特性;结合亲和力通过 Vina 评分来衡量,评分越负越好。

左图:在 TextGrad 优化 10 次迭代前后的分子药物相似性和结合亲和力分布,与针对相同靶蛋白的临床批准药物进行比较。右图:TextGrad 优化 10 次迭代的示例轨迹,比较临床批准药物的属性。

肿瘤放疗治疗计划(Radiotherapy Treatment Planning)

TextGrad 也可以用来优化放射治疗计划,该计划确定放射治疗所需的剂量并精确定位需要治疗的部位。特别是,治疗计划的目标是将规定的辐射剂量传递到肿瘤,同时保护关键的正常组织免受不安全剂量的影响。医生通常通过不断试错,反复调整优化治疗计划,直到计划符合临床要求。这使得整个过程效率低下、耗时且成本高昂。TextGrad 则自动向 AI 主导的规划系统提供梯度,优化放射治疗计划,自动权衡肿瘤和附近健康组织。

TextGrad 用语言打通了不同认知模块之间的屏障。它让 LLM 参与到了自己的迭代优化中,通过内省、评判、创造等 high-level 的认知能力实现持续进化。从本质上看,TextGrad 的意义远不止于优化 pipeline 的性能,它向我们展示了一种通过语言实现 AI 自我认知、自我修正的可能性。这条 “Language-Driven Optimization” 的道路,或许也是目前很多 “幻觉问题” 的一剂良药。TextGrad 已经被应用到解决很多科学和医学方面的问题!更多的应用等着你来探索和发现!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
6月26日精选热点:康宁推出新一代玻璃基板  这些供应商受益

6月26日精选热点:康宁推出新一代玻璃基板 这些供应商受益

元芳说投资
2026-06-25 19:55:46
“胆固醇凶手”被揪出,是蛋黄的15倍!医生:很多人天天都在吃

“胆固醇凶手”被揪出,是蛋黄的15倍!医生:很多人天天都在吃

岐黄传人孙大夫
2026-06-09 23:30:03
难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

难以置信,北京协和证实:40岁后男性最优运动,并非跑步撸铁

华庭讲美食
2026-06-21 15:26:10
“我们允许你儿子考0分!”家长晒报恩男孩,成绩已经没有意义了

“我们允许你儿子考0分!”家长晒报恩男孩,成绩已经没有意义了

熙熙说教
2026-06-25 19:29:41
京东方A、TCL科技、三安光电、沃格光电,光电四杰谁潜力更大?

京东方A、TCL科技、三安光电、沃格光电,光电四杰谁潜力更大?

长风价值掘金
2026-06-25 17:01:53
婚闹过头了!新乡一伴娘当众岔腿,要新郎钻过通关,引发对方震怒

婚闹过头了!新乡一伴娘当众岔腿,要新郎钻过通关,引发对方震怒

火山詩话
2026-06-25 15:56:07
正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

正常人可以偶尔偷吃一颗伟哥吗?有什么副作用?本文为你讲出实情

健康科普365
2026-05-09 21:05:04
19岁全红婵久违现身!瘦了一圈+下巴尖了 吃汉堡薯条火锅 喝冰可乐

19岁全红婵久违现身!瘦了一圈+下巴尖了 吃汉堡薯条火锅 喝冰可乐

阿废冷眼观察所
2026-06-25 15:15:43
胡先煦连名带姓全丢了!网友:还以为他本名叫谭尽

胡先煦连名带姓全丢了!网友:还以为他本名叫谭尽

阿废冷眼观察所
2026-06-25 19:09:51
开拓者新帅诺里合同引争议!活塞主帅吐槽:公然冒犯教练群体价值

开拓者新帅诺里合同引争议!活塞主帅吐槽:公然冒犯教练群体价值

罗说NBA
2026-06-25 06:03:16
工行、农行、中行、建行、交行、中信银行、光大集团 被点名!

工行、农行、中行、建行、交行、中信银行、光大集团 被点名!

中国能源网
2026-06-25 08:19:22
养路费大调整!油车电车终于公平了,普通家用车主基本不花钱

养路费大调整!油车电车终于公平了,普通家用车主基本不花钱

娱乐圈的笔娱君
2026-06-25 18:55:15
中医鬼才倪海厦:“假如你有钱,就去买好看的衣服穿,买好的车子开,吃要尽量的简单,好吃的东西吃一点点就可以了,口腹之欲要控制”

中医鬼才倪海厦:“假如你有钱,就去买好看的衣服穿,买好的车子开,吃要尽量的简单,好吃的东西吃一点点就可以了,口腹之欲要控制”

背包旅行
2026-06-24 12:37:13
中国不急,荷兰急了!被特朗普逼到墙角后,荷部长带大部队访华

中国不急,荷兰急了!被特朗普逼到墙角后,荷部长带大部队访华

无情有思ss
2026-06-25 19:38:36
A股头条:高盛高呼!中国居民股票配置相对于其长期潜力而言仍较低;央行预告5000亿元MLF今日落地

A股头条:高盛高呼!中国居民股票配置相对于其长期潜力而言仍较低;央行预告5000亿元MLF今日落地

金融界
2026-06-25 07:49:08
媳妇突发奇想“阳台封一半,留一半”,完工后变成“绝美双阳台”,邻居排队过来打卡!

媳妇突发奇想“阳台封一半,留一半”,完工后变成“绝美双阳台”,邻居排队过来打卡!

设计最前沿
2026-06-23 01:59:31
终于明白!普通人再也不养冯小刚们了:你住豪宅,我凭啥给你撑面

终于明白!普通人再也不养冯小刚们了:你住豪宅,我凭啥给你撑面

魔都姐姐杂谈
2026-06-24 10:01:02
什么信号?“站在光里”的基金经理纷纷限购,年内业绩TOP10均已闭门谢客

什么信号?“站在光里”的基金经理纷纷限购,年内业绩TOP10均已闭门谢客

财联社
2026-06-25 14:32:41
运城13岁女孩称被强奸,“他们逼我去撤案”

运城13岁女孩称被强奸,“他们逼我去撤案”

中国新闻周刊
2026-06-24 22:25:05
马斯克被迫陪母亲走红毯 全程挤眉弄眼左右摇摆 开心得像个孩子

马斯克被迫陪母亲走红毯 全程挤眉弄眼左右摇摆 开心得像个孩子

快科技
2026-06-25 08:32:14
2026-06-25 22:32:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13360文章数 142682关注度
往期回顾 全部

科技要闻

宇树机器人大降价

头条要闻

赖清德呼吁大陆放弃"武力攻台" 国防部表态

头条要闻

赖清德呼吁大陆放弃"武力攻台" 国防部表态

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

138.8万元!东方豪华天花板?尊界S800 Grand Design典藏大观上市

态度原创

本地
亲子
时尚
数码
房产

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

亲子要闻

2026孕前养巢肌醇分享,肌醇哪个牌子不易产生身体不适感?呵护卵巢实现助孕目标

最高级的夏季配色,来了!

数码要闻

AMD锐龙7 5800X3D处理器十周年版上市,2599元

房产要闻

城市精英集体出手!科学城这一现象级热销红盘,凭何成为共识之选?

无障碍浏览 进入关怀版