网易首页 > 网易号 > 正文 申请入驻

OPIK:一个开源的自动提示词优化框架

0
分享至

大语言模型发展到今天,写提示词不仅是个体力活,还是一个技术活。提示词的措辞稍微改一下,性能波动 20-50% 是常有的事。那能不能让 LLM 自己改进提示词呢?

本文主要讲的就是这个,一个处理复杂推理任务的 Agent,经过几轮自动迭代,准确率从 34% 飙到 97%相对提升 184%。下面是完整的步骤:从环境搭建到代码实现,还包含了优缺点和适用场景。

什么是自动提示词优化

自动提示词优化有时也叫 Automatic Prompt Engineering(APE),核心思路是把写提示词当成优化问题来解。流程大概是这样:先拿一个初始提示词(哪怕写得很一般),在一批标注好的样本上跑一遍,用评分函数(精确匹配、BLEU、LLM-as-judge 之类的)算个分,然后让 LLM 生成新的候选提示词,挑表现好的继续迭代,直到分数不再涨为止。

2023 年的论文 "Automatic Prompt Optimization with Gradient-Free Methods" 把这套方法讲得比较系统。从工具层面将DSPy、LangChain 的 PromptOptimizer 都能干这个活,不过有一个专门的库叫 OPIK 。

OPIK + MetaPromptOptimizer 的特点

OPIK 这套东西比较吸引人的是完全开源,Apache 2.0 协议,商用也不花钱;可以纯本地跑,Ollama、LM Studio、任何 OpenAI 兼容的接口都行;自带追踪仪表板,功能类似 LangSmith 但是确是免费;API 设计简单,一个类就能搞定优化流程;评估指标随便你定义,只要能写成代码就行。

环境搭建

创建虚拟环境

python -m venv opik-apo
source opik-apo/bin/activate # Windows: opik-apo\Scripts\activate
pip install opik[all] datasets sentence-transformers

本地 LLM 安装(可选但推荐)

# Example with Ollama
ollama pull llama3.2:8b-instruct-qat
ollama serve

准备评估数据集

不需要太多数据,20 到 100 条高质量样本就够了。下面是个 GSM8K 风格的 JSONL 例子,保存成 eval_data.jsonl:

{"question": "Janet's ducks lay 16 eggs per day. She eats 3 for breakfast, gives 8 to friends, and her bakery uses the rest. How many eggs does the bakery receive?", "answer": "5"}
{"question": "A store sells apples for $2 each or 6 for $10. How much do you save per apple by buying 6?", "answer": "0.33"}

完整代码

import opik
from opik import track
from opik.opimization import MetaPromptOptimizer
from opik.opimization.evaluation_metrics import LevenshteinRatio
from opik.integrations.langchain import OpikTracer
from langchain_community.llms import Ollama
from langchain.prompts import PromptTemplate
import json
# 1. 初始化 Opik(默认本地)
opik_client = opik.Opik()
# 2. 加载评估数据集
def load_dataset(path="eval_data.jsonl"):
data = []
with open(path) as f:
for line in f:
item = json.loads(line)
data.append({"input": item["question"], "expected": item["answer"]})
return data
eval_dataset = load_dataset()
# 3. 定义你的基础提示词模板
initial_prompt = """You are an expert assistant. Your task is answer questions accurately and concisely. Consider the context carefully before responding.
Question: {input}
Answer:"""
prompt_template = PromptTemplate.from_template(initial_prompt)
# 4. 创建 LLM(本地或 OpenAI)
llm = Ollama(model="llama3.2:8b-instruct-qat", temperature=0.2)
# llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.2) # for cloud
# 5. 定义你想要优化的链
@track
def math_chain(question):
prompt = prompt_template.format(input=question)
response = llm.invoke(prompt)
return response.strip()
# 6. 定义评估函数
def evaluation_function(task):
expected = task["expected"]
generated = math_chain(task["input"])
score = LevenshteinRatio()(expected, generated)
return score
# 7. 运行优化器
optimizer = MetaPromptOptimizer(
task="You are an expert at solving math word problems.",
evaluation_dataset=eval_dataset,
evaluation_function=evaluation_function,
llm=llm,
n_iterations=5, # 通常 3-7 次就足够了
population_size=10
)
best_prompt = optimizer.run()
print("\n=== BEST PROMPT FOUND ===\n")
print(best_prompt)

运行脚本:

python optimize_prompt.py

跑完 5 轮迭代后,打开http://localhost:5173就能看到仪表板,每个候选提示词的得分、最终选中的版本都在上面。

优化效果示例

优化前的提示词(34% 精确匹配):

You are an expert assistant. Your task is answer questions accurately and concisely. Consider the context carefully before responding.

优化后(97% 精确匹配):



优缺点总结

优点



性能提升幅度可观,50-200% 的相对改进并不罕见。整个过程完全可复现,每一轮迭代都有日志记录,方便审计。本地运行意味着初始配置之后就不再产生 Token 费用。也不依赖梯度任何黑盒 LLM 都能用。迁移到新任务也简单,改几个参数就行。

局限性

评估数据集的质量至关重要:如果数据不行,优化出来的提示词也不会好到哪去,就是典型的 garbage in, garbage out;本地 LLM 生成候选提示词的速度可能偏慢;小数据集上容易过拟合模型可能只是"记住"了答案而非真正学会解题;优化出来的提示词有时候又长又怪,虽然效果好,但可读性堪忧。

结论

OPIK 的 MetaPromptOptimizer 让自动提示词变得很简单:拿一个勉强能用的提示词,半小时内就能把它调成接近 SOTA 水平的 one-shot Agent,省下原本要花几周手动迭代的时间。

找一个现有的 Agent,攒 30 条标注样本,跑一遍上面的脚本,看准确率曲线往上走就对了。提示词工程的下一步,不是人写出更好的提示词,而是让系统替人写。

地址

https://avoid.overfit.cn/post/be1860b7176b474b9389d88501402048

作者:Minervee

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
理想汽车突然大降价

理想汽车突然大降价

科技头版Pro
2026-01-22 16:02:52
母亲带儿子自驾游西藏,4个月后被抓,被判11年2个月

母亲带儿子自驾游西藏,4个月后被抓,被判11年2个月

七分瘦三分肥
2025-09-19 16:47:46
U23国足将战日本!媒体人热议:草皮情况不理想,夺冠概率25%

U23国足将战日本!媒体人热议:草皮情况不理想,夺冠概率25%

奥拜尔
2026-01-24 21:24:05
故事:左宗棠收复新疆后,慈禧单独召见他:你比曾国藩强在哪?

故事:左宗棠收复新疆后,慈禧单独召见他:你比曾国藩强在哪?

饭小妹说历史
2026-01-20 09:12:31
中国驻日大校王庆简:定时以开窗为号,竟向日本传递了 20 年机密

中国驻日大校王庆简:定时以开窗为号,竟向日本传递了 20 年机密

z千年历史老号
2026-01-23 12:16:03
兄弟对决!今日一战阿门和奥萨尔的表现根本不在一个级别!

兄弟对决!今日一战阿门和奥萨尔的表现根本不在一个级别!

田先生篮球
2026-01-24 12:04:31
台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

台军女飞行员郭文静:只要长官敢下令,我会毫不犹豫的击落歼20!

顾史
2026-01-21 21:04:39
最新!伊朗发出“全面战争”警告

最新!伊朗发出“全面战争”警告

扬子晚报
2026-01-24 11:29:17
北京将上线“京通”App,研发“北京12345”智能体

北京将上线“京通”App,研发“北京12345”智能体

新京报
2026-01-24 14:34:16
释小龙不再隐瞒!坦言亲父身份,难怪多年不拍戏资产却超十亿

释小龙不再隐瞒!坦言亲父身份,难怪多年不拍戏资产却超十亿

以茶带书
2026-01-15 13:07:47
外媒:因民调结果不佳,特朗普宣布将起诉《纽约时报》

外媒:因民调结果不佳,特朗普宣布将起诉《纽约时报》

参考消息
2026-01-23 15:07:49
不到24小时,特朗普闹出6个国际笑话,美国人要心碎了

不到24小时,特朗普闹出6个国际笑话,美国人要心碎了

现代小青青慕慕
2026-01-24 09:26:29
主动退出奥运申办!中国这一招,让西方媒体无话可说

主动退出奥运申办!中国这一招,让西方媒体无话可说

青梅侃史啊
2025-08-18 16:14:26
俄罗斯首次承认“莫斯科”号巡洋舰被乌军击沉,导致52名俄军伤亡

俄罗斯首次承认“莫斯科”号巡洋舰被乌军击沉,导致52名俄军伤亡

山河路口
2026-01-23 18:55:47
李银桥在回忆录中提及毛岸英牺牲需由彭德怀承担一定责任,但这一表述缺乏充分依据,难以成立

李银桥在回忆录中提及毛岸英牺牲需由彭德怀承担一定责任,但这一表述缺乏充分依据,难以成立

史海残云
2025-12-23 11:22:17
追问daily | 男性性欲高峰在40岁左右;歧视将导致加速衰老;每天5分钟快走可有效预防死亡

追问daily | 男性性欲高峰在40岁左右;歧视将导致加速衰老;每天5分钟快走可有效预防死亡

追问Nextquestion
2026-01-20 07:41:51
柯文哲曾言:大陆若胆敢对台湾出手,我随随便便就能让大陆瘫痪?

柯文哲曾言:大陆若胆敢对台湾出手,我随随便便就能让大陆瘫痪?

聚焦风暴来袭
2026-01-23 19:13:05
27军出了三位大军区司令,一位军委副主席,小警卫员官至正国级

27军出了三位大军区司令,一位军委副主席,小警卫员官至正国级

兴趣知识
2026-01-20 03:01:11
杨瀚森刚猛一节又垮!首节完美辅助,次节1分钟被轰8-0,太被动了

杨瀚森刚猛一节又垮!首节完美辅助,次节1分钟被轰8-0,太被动了

篮球资讯达人
2026-01-24 12:19:13
北约历史性一幕发生,77年来首次,德国总理决定:马上带人去中国

北约历史性一幕发生,77年来首次,德国总理决定:马上带人去中国

议纪史
2026-01-23 16:10:07
2026-01-24 23:28:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1900文章数 1443关注度
往期回顾 全部

科技要闻

特斯拉Cybercrab即将落地 每公里不到1块钱

头条要闻

被雪豹咬伤女子从急诊转出 目击者:她没有去摸豹子

头条要闻

被雪豹咬伤女子从急诊转出 目击者:她没有去摸豹子

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

回归还是顶流 凤凰传奇将现身马年春晚

财经要闻

“百年老字号”张小泉遭60亿债务压顶

汽车要闻

有增程和纯电版可选 日产NX8或于3-4月间上市

态度原创

手机
本地
时尚
房产
数码

手机要闻

华为Pura 80系列开启新年礼遇:至高优惠1500元,到手即享鸿蒙6

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

冬天最佳“显瘦”公式:上短+下长

房产要闻

正式官宣!三亚又一所名校要来了!

数码要闻

酷态科6号Ultra充电器曝光:双Type-C接口均支持100W快充

无障碍浏览 进入关怀版