网易首页 > 网易号 > 正文 申请入驻

在langchain中使用自定义example selector

0
分享至

简介

在之前的文章中,我们提到了可以在跟大模型交互的时候,给大模型提供一些具体的例子内容,方便大模型从这些内容中获取想要的答案。这种方便的机制在langchain中叫做FewShotPromptTemplate。

如果例子内容少的话,其实无所谓,我们可以把所有的例子都发送给大语言模型进行处理。

但是如果例子太多的话,每次都发送如此多的内容,会让我们的钱包承受不住。毕竟那些第三方的大语言模型是按token收费的。

怎么办呢? 能不能找到一个经济又有效的方法来完成我们的工作呢?

答案就是使用example selector。

使用和自定义example selector

我们回想一下在使用FewShotPromptTemplate的时候,实际上是可以同时传入example_selector和examples。

prompt = FewShotPromptTemplate(
example_selector=example_selector,
example_prompt=example_prompt,
suffix="Question: {input}",
input_variables=["input"]

这里我们使用了一个example_selector,那么什么是example_selector呢?

从名字上看他的主要作用就是从给定的examples中选择需要的examples出来,提供给大模型使用,从而减少会话的token数目。

langchain中提供了这样的example_selector的实现,我们先来看下它的基础类的定义是怎么样的:

class BaseExampleSelector(ABC):
"""Interface for selecting examples to include in prompts."""

@abstractmethod
def add_example(self, example: Dict[str, str]) -> Any:
"""Add new example to store for a key."""

@abstractmethod
def select_examples(self, input_variables: Dict[str, str]) -> List[dict]:
"""Select which examples to use based on the inputs."""

可以看到BaseExampleSelector继承自ABC,并且定义了两个需要实现的抽象方法。

一个方法叫做add_example。目的是向selector中添加一个example。

一个方法叫做select_examples,主要目的就是根据input,从examples中找出要select出来的内容。

那么什么是ABC呢?

ABC当然就是你了解到的ABC,但是他还有一些额外的含义。ABC的全称叫做Abstract Base Class,也叫做抽象基类。主要用于在Python程序中创建抽象基类。

他提供了一些@abstractmethod,@abstarctproperty这些装饰方法,来表明具体类的特征。

所以,如果我们想自定义一个ExampleSelector,只需要继承自BaseExampleSelector,然后实现这两个抽象方法即可。

langchain中的ExampleSelector实现

除了自定义实现之外,langchain已经为我们提供了几个常用的ExampleSelector实现,一起来看看吧。

LengthBasedExampleSelector

LengthBasedExampleSelector是根据example的长度来进行选择的选择器。

我们看下它的具体实现:

def add_example(self, example: Dict[str, str]) -> None:
"""Add new example to list."""
self.examples.append(example)
string_example = self.example_prompt.format(**example)
self.example_text_lengths.append(self.get_text_length(string_example))

add_example的逻辑是先把example添加到examples这个list中。

然后使用example_prompt对example进行格式化,得到最终的输出。

最后再把最后输出的text长度添加到example_text_lengths数组中。

def select_examples(self, input_variables: Dict[str, str]) -> List[dict]:
"""Select which examples to use based on the input lengths."""
inputs = " ".join(input_variables.values())
remaining_length = self.max_length - self.get_text_length(inputs)
i = 0
examples = []
while remaining_length > 0 and i < len(self.examples):
new_length = remaining_length - self.example_text_lengths[i]
if new_length < 0:
break
else:
examples.append(self.examples[i])
remaining_length = new_length
i += 1
return examples

select_examples方法实际上就是用max_length减去输入text的长度,然后再去匹配example_text的长度,匹配一个减去一个,最终得到特定长度的examples。

这个selector的最主要作用就是防止耗尽context window。因为对于大多数大语言模型来说,用户的输入是有长度限制的。

如果超出了输入长度,会产生意想不到的结果。

这个selector使用起来很简单,下面是具体的例子:

examples = [
{"input": "happy", "output": "sad"},
{"input": "tall", "output": "short"},
{"input": "energetic", "output": "lethargic"},
{"input": "sunny", "output": "gloomy"},
{"input": "windy", "output": "calm"},

example_prompt = PromptTemplate(
input_variables=["input", "output"],
template="Input: {input}\nOutput: {output}",
)
example_selector = LengthBasedExampleSelector(
examples=examples,
example_prompt=example_prompt,
max_length=25,
)
SemanticSimilarityExampleSelector和MaxMarginalRelevanceExampleSelector

这两个selector是根据相似度来进行example的查找的。

其中MaxMarginalRelevanceExampleSelector是SemanticSimilarityExampleSelector的字类,他是对SemanticSimilarityExampleSelector进行了一些算法上的优化。所以这里我们把他们两个放在一起介绍。

这两个selector和之前介绍的selector有所不同。因为他们用到了向量数据库。

向量数据库是干什么用的呢?它的主要目的是把输入转换成各种向量然后存储起来。向量数据库可以方便的进行输入相识度的计算。

我们先来看下他们的add_example方法:

def add_example(self, example: Dict[str, str]) -> str:
"""Add new example to vectorstore."""
if self.input_keys:
string_example = " ".join(
sorted_values({key: example[key] for key in self.input_keys})
else:
string_example = " ".join(sorted_values(example))
ids = self.vectorstore.add_texts([string_example], metadatas=[example])
return ids[0]

这个方法先把example的key加入到input_keys中,然后进行排序。最后通过调用vectorstore的add_texts,把key和value加入到向量数据库中。

这两个selector的add_example都是一样的。只有select_examples的方法不同。

其中SemanticSimilarityExampleSelector调用了vectorstore的similarity_search方法来实现相似度的搜索。

而MaxMarginalRelevanceExampleSelector则是调用vectorstore的max_marginal_relevance_search方法来实现搜索的。

两者的搜索算法不太一样。

因为使用了向量数据库,所以他们的调用方法和其他的也不太一样:

examples = [
{"input": "happy", "output": "sad"},
{"input": "tall", "output": "short"},
{"input": "energetic", "output": "lethargic"},
{"input": "sunny", "output": "gloomy"},
{"input": "windy", "output": "calm"},

example_selector = SemanticSimilarityExampleSelector.from_examples(
examples,
# 使用的ebeddings
OpenAIEmbeddings(),
# 向量数据库
Chroma,
# 要返回的数目
k=1
)
NGramOverlapExampleSelector

最后一个要介绍的是NGramOverlapExampleSelector。这个selector使用的是ngram 重叠矩阵来选择相似的输入。

具体的实现算法和原理这里就不介绍了。大家有兴趣的可以自行探索。

这个selector也不需要使用向量数据库。

使用起来是这样的:

example_selector = NGramOverlapExampleSelector(
examples=examples,
example_prompt=example_prompt,
threshold=-1.0,

这里有个不太一样的参数叫做threshold。

对于负阈值:Selector按ngram重叠分数对示例进行排序,不排除任何示例。

对于大于1.0的阈值:选择器排除所有示例,并返回一个空列表。

对于等于0.0的阈值:选择器根据ngram重叠分数对示例进行排序,并且排除与输入没有ngram重叠的那些。

总结

有了这些selector我们就可以在提供的examples中进行特定的选择,然后再把选择的结果输入给大语言模型。

从而有效的减少token的浪费。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

央视坐实!成本2元售价19800元!不少人受骗,赶紧别用了

白色得季节
2026-01-27 21:30:49
3连败!开拓者111-115爆冷输奇才,杨瀚森创纪录,斯普利特被打脸

3连败!开拓者111-115爆冷输奇才,杨瀚森创纪录,斯普利特被打脸

小火箭爱体育
2026-01-28 11:01:29
离除夕夜不到一个月,央视春晚再传噩耗,继岳云鹏后孙涛官宣告别

离除夕夜不到一个月,央视春晚再传噩耗,继岳云鹏后孙涛官宣告别

小椰的奶奶
2026-01-27 00:18:59
伊朗前王储巴列维宣布将返回伊朗领导革命

伊朗前王储巴列维宣布将返回伊朗领导革命

一种观点
2026-01-19 19:36:11
大牛股,封死跌停!

大牛股,封死跌停!

中国基金报
2026-01-28 10:41:20
20年前挑战台北101!法国蜘蛛人「秒道贺霍诺德」 自嘲:我当年爬4小时

20年前挑战台北101!法国蜘蛛人「秒道贺霍诺德」 自嘲:我当年爬4小时

ETtoday星光云
2026-01-26 12:30:22
张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

张兰不听劝,又晒孙子孙女,小玥儿太像大S,外套7000元 个子很高

有范又有料
2026-01-27 15:42:10
三峡集团云南能源投资有限公司党委副书记、总经理吴长宇接受纪律审查和监察调查

三峡集团云南能源投资有限公司党委副书记、总经理吴长宇接受纪律审查和监察调查

潇湘晨报
2026-01-27 17:37:16
活塞险胜掘金穆雷24+10丢扳平罚球 哈里斯破16000分坎宁安22+11

活塞险胜掘金穆雷24+10丢扳平罚球 哈里斯破16000分坎宁安22+11

醉卧浮生
2026-01-28 12:22:10
联盟第一人!无缘常规赛MVP!NBA评奖规则引发质疑

联盟第一人!无缘常规赛MVP!NBA评奖规则引发质疑

篮球教学论坛
2026-01-28 10:53:40
特朗普:若遭暗杀,美国将把伊朗“从地球上抹去”

特朗普:若遭暗杀,美国将把伊朗“从地球上抹去”

扬子晚报
2026-01-27 12:19:31
终于理解为啥吕布从没斩杀有名大将,却被称为第一猛将!评论太精辟

终于理解为啥吕布从没斩杀有名大将,却被称为第一猛将!评论太精辟

热闹的河马
2024-10-08 16:25:19
局势彻底变了!美舰遭强力拦截,解放军不再克制,台独退路全断!

局势彻底变了!美舰遭强力拦截,解放军不再克制,台独退路全断!

遁走的两轮
2026-01-28 00:13:23
莫迪宣布:印度和欧盟达成自由贸易协定!欧盟:预计将使欧盟对印度出口额翻一番!汽车关税将从110%降至10%

莫迪宣布:印度和欧盟达成自由贸易协定!欧盟:预计将使欧盟对印度出口额翻一番!汽车关税将从110%降至10%

每日经济新闻
2026-01-27 16:04:06
赵一鸣零食、零食很忙合体上市 母公司鸣鸣很忙首日股价一度涨超80% 一手赚超1.8万港元

赵一鸣零食、零食很忙合体上市 母公司鸣鸣很忙首日股价一度涨超80% 一手赚超1.8万港元

每日经济新闻
2026-01-28 11:05:33
“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

“火烈鸟”导弹4发全中!空袭力度加强,俄军对地攻击导弹疑不足

鹰眼Defence
2026-01-26 17:27:05
黄金、白银基金宣布:暂停申购

黄金、白银基金宣布:暂停申购

第一财经资讯
2026-01-28 11:11:04
人一过60,永远不要在熟人面前,说以下几句话,谁说谁后悔,切记

人一过60,永远不要在熟人面前,说以下几句话,谁说谁后悔,切记

枫红染山径
2026-01-02 14:59:55
约基奇愿接受失去评奖资格!预计一周后复查:确保百分百健康回归

约基奇愿接受失去评奖资格!预计一周后复查:确保百分百健康回归

罗说NBA
2026-01-28 06:07:16
某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

某鱼惊现“天价笔”:800元一支的中性笔,藏着多少肮脏暗语?

戗词夺理
2026-01-24 16:05:41
2026-01-28 13:00:49
flydean程序那些事
flydean程序那些事
最通俗的解读,最深刻的干货!
356文章数 438关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

德媒封面:5位欧洲领导人手持武器 配文"唐纳德够了"

头条要闻

德媒封面:5位欧洲领导人手持武器 配文"唐纳德够了"

体育要闻

冒充职业球员,比赛规则还和对手现学?

娱乐要闻

王祖贤入驻某音:一条7秒视频吸粉55万

财经要闻

40倍杠杆断裂!水贝一黄金平台兑付困难

汽车要闻

中国豪华车老大之争:奥迪凭啥干掉奔驰宝马?

态度原创

亲子
艺术
健康
旅游
公开课

亲子要闻

液体钙哪个牌子好?十款权威认证儿童液体钙品牌,归一食口碑推荐

艺术要闻

震撼!19世纪油画巨匠的作品美得不可思议!

耳石症分类型,症状大不同

旅游要闻

瑞士英国等地游客的华强北数码之旅:科技感十足,称颠覆想象

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版