网易首页 > 网易号 > 正文 申请入驻

通过 5 亿 GPT token 学到的经验教训

0
分享至


【CSDN 编者按】在过去的六个月中,我们公司发布了一些大型语言模型的重要功能,我在Hacker News上读到的关于大型语言模型的介绍与我遇到的实际情况有很大的不同,因此我想分享一些在处理了大约5亿个标记后我学习到的一些经验教训。

原文链接:https://kenkantzer.com/lessons-after-a-half-billion-gpt-tokens/

未经允许,禁止转载!

作者 | KEN KANTZER 责编 | 夏萌

译者 | 弯月

出品 | CSDN(ID:CSDNnews)

首先是一些背景介绍:

  • 我们使用的是OpenAI模型。

  • 使用比例为GPT-4:85%,GPT-3.5:15%。

  • 我们专门处理了文本,因此没有gpt-4-vision、Sora、whisper等等。

  • 我们的用例是B2B,重点做摘要/分析/提取。

  • 5 亿 token 并没有想象中那么庞大,大约是75万页的文本。


第一课:提示越少越好

我们发现,对于某些常识,提示中无需枚举确切的列表,不做过多的说明得到的结果更好。GPT并不愚蠢,如果过于具体,它反而会感到困惑。

这与写代码有着本质的区别,在代码中一切都必须明确。

下面这个例子说明了这个问题:

我们的流水线中有一部分是读取一些文本块,并要求GPT将其分类到美国的50个州或联邦政府。这个任务本身并不难,我们本来可以使用字符串/正则表达式,但由于极端的特例情况太多,需要花费的时间更多。因此,我们的第一个尝试大致如下:

Here's a block of text. One field should be "locality_id", and it should be the ID of one of the 50 states, or federal, using this list:

[{"locality: "Alabama", "locality_id": 1}, {"locality: "Alaska", "locality_id": 2} ... ]

以下是一段文本。一个字段应该是“locality_id”,应为50个州或联邦政府之中的一个的ID,使用以下列表:

[{"locality: "Alabama", "locality_id": 1}, {"locality: "Alaska", "locality_id": 2} ... ]

虽然这个提示有时有效(我估计概率超过98%),但失败的次数非常多,以至于我们不得不深入挖掘。

在调查的过程中,我们注意到另一个字段“name”始终返回州的全名,而且是正确的州名,但我们并没有这样的明确要求。

所以我们改为使用name来执行简单的字符串搜索,如此就可以正常工作了。

我认为,总的来说,更好的方法应该是告诉GPT:“你肯定知道50个州,所以只需给我相关的完整名称,或者是与政府有关的联邦名称。”

很意外,对不对?提示越模糊,GPT的质量越好,且泛化能力就越强,这是典型的更高级别的委托和思考。


第二课:你不需要Langchain。你甚至可能不需要 OpenAI 在过去一年中发布的其他任何东西。只需要chat API。

Langchain 是过早抽象的完美例子。起初,我们以为我们必须使用它,因为网上就是这么说的。然而,在使用了几百万个token后,生产中大约有3~4个截然不同的大型语言模型功能,而且我们的 openai_service 文件仍然只有一个 40 行的函数:


我们唯一使用的 API 就是 chat。我们一直在提取 json。我们不需要 JSON 模式,不需要函数调用,也不需要助手(尽管我们都有)。我们甚至不使用系统提示(也许我们应该使用……)。gpt-4-turbo 发布时,我们只需更新代码库中的一个字符串。

这是一个强大的通用模型的美妙之处:少即是多。

上面的函数大约包含40行代码,其中大部分都是处理 OpenAI API 的常规 500 错误 / socket 关闭。

我们构建了一些自动截断功能,因此无需担心上下文长度限制。我们有自己的专有 token 长度估算器。代码如下:


在极端情况下,比如有很多句号或数字时(在这些情况下,token 比例为每个 token 少于 3 个字符),这段代码会失败。因此,我们有另一个专有的尝试 / 捕获重试逻辑:

我们通过这种方法取得了相当大的进展,足够灵活,可以满足我们的需求。


第三课:使用流式 API 来改善延迟,并用不定的速度向用户显示正在输出的字符实际上是 ChatGPT 的一个重大 UX 创新。

我们曾以为这只是一个噱头,但对于看到以不确定的速度输出的字符(就像逐个打出来的字母),用户的反馈非常积极,感觉就像是 AI 的鼠标/光标 UX 时刻。


第四课:GPT 非常不擅长生成空假设

我们遇到的最容易出错的提示语言是:“如果你找不到任何内容,请返回一个空输出”。GPT 经常返回一些莫名其妙的东西,还会导致它经常缺乏信心,返回空白的次数超过了预期。

我们大多数的提示都是下面这种形式:

“Here’s a block of text that’s making a statement about a company, I want you to output JSON that extracts these companies. If there’s nothing relevant, return a blank. Here’s the text: [block of text]”

“下面是一段关于一家公司的陈述文本,我希望你输出提取这些公司的 JSON。如果没有相关内容,请返回空白。文本如下:[文字内容]”。

有一段时间,我们有一个 bug,[文字内容] 可能为空。GPT 经常返回一些莫名其妙的文字。顺便说一句,GPT 很喜欢与面包店有关的词汇,比如:

  • Sunshine Bakery(阳光面包店)

  • Golden Grain Bakery(金色谷物面包店)

  • Bliss Bakery(幸福面包店)

幸运的是,解决方案是修复 bug,如果没有文字,则不发送提示。但是,当很难在程序中定义“空”,而且你需要 GPT 自行斟酌时,情况就会变得很糟糕。


第五课:“上下文窗口”是一个错误的说法,越来越大的只是输入,而不是输出

有一个鲜为人知的事实:GPT-4 有一个 128k token 的输入窗口,但它的输出窗口仍然只有 4k!“上下文窗口”这个叫法很迷惑。

但实际的问题更严重,我们经常要求 GPT 返回一个 JSON 对象列表。别想得太复杂:只是一个JSON 任务列表的数组,每个任务都有一个名称和一个标签。

然而,GPT 返回的数据不超过 10 个。我们试了试 15 个,结果成功率只有 15%。

最初,我们以为这是因为上下文窗口只有 4k,但我们检查后发现 10 个数据只有 700~800 个 token,但 GPT 就会停止。

当然,你也可以给它一个提示,一次只提出一个任务,然后给它(提示 + 任务),再提出下一个任务等等。但如果你需要和GPT 玩电话游戏,则必须处理 Langchain 之类的问题。


第六课:对于我们这些普通用户来说,向量数据库和 RAG/嵌入基本上毫无用处

我已经试过了,但每当我以为我有一个杀手级用例可以用于 RAG/嵌入时,我都感到困惑。

我认为,向量数据库/RAG 实际上是为搜索而设计的。仅限于搜索。就像谷歌和 Bing 搜索一样。原因如下:

  1. 相关度没有截止点。有一些解决方案,似乎可以通过启发式为相关度创建截止点,但实际上根本不可靠。在我看来,这破坏了 RAG,你总是冒着检索到无关结果的风险,或者太保守,你会错过重要的结果。

  2. 为什么要将向量放在一个专门的、专有的数据库中,远离所有其他的数据?除非你的数据量能达到谷歌或 Bing 的规模,否则这种上下文的丢失绝对不值得。

  3. 除非你正在进行开放式的搜索,比如说整个互联网,用户通常不喜欢语义搜索,因为会返回用户没有直接输入的内容。对于在业务应用程序中搜索的大多数应用程序来说,用户是领域专家,他们不需要你去猜测他们可能想要什么,他们会明确告诉你。

在我看来(纯猜测),对于大多数搜索案例来说,大型语言模型的一个更好的用途是使用普通的完成提示将用户的搜索转换为分面搜索,甚至是更复杂的查询(甚至是 SQL!)。但这根本不是 RAG。


第七课:基本不会出现幻觉

我们的用例基本上都是“下面是一段文本,从中提取一些内容。”一般来说,如果让 GPT 从一段文本中提取公司名称,它不会胡乱给你一个公司(除非文本中没有公司,但这是上面提到的零假设问题!)。

同样,我相信如果你是一个工程师,你也注意到了这一点:实际上 GPT 基本不会出现幻觉,它不会创造变量,或者在重写你发送给它的代码块时随机引入拼写错误。当你要求它给你一些内容时,它会产生一种幻觉:标准库函数存在,但这更像是零假设。也就是说,它不知道如何表达“我不知道”。

但如果你的用例是:“上下文完整的细节如下,请分析/总结/提取”,那么它是非常可靠的。我认为最近发布的很多产品都强调了这个确切的用例。

所以关键在于,优质的数据输入,优质的 GPT token 响应输出。


总结

下面是一些常见问题的答复:

问:我们会实现通用人工智能吗?

答:不会。至少不是 transformers + 互联网数据 + 价值亿万美元的基础设施的方法。

问:GPT-4 真的有用吗?这一切都是营销?

答:百分百有用。如今的 AI 就像互联网的早期阶段。

问:AI 会导致所有人都失业吗?

答:不会。我认为 AI 只不过降低了普通人使用机器学习/人工智能的门槛。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
兔子,你不讲武德,为什么叫“吉林一号”的卫星有138颗?

兔子,你不讲武德,为什么叫“吉林一号”的卫星有138颗?

熊孩子爱科技
2024-06-13 22:03:51
7000万镑!曼联夏窗首签达成协议,又当冤大头,埃弗顿疯狂宰客!

7000万镑!曼联夏窗首签达成协议,又当冤大头,埃弗顿疯狂宰客!

风过乡
2024-06-14 07:49:19
张兰:强势出击再爆猛料,大S人设彻底崩塌,张兰到底有多恨她?

张兰:强势出击再爆猛料,大S人设彻底崩塌,张兰到底有多恨她?

娱记掌门
2024-06-14 18:05:42
在山东,设计院倒闭潮要如约而至了

在山东,设计院倒闭潮要如约而至了

开心体育站
2024-06-14 11:52:16
歌手:汪苏泷奢香夫人太平,黄宣改编很惊喜,张钰琪声音太闷了

歌手:汪苏泷奢香夫人太平,黄宣改编很惊喜,张钰琪声音太闷了

娱记掌门
2024-06-14 21:32:18
玫瑰的故事:刚刚发生关系白晓荷就求复合!黄振华最终选择苏更生

玫瑰的故事:刚刚发生关系白晓荷就求复合!黄振华最终选择苏更生

露珠聊影视
2024-06-14 12:31:59
雷凌双擎大战秦L,工业奇迹被打败?

雷凌双擎大战秦L,工业奇迹被打败?

娱乐圈的笔娱君
2024-06-13 21:39:40
二连降!关停潮,加速了

二连降!关停潮,加速了

城市财经
2024-06-12 11:49:57
齐聚一堂,郎平、魏秋月和惠若琪现场观战中国女排比赛

齐聚一堂,郎平、魏秋月和惠若琪现场观战中国女排比赛

懂球帝
2024-06-14 22:15:25
拭目以待!苏格兰国家队官方推特晒出了安联球场的图片

拭目以待!苏格兰国家队官方推特晒出了安联球场的图片

直播吧
2024-06-14 23:18:17
三年暴亏80亿,400家店接连关闭,永辉50岁董事长一夜白头

三年暴亏80亿,400家店接连关闭,永辉50岁董事长一夜白头

拾叁生意经
2024-05-12 16:58:47
朱珠《玫瑰的故事》穿搭|出场惊艳的“玫瑰”

朱珠《玫瑰的故事》穿搭|出场惊艳的“玫瑰”

白宸侃片
2024-06-14 22:48:58
杰伦-布朗:我和塔图姆很早就认识了 在KD训练营我们就是室友

杰伦-布朗:我和塔图姆很早就认识了 在KD训练营我们就是室友

直播吧
2024-06-14 14:25:30
大爆冷!张本智和1:3被淘汰,正赛遭遇一轮游,无缘八强大名单

大爆冷!张本智和1:3被淘汰,正赛遭遇一轮游,无缘八强大名单

国乒二三事
2024-06-14 06:43:05
中专女孩姜萍高分入围阿里数赛,排名全球总12,总奖金高达400万

中专女孩姜萍高分入围阿里数赛,排名全球总12,总奖金高达400万

辉哥说动漫
2024-06-14 13:03:37
陈永贵遗孀宋玉林葬礼:郭凤莲致悼词,气氛凝重,现场人山人海

陈永贵遗孀宋玉林葬礼:郭凤莲致悼词,气氛凝重,现场人山人海

春去花还在
2024-06-14 20:01:30
永久禁止出口欧美!拜登不淡定了,中国突然亮出关键“大杀器”

永久禁止出口欧美!拜登不淡定了,中国突然亮出关键“大杀器”

星辰故事屋
2024-06-11 19:23:42
武汉两区最新人事任免

武汉两区最新人事任免

鲁中晨报
2024-06-14 13:55:13
夏洛特终于露面了!千呼万唤始出来,半年不见,牙齿更像威廉了

夏洛特终于露面了!千呼万唤始出来,半年不见,牙齿更像威廉了

亦纯杂谈
2024-06-14 10:48:05
高圆圆罕露面,央视镜头下脸上全是皱纹,网友:我妈55都没这么老

高圆圆罕露面,央视镜头下脸上全是皱纹,网友:我妈55都没这么老

娱记掌门
2024-06-14 08:08:34
2024-06-15 00:06:44
CSDN
CSDN
成就一亿技术人
24725文章数 212237关注度
往期回顾 全部

科技要闻

马斯克重获信任 豪言特斯拉市值超10个苹果

头条要闻

媒体:欧盟对华抡贸易大棒后 中方"报复"来得又快又猛

头条要闻

媒体:欧盟对华抡贸易大棒后 中方"报复"来得又快又猛

体育要闻

我们为什么还爱欧洲杯?

娱乐要闻

江宏杰秀儿女刺青,不怕刺激福原爱?

财经要闻

“石油美元”协议走向终结 影响几何?

汽车要闻

提供100/240kW双电机版本车型 乐道L60实车曝光

态度原创

数码
健康
游戏
教育
旅游

数码要闻

优派 23.8 英寸显示器 VA2457-2K-HD 开售,首发 599 元

晚餐不吃or吃七分饱,哪种更减肥?

NIP伪强队?爆冷不敌IG!粉丝怒斥:打野不会野核,下路把把0作用

教育要闻

2024年幼升小电脑派位报名,南京市教育局最新提醒!

旅游要闻

中国女游客在泰国遭假冒司机性侵 嫌疑人竟是惯犯

无障碍浏览 进入关怀版