网易首页 > 网易号 > 正文 申请入驻

搜索中断的推理成本 - 大型语言模型成本分析

0
分享至

转载声明:除调整格式外,不得对原文做改写、改编。原创不易,谢谢合作!

转载请注明来源,并在文章开头添加以下文字/或公众号名片:来源:公众号☞不知名风险投资人 ♥作者:黄先生斜杠青年

♥声明:本文为原创文本,非生成式,转载请注明出处!

OpenAI 的 ChatGPT 风靡全球,仅在 100 月份就迅速积累了超过 9 亿活跃用户。这是有史以来任何应用程序增长到这种规模的最快速度,前两个记录保持者是 TikTok 的 2 个月和 Instagram 。每个人心中的首要问题是大型语言模型 (LLM) 对搜索的颠覆性。Microsoft本周发布了 Bing 公告,将 OpenAI 的技术融入搜索中,震惊了世界。

我是斜杠青年,一个PE背景的杂食性学者!♥

谷歌最近的行动让它看起来像是在跳舞。虽然我们相信谷歌拥有比世界上任何其他公司更好的模型和人工智能专业知识,但他们没有有利于实施和商业化其大部分领先技术的文化。来自Microsoft和OpenAI的竞争压力正在迅速改变这一点。

搜索领域的颠覆和创新并非一蹴而就。正如我在这里详述的那样,训练法学硕士的成本很高。更重要的是,在任何合理规模下部署模型时,推理成本远远超过训练成本。事实上,推理 ChatGPT 的成本每周都超过了训练成本。如果类似 ChatGPT 的 LLM 被部署到搜索中,这意味着谷歌 30 亿美元的利润直接转移到了计算机行业的镐头和铲子手中。

今天,我将深入探讨 LLM 在搜索中的不同用途、ChatGPT 的日常成本、LLM 的推理成本、Google 对数字的搜索中断影响、LLM 推理工作负载的硬件要求,包括 Nvidia 的 H100 和 TPU 成本比较的性能改进数据、序列长度、延迟标准、可以调整的各种杠杆, Microsoft、谷歌和Neeva解决这个问题的不同方法,以及OpenAI下一个模型架构的模型架构如何在多个方面显着降低成本。

搜索业务

首先,定义搜索市场的参数。我的消息来源表明,谷歌每秒运行~320,000次搜索查询。相比之下,谷歌的搜索业务部门在 162 年的收入为 45.2022 亿美元,每次查询的平均收入为 1.61 美分。从这里开始,谷歌必须为搜索、广告、网络爬虫、模型开发、员工等计算和网络支付大量开销。谷歌成本结构中一个值得注意的行项目是,他们支付了大约 ~$20B 作为 Apple 产品的默认搜索引擎。

谷歌服务业务部门的营业利润率为34.15%。如果我们为每个查询分配 COGS/运营费用,则每个搜索查询的成本为 1.06 美分,从而产生 1.61 美分的收入。这意味着具有LLM的搜索查询必须大大低于每次查询0.5美分<否则搜索业务对Google来说将变得非常无利可图。

ChatGPT 成本

由于几个未知变量,估算 ChatGPT 成本是一个棘手的命题。有研究机构建立了一个成本模型,表明 ChatGPT 每天的计算硬件成本为 694,444 美元。OpenAI 需要 ~3,617 台 HGX A100 服务器(28,936 个 GPU)来为 Chat GPT 提供服务。估计每个查询的成本为 0.36 美分。

该模型是在逐个推理的基础上从头开始构建的,但它与 Sam Altman 的推文和他最近所做的一次采访一致。他们假设 OpenAI 使用 GPT-3 密集模型架构,其大小为 175 亿个参数,隐藏维度为 16k,序列长度为 4k,每个响应的平均令牌数为 2k,每个用户 15 个响应,每日活跃用户数为 13 万,FLOPS 利用率比 FasterTransformer 高 2 倍,延迟为 <2000ms,int8 量化,由于纯空闲时间导致 50% 的硬件利用率, 以及每 GPU 每小时 1 USD 的成本。

请挑战他们的假设;他们很乐意使这一点更加准确,尽管他们认为他们处于正确的水平。

ChatGPT 的搜索成本

如果ChatGPT模型被强加到谷歌现有的搜索业务中,其影响将是毁灭性的。营业收入将减少36亿美元。这是 36 亿美元的 LLM 推理成本。请注意,这不是 LLM 搜索的样子,该分析在这里。

将当前的 ChatGPT 部署到 Google 所做的每次搜索中将需要 512,820.51 台 A100 HGX 服务器,总共 4,102,568 个 A100 GPU。 这些服务器和网络的总成本仅资本支出就超过100亿美元,英伟达将获得其中很大一部分。当然,这永远不会发生,但如果假设没有进行软件或硬件改进,那么有趣的思想实验。该研究模型还使用谷歌的 TPUv4 和 v5 在订阅者部分建模,这是非常不同的。他们还有一些 H100 LLM 推理性能改进数据。

令人惊奇的是,Microsoft知道将 LLM 插入搜索将压垮搜索的盈利能力,并需要巨大的资本支出。虽然该模型估计了营业利润率的变化,但请查看萨蒂亚·纳德拉(Satya Nadella)对毛利率的看法。

从现在开始,搜索的[毛利率]将永远下降。

这甚至没有考虑到这样一个事实,即随着搜索质量的提高,搜索量可能会有所下降,在LLM的响应中插入广告的困难,或者我将在本报告后面讨论的无数其他技术问题。

Microsoft摧毁了搜索市场的盈利能力。

在搜索广告市场中,每增加一个百分点的份额,微软的广告业务就是一个 2 亿美元的收入机会。

必应的市场份额微薄。任何股票收益Microsoft抢夺都将给他们带来巨大的收入和底线财务状况。

你会发现这些新模式可以做什么,但是如果你坐在一个昏昏欲睡的搜索垄断中,不得不考虑一个世界,这个世界的货币化方式和新的广告单元将面临真正的挑战,甚至可能是暂时的下行压力,你就不会对此感觉良好。

与此同时,谷歌处于守势。如果他们的搜索特许经营权步履蹒跚,他们的底线就会面临巨大的问题。股票损失看起来比上面的分析还要糟糕,因为谷歌的运营成本相当臃肿。

谷歌的回应

谷歌并没有对此置之不理。在 ChatGPT 发布后的短短几个月内,谷歌已经将他们的 LLM 搜索版本推向了公共领域。我们在新 Bing 与新 Google 上看到的情况各有优缺点。

Bing GPT 在 LLM 功能方面似乎更加强大。 谷歌已经出现了准确性问题,即使在他们舞台上演示这项新技术时也是如此。如果您同时测量 Bing GPT 和 Google Bard 响应时间,Bard 在响应时间上会碾压 Bing。这些模型响应时间和质量差异与模型大小直接相关。

Bard 将世界知识的广度与大型语言模型的力量、智慧和创造力相结合。它利用来自网络的信息来提供新鲜和高质量的响应。我们最初会用 LaMDA 的轻量级模型版本发布它。这个小得多的模型需要的计算能力要少得多,使我们能够扩展到更多的用户,从而获得更多的反馈。

谷歌正在用这个较小的模型在利润率上进行防御。他们本可以部署全尺寸的LaMDA模型或功能更强大、更大的PaLM模型,但相反,他们选择了更薄的东西。

这是出于必要。

谷歌无法将这些庞大的模型部署到搜索中。这会严重侵蚀他们的毛利率。在本报告的后面部分,我将更多地讨论这个轻量级的LaMDA版本,但重要的是要认识到,Bard的延迟优势是其竞争力的一个因素。

由于谷歌的搜索收入来自广告,因此不同的用户每次搜索会产生不同的收入水平。在印度,美国郊区女性平均每个定向广告的收入比男性农民高得多。这也意味着它们也产生了截然不同的营业利润率。

大型语言模型在搜索中的未来

将 LLM 直接投入搜索并不是改进搜索的唯一方法。多年来,谷歌一直在搜索中使用语言模型来生成嵌入。这应该可以改善最常见搜索的结果,而不会增加推理成本预算,因为这些预算可以生成一次并提供给许多人。我们在这里剥洋葱,以及可以完成的众多成本优化中的一些。

将 LLM 插入搜索的最大挑战之一是序列长度增长和低延迟标准。我将在下面讨论这些内容,以及它们将如何塑造搜索的未来。

在以后的文章中,我将在 LLM 推理和每次查询成本的背景下讨论 Nvidia A100、H100 和 Google 的 TPU。我还将分享 H100 推理性能的改进及其对硬件市场的影响。GPU与TPU的竞争力是这场战斗所固有的。

此外,无需新硬件即可显著降低每次推理的成本。往后,我将继续续写 OpenAI 在训练方面的下一个 LLM 架构改进,但推理成本也有改进。此外,谷歌还在利用一些独特的、令人兴奋的技术,我还将在以后的文章中讨论这些技术。

了解最新前沿科学、技术和应用,尽在公众号《不知名风险投资人》和《谁是药神》

关注我,带你先看到未来!♥

转载声明:除调整格式外,不得对原文做改写、改编。原创不易,谢谢合作!

转载请注明来源,并在文章开头添加以下文字/或公众号名片:来源:公众号☞不知名风险投资人 ♥作者:黄先生斜杠青年

♥声明:本文为原创文本,非生成式,转载请注明出处!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
吉利“偷袭”比亚迪

吉利“偷袭”比亚迪

蓝莓财经
2026-03-20 17:17:55
A股:股民要做好准备,主力信号明确,下周将迎来更大级别变盘

A股:股民要做好准备,主力信号明确,下周将迎来更大级别变盘

另子维爱读史
2026-03-20 18:40:52
北约、俄罗斯核战迫近,朝鲜宣布战备,中国的警告不是开玩笑

北约、俄罗斯核战迫近,朝鲜宣布战备,中国的警告不是开玩笑

荷兰豆爱健康
2026-03-20 20:15:09
东契奇引全美热议:八连胜场均41+9+7 湖人已存双山羊 9次50+全胜

东契奇引全美热议:八连胜场均41+9+7 湖人已存双山羊 9次50+全胜

颜小白的篮球梦
2026-03-20 11:22:58
快讯!蔡正元:“送行”!

快讯!蔡正元:“送行”!

达文西看世界
2026-03-20 09:37:59
演完《小巷人家》演《好好的时光》,他12岁乖巧清秀,神似陈昊宇

演完《小巷人家》演《好好的时光》,他12岁乖巧清秀,神似陈昊宇

娱君坠星河
2026-03-20 17:55:06
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
4s店蹭饭260顿后续:经调解,一周吃三顿,赔付2000元,车主不同意

4s店蹭饭260顿后续:经调解,一周吃三顿,赔付2000元,车主不同意

观察鉴娱
2026-03-20 09:57:04
胡衡华,靴子落地

胡衡华,靴子落地

辇毂
2026-03-20 14:26:40
苹果官网紧急更新,建议升级!

苹果官网紧急更新,建议升级!

花果科技
2026-03-20 11:23:22
被传远赴英国几天,翁帆近况曝光,杨振宁儿子一举动让她甩掉黑锅

被传远赴英国几天,翁帆近况曝光,杨振宁儿子一举动让她甩掉黑锅

逗比演员说体育
2026-03-18 14:45:20
伊朗伊斯兰革命卫队发言人遇袭身亡

伊朗伊斯兰革命卫队发言人遇袭身亡

潇湘晨报
2026-03-20 16:25:45
价格大跳水!许多浙江人爱吃,正大量上市→

价格大跳水!许多浙江人爱吃,正大量上市→

杭州之声
2026-03-20 18:49:35
无名指长于食指,拥有此手相的人,晚年往往会出现这四种不同的走向

无名指长于食指,拥有此手相的人,晚年往往会出现这四种不同的走向

唠叨说历史
2026-03-19 14:30:03
我在现场|坚守在德黑兰的日与夜

我在现场|坚守在德黑兰的日与夜

新华社
2026-03-20 15:28:59
中国东风-61导弹!这枚“压轴”武器,在全球到底是什么段位?

中国东风-61导弹!这枚“压轴”武器,在全球到底是什么段位?

音乐时光的娱乐
2026-03-20 18:12:50
撕破脸!美国祭出最毒一招:用伊朗的石油,绞杀伊朗!

撕破脸!美国祭出最毒一招:用伊朗的石油,绞杀伊朗!

老马拉车莫少装
2026-03-20 00:01:43
龚琳娜自曝离婚内幕:“我们抱着睡了20年,他却有了女朋友,我还认识......”

龚琳娜自曝离婚内幕:“我们抱着睡了20年,他却有了女朋友,我还认识......”

草莓解说体育
2026-03-20 15:11:59
江西情侣分手引爆全网!男生怒晒2.8万PPT,连私密记录都公开了

江西情侣分手引爆全网!男生怒晒2.8万PPT,连私密记录都公开了

行者聊官
2026-03-19 16:44:44
背靠背三双又刷6纪录!41岁詹皇19+15+10盖世里程碑 复出5战全胜

背靠背三双又刷6纪录!41岁詹皇19+15+10盖世里程碑 复出5战全胜

颜小白的篮球梦
2026-03-20 10:48:51
2026-03-20 21:24:49
黄先生斜杠青年 incentive-icons
黄先生斜杠青年
科普新知,最新前沿科学资讯!
917文章数 615关注度
往期回顾 全部

科技要闻

新SU7只涨4千!雷军:真怕交车慢挨骂

头条要闻

美防长:盟友不知感恩 全世界都应对特朗普说声"谢谢"

头条要闻

美防长:盟友不知感恩 全世界都应对特朗普说声"谢谢"

体育要闻

6年前的一场悲剧,造就了“法国瓦尔迪”

娱乐要闻

总台首届电影盛典,“沈马”CP再合体

财经要闻

金融法草案向社会公开征求意见

汽车要闻

何小鹏坦白局:每月3亿的“慌”与通向L4的坚定

态度原创

本地
游戏
时尚
旅游
军事航空

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

《生化9》“玉足”3D美图来了!连里昂的脚都不放过

今日热点:张译张小斐担任天坛奖评委;《白日提灯》发布定档预告……

旅游要闻

柳绿花红春分至 枣庄薛城锦阳河畔满目皆春光

军事要闻

特朗普会晤高市早苗 把美国袭击伊朗比作偷袭珍珠港

无障碍浏览 进入关怀版