网易首页 > 网易号 > 正文 申请入驻

大模型价格“卷”起来了,幻方、字节和智谱纷纷下场,GPT4一年降价超80%

0
分享至

不少人有这样一个判断:2024会是推理的元年。据英伟达2023年财报电话会议披露,公司全年数据中心里已经有40%的收入来自推理业务,超出了绝大部分人预期。

让人没想到的是,推理端的爆发率先在大模型价格上卷了起来。今年5月,幻方、字节先后发布新模型,价格动辄市面上原有模型的1%。同时,智谱也官宣了新的价格体系,将入门级产品GLM-3 Turbo模型的价格下调了80%。

这样的趋势,同样也在国外发生。自去年以来,OpenAI已经进行了4次降价。在刚刚结束的春季功能更新会上,OpenAI宣布了其最新模型GPT-4o,不仅性能有大幅提升,价格也下调了50%。

那么,驱动这轮大模型推理成本下降的逻辑是什么?我们又应该如何理解推理成本下降对产业的意义?

降本超预期!GPT4一年降价超80%

从5月召开的发布会来看,各家在大模型价格上卷得越来越厉害了。

5月6日,幻方量化旗下DeepSeek(深度求索)发布第二代MoE模型DeepSeek-V2,该模型API定价为每百万Tokens输入1元、输出2元(32K上下文),价格为GPT-4 Turbo的近百分之一。

5月11日,智谱大模型官宣新的价格体系,新注册用户可以获得额度从500万 tokens 提升至2500万 tokens,并且入门级产品GLM-3 Turbo模型调用价格从5元/百万Tokens降至1元/百万Tokens,降幅高达80%。

5月13日,OpenAI发布GPT-4o,不仅在功能上大幅超越GPT-4 Turbo,价格只有一半。

5月15日,豆包主力模型为0.0008元/千Tokens,即0.8厘就能处理1500多个汉字,宣称比行业便宜了99.3%。在32K(千字节)以下主力模型中,每1000 Tokens(大模型文本中的一个最小单位)的企业市场使用价格,GPT-4(美国AI研究公司OpenAI旗下的大模型)为0.42元,百度文心一言和阿里通义千问为0.12元。

可以看到,大模型降价既有GLM-3 Turbo这样的入门模型,也有像性能接近GPT-4 Turbo的主力模型。而从OpenAI过去一年的动作看,降价也一直其升级的主线。

算上此次GPT-4o的发布,2023年年初以来,OpenAI已经进行了4次降价。去年3月,OpenAI开放了gpt-3.5-turbo,每1000个token的成本为0.002美元,价格比此前的GPT-3.5模型下降了90%。

到去年11月,OpenAI发布了GPT-4 Turbo的同时,也对整个平台的价格做出了调整。其中,GPT-4 Turbo输入tokens价格是GPT-4的1/3,为0.01美元/1k tokens(折合人民币约0.07元),输出tokens价格是其1/2,为,折合人民币约0.22元)。


今年1月,OpenAI推出了新版的GPT-3.5-Turbo,型号为gpt-3.5-turbo-0125,gpt-3.5-turbo-0125输入的价格降低了50%,为0.0005美元/1000 tokens,输出价格也降低了25%,为0.0015美元/1000 tokens。

此外,OpenAI还推出饿了两个新一代embedding模型:text-embedding-3-small和text-embedding-3-large。其中,text-embedding-3-small远比OpenAI之前的text-embedding-ada-002模型效率高,因此价格也大幅降低了5倍,从每千token的0.0001美元降至0.00002美元。

从去年3月OpenAI发布GPT4到现在,其产品从GPT4升级到GPT-4o,输入价格从0.03美元/1k tokens下降到0.005美元/1k tokens,降幅为83%;输出价格从0.06美元/1k tokens下降到0.015美元/1k tokens,降幅为75%。

根据此前预期,大模型大致将按照每年50-75%幅度降本,也就是说,现在大模型的降本速度远超预期。

模型优化驱动下的成本下降

过去,大模型推理成本下降,很大程度要依赖于算力的升级。但纵观过去一年,推理成本的下降,是在算力没有升级的情况完成的,包括架构创新、推理优化、系统升级、甚至推理集群计算架构方面等等。

这意味着,除了算力升级外,模型优化本身也有着很大的空间。从目前看,算法框架革新主要有两条思路:轻量化和线性化。

其中,轻量化以Mixtral 8*7B模型为代表,其核心思路是采用混合专家模型MoE,架构中基于多个专家并行机制,推理时只激活部分专家,以稀疏性压缩了参数数量和推理成本。

MoE架构主要由两个关键部分组成:专家网络和门控机制。所谓的“专家网络”,就是传统Tranformer架构的FFN(前馈网络)层是一个完全连接的神经网络,MoE架构的FFN层则划分成稀疏性的神经网络,这些被称之为“专家”的小FFN,每个都有自己的权重和激活函数,它们并行工作、专注于处理特定类型的信息。而门控机制则用来决定每个token被发送到哪个专家网络的调配器。

MoE架构强调“术业有专攻”,把不同的问题交给相应领域的专家来解决,就好比一家公司有多个部门,在做决策的时候,公司的CEO会把具体的问题分配到相关的部门进行讨论,最终产生最优的决策。

与轻量化不同,线性化更注重对信息的压缩。Transformer架构模型在推理时与上下文内容进行逐字对比,而线性化模型对前文信息进行了压缩,实现了复杂度线性化,意味着更快的推理速度和更低的计算成本。

此次DeepSeek-V2的降价,就是其通过架构创新,实现了大模型成本尤其是推理成本下降的结果。具体来说,DeepSeek-V2在注意力机制和稀疏层方面做出了创新性的设计。

一方面,其稀疏MoE架构进行了共享专家等改进,相比V1的稠密模型,节约了42.5%的训练成本。另一方面,DeepSeek-V2也创新性地运用先进的注意力机制MLA,压缩token生成中对key value的缓存,极大降低了推理成本。

长期来看,在算力升级以及架构优化等一系列因素的推动下,模型推理成本下降的速度很有可能超出大家预期,并加速应用层的不断创新和生态繁荣。

一场成本驱动型生产力革命

从过去看,科技变革本质上都是伴随着边际成本的大幅下降。根据A16Z的合伙人Martin Casado的观点,过去几十年人类大致经历了两次大的科技变革,分别是芯片和互联网。

在新一波浪潮里,芯片的诞生,将计算的边际成本降到了趋近为零。在微芯片出现之前,计算是通过手工完成的。人们在大房间里做对数表。然后ENIAC被引入,计算速度提高了四个数量级,然后发生了计算机革命。这一时期出现了IBM、惠普等公司。

到了互联网时代,互联网技术将分发的边际成本降到了零。以前无论你发送什么(一个盒子或者一封信)都需要一定的成本,互联网出现后,每bit的价格急剧下降。顺便说一下,这也是四个数量级改进。这引领了互联网革命。这一时期出现了亚马逊、谷歌和Meta等公司。

与上述两个技术类似,AI也同样是一场成本驱动型生产力革命。大模型则是将创造的边际成本降到了零,比如创建图像和语言理解等等。

举个例子,以前创造一个漫画角色可能需要一个时薪100美元平面设计师,而现在大模型只需要0.01美元,而且只需要一秒钟。再以客服行业为例,目前普遍的AI客服定价都隐含相比人工客服接近1:10的ROI,这意味着过去在美国一位年薪5万刀的客服人员,在应用大模型产品后成本会降低到5000刀。

目前受限于模型推理成本较高,AI应用普遍面临较大的成本压力。

根据无问芯穹发起人汪玉,用公开数据做了一次针对算力成本数量级的测算,假设GPT-4 Turbo每天要为10亿活跃用户提供服务,每年的算力成本可能超过两千亿,这还不包括模型训练的投入。

绝大部分公司的收入仍然还在亿的级别,因此这种成本在打造商业闭环上,显然是不成立的。

从这个角度上说,推理成本下降将成为打开AI应用的重要“开关”。更重要的是,过去的科技发展历史,告诉我们,如果需求具有弹性,那么随着成本下降,使用量也会因为可及性提升而答复增加。

几乎可以肯定的是,互联网大幅带动了全球经济的增长。而人工智能大概率也将经历同样的故事。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
农村留守妇女的性生活到底有多尴尬?

农村留守妇女的性生活到底有多尴尬?

书画艺术收藏
2024-03-06 19:00:05
组图|美好的,留在心底

组图|美好的,留在心底

花小猫的美食日常
2024-05-31 04:05:02
韦世豪:当初卖车打包行李没去成莱万特,现在没能力去五大了

韦世豪:当初卖车打包行李没去成莱万特,现在没能力去五大了

懂球帝
2024-06-01 20:24:02
小宝探花翻车记,部分视频堪称业内颜值巅峰

小宝探花翻车记,部分视频堪称业内颜值巅峰

挪威森林
2024-05-31 13:46:59
军演结束,沉寂7天后,大陆对台放出第二个大招,钝刀子割肉更痛

军演结束,沉寂7天后,大陆对台放出第二个大招,钝刀子割肉更痛

青年的背包
2024-06-01 19:42:59
俄方提出的管道新方案,中国没反对,但在价格上,俄方仍不想让步

俄方提出的管道新方案,中国没反对,但在价格上,俄方仍不想让步

言哥动漫推
2024-06-02 00:32:27
专家指出三大原因:所有罪名成立,特朗普不会在监狱里待上一分钟

专家指出三大原因:所有罪名成立,特朗普不会在监狱里待上一分钟

冠世
2024-06-01 10:26:24
哈尔滨地铁3号线这项工程通过验收

哈尔滨地铁3号线这项工程通过验收

生活报
2024-05-31 16:24:36
纳赛尔:尤文图斯已重新加入ECA,希望皇马、巴萨尽快回归

纳赛尔:尤文图斯已重新加入ECA,希望皇马、巴萨尽快回归

懂球帝
2024-06-01 20:24:02
残忍超乎想象!21岁女孩被杀害并分尸,头颅在山上,躯干在海里

残忍超乎想象!21岁女孩被杀害并分尸,头颅在山上,躯干在海里

小怪吃美食
2024-06-01 10:29:42
美女写真:这身高和容貌,她居然是日本网红?

美女写真:这身高和容貌,她居然是日本网红?

书画艺术收藏
2024-06-01 20:30:09
3-0!中国女排横扫泰国,李颖指出最大问题:二传不是高水平

3-0!中国女排横扫泰国,李颖指出最大问题:二传不是高水平

天涯沦落人
2024-06-01 20:49:54
张思南:“速胜”无望的战场上,没有人是理性的

张思南:“速胜”无望的战场上,没有人是理性的

直新闻
2024-06-01 22:27:02
江苏女子长得漂亮,一脸自信找前任复合,对方:我又不是收破烂的

江苏女子长得漂亮,一脸自信找前任复合,对方:我又不是收破烂的

四象八卦
2024-06-01 19:06:58
蔡文静的腿究竟差在了哪里?有网友说蔡文静的腿奇奇怪怪的

蔡文静的腿究竟差在了哪里?有网友说蔡文静的腿奇奇怪怪的

圈里的甜橙子
2024-05-31 09:09:58
浜崎步现身儿子学校公开课,豪车亮相引爆全网!

浜崎步现身儿子学校公开课,豪车亮相引爆全网!

小日子万象
2024-05-31 14:09:02
密密麻麻全是人!贵阳海豚广场开业,严重怀疑全贵阳一半人来逛了

密密麻麻全是人!贵阳海豚广场开业,严重怀疑全贵阳一半人来逛了

王晓爱体彩
2024-06-01 20:15:52
凯莉·詹娜被《福布斯》从亿万富翁榜踢出,或因编织商业谎言入狱

凯莉·詹娜被《福布斯》从亿万富翁榜踢出,或因编织商业谎言入狱

龙飞的渔乐江湖呀
2024-06-01 15:30:25
确认!武大女选调生已离职,整个学校被牵连,野妇论导师也逃不了

确认!武大女选调生已离职,整个学校被牵连,野妇论导师也逃不了

影孖看世界
2024-05-30 21:03:00
国家卫健委: 家长应关注孩子“远视储备量”,避免过早耗尽

国家卫健委: 家长应关注孩子“远视储备量”,避免过早耗尽

南方都市报
2024-05-31 22:06:15
2024-06-02 02:48:49
钛媒体APP
钛媒体APP
独立财经科技媒体
102402文章数 858515关注度
往期回顾 全部

科技要闻

余承东:不卷价格!雷军:将双班制生产!

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

头条要闻

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

体育要闻

女排最强2主攻合体 合砍40分打懵泰国

娱乐要闻

白玉兰提名:胡歌、范伟争视帝

财经要闻

实锤!普华永道,危!

汽车要闻

吉利银河E5 Flyme Auto智能座舱首发

态度原创

旅游
房产
健康
公开课
军事航空

旅游要闻

台北故宫博物院新展:文书珍品里的端阳时节

房产要闻

重磅!琼海出台楼市新政:住房出租、挂牌计划出售,都可减套数!

晚餐不吃or吃七分饱,哪种更减肥?

公开课

近视只是视力差?小心并发症

军事要闻

拜登称以色列提出新的三阶段停火方案

无障碍浏览 进入关怀版