网易首页 > 网易号 > 正文 申请入驻

产品图AI流水线,烧钱最多的不是GPU

0
分享至

做AI生图的团队,十有八九会盯着扩散模型那一步做优化。换个小模型,换种调度策略,省一点GPU租赁费,这没什么不对。但Photoroom内部一查账,发现整条流水线里最贵的,居然不是跑生成用的那几台A100。

Photoroom的产品图生成流程,可以拆成三步:先用一个视觉语言模型看一遍原始商品图,输出结构化的描述文字;第二步让一个大语言模型把用户写的提示改写一遍,改得让扩散模型更好消化;最后才轮到搭载内部精调模型的SDXL在自有A100上出图。他们原本以为,生成这一步会是最大的成本黑洞,结果2024年第一季度的数字显示,Claude和Gemini Vision这两次调用合起来的开销,比同样工作负载下的GPU租赁费还要高。视觉理解和提示改写层,占了推理总支出的58%。


问题出得很隐蔽。团队一直用一个Python服务直接调用模型厂商的接口,没有做任何缓存。同一张产品图、同一个用户请求,重复触发的时候,依然每次都付费重新调用。也就是说,一个月里有大量请求在重复获取一模一样的描述和改写结果,钱就这么悄无声息地流走了。


拿到这个发现之后,团队开始看各种API网关方案。他们先评估了LiteLLM和Portkey。LiteLLM如果放在一个现有FastAPI服务里,属于阻力最小的选择,它的模型供应商覆盖面很不错;Portkey则提供了一个打磨得很精细的托管界面和非常清晰的分析仪表盘。但最终,他们选了Bifrost。这里的取舍,完全取决于团队自己那个有些特殊的部署环境。

Bifrost以Go二进制的方式运行,这样一来,网关进程就不会和同样跑在那台CPU上的Python推理服务争抢GIL,这点对延迟敏感的任务很重要。语义缓存是Bifrost的内建功能,不需要额外拼接。而且它提供了一个兼容OpenAI接口的端点,团队不需要改动任何SDK调用代码,直接把请求打到Gateway上就能复用现有逻辑。当然他们也很坦率地比较了另外两个选项:如果技术栈以Python为主,LiteLLM的生态位会让人更舒服;而Portkey的数据看板,用他们的话说,比Bifrost开箱自带的要漂亮不少。

在Photoroom的部署里,Bifrost作为边车跑在提示改写服务旁边,所有图片描述和提示改写请求都统一打到http://bifrost:8080/v1/chat/completions。配置并不复杂,核心是三个地方。第一是语义缓存的相似度阈值,定在0.94。这个数字不是拍脑袋来的,而是拿5000条真实请求做测试集慢慢调出来的。试过0.97,结果漏掉了太多一眼就能看出来应该复用的重复调用;而降到0.90时,已经开始出现描述相似但颜色错误的结果,这种误差在电商场景里是绝对不能容忍的。第二是预算控制,两个虚拟密钥分别给描述团队和改写团队设置了每月800美元和400美元的硬上限。第三是回落策略,主路线走Anthropic的Claude,备用走Google Vertex的Gemini,这套切换也不是装样子——他们在三月里实测到Anthropic有0.4%的5xx错误率,切换真的会被触发。


上线三周之后,语义缓存把这部分的账单砍掉了大约62%。团队回过头看这件事,最深的感受或许是:算力最密集的那个环节,未必就是成本最密集的那个环节。如果没有逐层查账,很难想到两次看似轻量的接口调用,竟然会比长时间吃GPU的生成过程还要费钱。而一个小的架构调整——把请求从直连改为经过带缓存的网关——就释放出了空间。

回头想,这不只是个技术选择,更是一种提问方式的转换。过去大家围在一起例行做性能剖析的时候,总是默认把跑扩散的GPU看作优化靶心。直到有人问了句,每一步各自花了多少钱,格局才被重新打开。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
任何一只大涨的股票,基本上都逃不过这四条铁律

任何一只大涨的股票,基本上都逃不过这四条铁律

风风顺
2026-05-28 02:45:03
特朗普暴怒!穆杰塔巴硬刚、巴铁拒绝,短短48小时,中东大棋崩盘

特朗普暴怒!穆杰塔巴硬刚、巴铁拒绝,短短48小时,中东大棋崩盘

近史谈
2026-05-28 13:53:37
“100%NFC”果汁产品,配料表前两位是水和浓缩果汁,好想来最新回应:已在全国门店下架涉事产品

“100%NFC”果汁产品,配料表前两位是水和浓缩果汁,好想来最新回应:已在全国门店下架涉事产品

鲁中晨报
2026-05-28 14:38:10
12亿美元大单落地,巴总理喜笑颜开,在杭州当众宣布:要当小中国

12亿美元大单落地,巴总理喜笑颜开,在杭州当众宣布:要当小中国

闻识
2026-05-27 18:13:51
小米米家首款手持风扇正式发布:169元起,5米送风+40小时续航

小米米家首款手持风扇正式发布:169元起,5米送风+40小时续航

泡泡网
2026-05-27 11:25:19
大外交丨爬长城、访清华、参观一大会址,武契奇的文化之旅

大外交丨爬长城、访清华、参观一大会址,武契奇的文化之旅

澎湃新闻
2026-05-28 11:46:28
油管五常的“中国镜像”:为什么韩、越、印度看到中国视频就失控

油管五常的“中国镜像”:为什么韩、越、印度看到中国视频就失控

民间胡扯老哥
2026-05-25 11:19:05
油价要跌破天了!5月26日油价迎来大幅暴跌,调价后全国油价价格

油价要跌破天了!5月26日油价迎来大幅暴跌,调价后全国油价价格

刘哥谈体育
2026-05-26 14:06:15
常德会战中一位日军机枪手的个人视角(日军大尉和军曹被狙击)

常德会战中一位日军机枪手的个人视角(日军大尉和军曹被狙击)

新车知多少
2026-05-28 13:18:58
沉默96小时后,国台办严肃定性,郑丽文紧急踩刹车:不会引战两岸

沉默96小时后,国台办严肃定性,郑丽文紧急踩刹车:不会引战两岸

叹为观止易
2026-05-28 15:32:29
“她没等我示范,自己就写下了‘和’字”,中国设计师独家披露与武契奇夫人互动细节

“她没等我示范,自己就写下了‘和’字”,中国设计师独家披露与武契奇夫人互动细节

环球网资讯
2026-05-27 23:10:13
出道22年,长相不输李小冉,被张嘉译硬捧4次,如今41岁始终不红

出道22年,长相不输李小冉,被张嘉译硬捧4次,如今41岁始终不红

白面书誏
2026-05-28 13:59:19
苏芒彻底翻车!代言的汽车遭到抵制,接受鲁豫采访的评论区也炸锅

苏芒彻底翻车!代言的汽车遭到抵制,接受鲁豫采访的评论区也炸锅

火山詩话
2026-05-26 11:15:20
越闹越大!庾澄庆公开内涵《歌手》节目组,淘汰真相彻底藏不住了

越闹越大!庾澄庆公开内涵《歌手》节目组,淘汰真相彻底藏不住了

胡一舸南游y
2026-05-27 13:43:47
没把大陆的劝诫听进去,郑丽文赴美前夕,卢秀燕真面目藏不住了

没把大陆的劝诫听进去,郑丽文赴美前夕,卢秀燕真面目藏不住了

小樾说历史
2026-05-27 11:06:03
TyC:巴萨7000万欧+费兰报价阿尔瓦雷斯,已被马竞拒绝

TyC:巴萨7000万欧+费兰报价阿尔瓦雷斯,已被马竞拒绝

懂球帝
2026-05-28 12:26:20
这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

这和不穿有啥区别?徐璐真空上阵,身材火辣,抢了所有女星风头!

川渝视觉
2026-05-27 22:29:45
工厂罢工情绪严重,公司鼓励员工离职,网友:再闹螺丝都没得打!

工厂罢工情绪严重,公司鼓励员工离职,网友:再闹螺丝都没得打!

灯锦年
2026-05-28 13:08:17
打基辅前先通知美国,俄罗斯不是升级战事,而是证明自己还有牌

打基辅前先通知美国,俄罗斯不是升级战事,而是证明自己还有牌

小嵩
2026-05-28 15:19:05
深圳首例 40多年老楼“原拆原建”开工

深圳首例 40多年老楼“原拆原建”开工

南方都市报
2026-05-28 07:07:13
2026-05-28 16:27:00
固件更新中
固件更新中
有态度网友ytd
4919文章数 38关注度
往期回顾 全部

科技要闻

台积电3纳米下半年涨价15% 明年或再涨10%

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

头条要闻

20万飞天茅台搭售40万黔茅酒 老板参加"峰会"后称被耍

体育要闻

如果雷霆拼图是这水平 马刺确实打不过

娱乐要闻

林俊杰七七与大哥嫂子的瓜剪不断理还乱

财经要闻

长鑫科技IPO过会,市值会到几万亿?

汽车要闻

限时补贴价9.28-10.98万 MG 4X正式上市

态度原创

旅游
时尚
艺术
家居
房产

旅游要闻

秀我中国|重庆奉节金凤山云海风车风景如画

上新|| 穿了4年一直被要链接,这条神裤终于出了更好穿的版本

艺术要闻

蚂蚁新总部封顶了!大圆环到底有啥魔力

家居要闻

蜂鸟餐椅 线面交错

房产要闻

突发重磅!三亚新机场公司正式成立!

无障碍浏览 进入关怀版