网易首页 > 网易号 > 正文 申请入驻

一个工程师的LLM部署实验:从好奇到动手

0
分享至

去年,一位工程师在博客写下这句话:"我想知道怎么在生产环境部署大模型。"一年后,他没停在读文档,而是真的动手搭了一套——用亚马逊的容器服务跑开源推理引擎,再用几十行前端代码包成聊天机器人。

这不是某家大厂的官宣,没有融资数字,没有性能对标。但正是这种"一个人想搞清楚一件事"的起点,藏着产品人该看的细节:选什么工具、为什么选、坑在哪。


从"看看"到"做做"的转折点

作者坦承,最初只是好奇。但技术人的好奇有个特点:读多了就想跑起来。他不碰训练,只专注"怎么把模型 serving 做好"——这是工程视角的典型选择,也是很多团队从 demo 走向生产的真实分水岭。

技术栈的选型很能说明问题。推理框架他对比了 TGI、Triton、原生 HuggingFace,最终选了 vLLM。原因没展开,但结合上下文看,vLLM 的PagedAttention和连续批处理对吞吐的优化,应该是关键考量。

基础设施没选"开台 EC2 直接 SSH",而是上了亚马逊的 EKS(托管 Kubernetes)。他的理由很直接:这不是跑脚本,是搭可靠系统。GPU 节点要单独配,系统组件和推理负载要隔离,入口要用负载均衡暴露——这些都是在生产环境踩过坑才会写的。

配置即代码:一个 .env 文件暴露的工程思维

动手前,他先建了一个 .env 文件管理配置。里面分三块:AWS 账号信息、EKS 集群名、预留的 vLLM 服务端点。

这个细节很小,但值得产品人注意。硬编码是 demo 的写法,环境变量分离是工程的起点。他甚至在 VLLM_URL 那行留了注释:"部署完成后再填"——说明整个流程是设计过的,不是边写边改。

另一个容易被忽略的点是配额。AWS 新账号默认给 G 类和 VT 实例的 vCPU 配额是 0,得先去控制台申请提升到至少 4 核,才能跑 g4dn.xlarge 这个 GPU 实例。这种"云厂商的隐形门槛",文档不会主动告诉你,只有真动手的人才会写进教程。

基础设施层:零默认容量的设计意图

看代码片段,EKS 集群的创建参数里有个关键设置:default_capacity=0。意思是"不要默认节点组,我自己定义"。

这背后是明确的资源分层思路。他配了两个节点组:一个 t3.medium 跑系统组件(CoreDNS、kube-proxy),一个 GPU 节点专门跑 vLLM。配合污点(taints)和容忍度(tolerations),确保推理 pod 不会误落到 CPU 节点上。

这种设计在小型实验里显得"过重",但作者的目的很明确:模拟生产环境。产品人读到这里应该想的是——如果他的 demo 要扩成服务,这套架构几乎不用改。

GPU 节点还单独绑了 IAM 角色,挂载 EKS 工作节点策略。模型存储用的 S3,桶名直接写在配置里。整个数据流是:S3 存模型 → GPU 节点加载 → 负载均衡暴露端点 → Streamlit 前端封装。

为什么是这套组合?

拆解他的选型逻辑,能看到一条清晰的主线:每个工具解决一个明确问题,不重叠,不将就。

vLLM 负责推理效率,EKS 负责编排和可靠性,CDK(代码里用了 Python 的 AWS CDK)负责基础设施即代码,Streamlit 负责快速验证交互。没有为了追求"全链路自研"而造轮子,也没有因为"这只是个实验"而降低工程标准。

这种平衡感,往往是个人项目和企业项目的最大区别。企业容易过度设计,个人实验容易过度简陋。作者的位置卡在中间:够认真,够务实。

给产品人的两个观察

第一,"部署大模型"这个需求正在下沉。一年前还是大厂基础设施团队的专属话题,现在一个工程师用开源工具 + 云托管服务就能跑通。工具链的成熟速度,比多数人感知的更快。

第二,vLLM 这类推理引擎的崛起,说明生态竞争已经从"谁能训模型"转向"谁能跑得好"。训练看算力,serving 看工程——后者恰恰是中小团队能建立优势的地方。

作者最后没写性能数字,也没放聊天机器人的截图。但整个流程跑下来,他解决了一个更基础的问题:从"想知道"到"知道怎么做"。对大多数技术人来说,这个 gap 比任何 benchmark 都大。

至于那个还没填上的 VLLM_URL——等负载均衡的 DNS 生效后,他就会补进去。然后发现,前端调用的代码可能比基础设施还短。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么整个亚洲只有中国有山姆超市?

为什么整个亚洲只有中国有山姆超市?

流苏晚晴
2026-04-30 18:50:00
安徽小伙失联11日,警方通报:找到遗体,排除刑案 亲戚:在老家房屋附近发现

安徽小伙失联11日,警方通报:找到遗体,排除刑案 亲戚:在老家房屋附近发现

红星新闻
2026-05-01 19:03:03
中纪委2026严查新方向,这6类岗位首当其冲

中纪委2026严查新方向,这6类岗位首当其冲

细说职场
2026-05-01 08:18:54
半截舌头显真凶!2007年天津市“10·11”绿化带女尸案侦破始末

半截舌头显真凶!2007年天津市“10·11”绿化带女尸案侦破始末

路之意
2026-05-02 07:29:21
不看欧冠看英甲?瓜帅打趣:巴黎vs拜仁是一场灾难级的比赛

不看欧冠看英甲?瓜帅打趣:巴黎vs拜仁是一场灾难级的比赛

懂球帝
2026-05-01 20:05:08
宣布了!沃尔新工作!NBA状元转型成功

宣布了!沃尔新工作!NBA状元转型成功

篮球实战宝典
2026-05-01 22:08:27
登场29分钟8中2,-27正负值回报乌戈,球迷:你是沈阳张皓嘉呀

登场29分钟8中2,-27正负值回报乌戈,球迷:你是沈阳张皓嘉呀

弄月公子
2026-05-02 09:35:30
互联网是有记忆的,她的黑历史一大堆啊!

互联网是有记忆的,她的黑历史一大堆啊!

BenSir本色说
2026-04-15 22:38:07
把瑜伽裤穿成日常的松弛感美女

把瑜伽裤穿成日常的松弛感美女

只要高兴就好
2026-04-13 14:30:30
她陪主席走到最后,终身未婚,41年后同日离世,一生守密不言语

她陪主席走到最后,终身未婚,41年后同日离世,一生守密不言语

小莜读史
2026-05-02 03:24:42
下赛季出任皇马主帅?穆里尼奥:皇马没跟我联系过,我可以保证

下赛季出任皇马主帅?穆里尼奥:皇马没跟我联系过,我可以保证

懂球帝
2026-05-01 20:49:20
日本可能与中国开战?日专家曾言:与中国冲突,最长只能坚持一周

日本可能与中国开战?日专家曾言:与中国冲突,最长只能坚持一周

乡土舒四
2026-05-02 09:02:51
OpenAI诉讼案进入关键阶段,马斯克结束为期三天的作证:没有我,就没有OpenAI

OpenAI诉讼案进入关键阶段,马斯克结束为期三天的作证:没有我,就没有OpenAI

澎湃新闻
2026-05-02 09:22:26
别再花大几百买“大牌基础款”了!源头工厂告诉你:好T恤的成本,真没那么高…

别再花大几百买“大牌基础款”了!源头工厂告诉你:好T恤的成本,真没那么高…

英国报姐
2026-05-01 10:24:45
美国网友疑惑:美国曾7次帮助中国,为何中国人不感恩?

美国网友疑惑:美国曾7次帮助中国,为何中国人不感恩?

霹雳炮
2026-05-01 22:58:18
DeepSeek连夜删新论文,梁文锋到底怕什么|深度

DeepSeek连夜删新论文,梁文锋到底怕什么|深度

新浪财经
2026-05-02 00:56:33
金靖近照大变样!暴瘦脱相撞脸女星,网友:没以前有灵气了

金靖近照大变样!暴瘦脱相撞脸女星,网友:没以前有灵气了

草莓解说体育
2026-05-01 14:41:01
俄罗斯领导人谴责乌克兰使用“恐怖主义手段”袭击俄炼油厂

俄罗斯领导人谴责乌克兰使用“恐怖主义手段”袭击俄炼油厂

山河路口
2026-04-29 19:57:41
10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

10年麻将馆老板囗述:凡是爱打麻将的,没有一个人日子是过得好的

小噎论事
2026-04-24 17:15:21
第14局鏖战100分钟 吴宜泽吞5连鞭后逼疯艾伦+暂7-7 暴露致命缺陷

第14局鏖战100分钟 吴宜泽吞5连鞭后逼疯艾伦+暂7-7 暴露致命缺陷

风过乡
2026-05-02 04:48:41
2026-05-02 10:04:49
我是一个养虾人
我是一个养虾人
有态度网友ytd
2032文章数 21关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

头条要闻

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

艺术
数码
房产
本地
公开课

艺术要闻

画画的你绝不能错过!色块与笔触的激情之旅!

数码要闻

日本家电崩塌!索尼电视卖身中国厂商后 TCL CEO拜访并表态

房产要闻

所有户型全卖爆!海口TOP级豪宅,景观样板间五一全线开放!

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版