一个工程师的LLM部署实验：从好奇到动手|代码|选型|人工智能模型

一个工程师的LLM部署实验：从好奇到动手

分享至

去年，一位工程师在博客写下这句话："我想知道怎么在生产环境部署大模型。"一年后，他没停在读文档，而是真的动手搭了一套——用亚马逊的容器服务跑开源推理引擎，再用几十行前端代码包成聊天机器人。

这不是某家大厂的官宣，没有融资数字，没有性能对标。但正是这种"一个人想搞清楚一件事"的起点，藏着产品人该看的细节：选什么工具、为什么选、坑在哪。

从"看看"到"做做"的转折点

作者坦承，最初只是好奇。但技术人的好奇有个特点：读多了就想跑起来。他不碰训练，只专注"怎么把模型 serving 做好"——这是工程视角的典型选择，也是很多团队从 demo 走向生产的真实分水岭。

技术栈的选型很能说明问题。推理框架他对比了 TGI、Triton、原生 HuggingFace，最终选了 vLLM。原因没展开，但结合上下文看，vLLM 的PagedAttention和连续批处理对吞吐的优化，应该是关键考量。

基础设施没选"开台 EC2 直接 SSH"，而是上了亚马逊的 EKS（托管 Kubernetes）。他的理由很直接：这不是跑脚本，是搭可靠系统。GPU 节点要单独配，系统组件和推理负载要隔离，入口要用负载均衡暴露——这些都是在生产环境踩过坑才会写的。

配置即代码：一个 .env 文件暴露的工程思维

动手前，他先建了一个 .env 文件管理配置。里面分三块：AWS 账号信息、EKS 集群名、预留的 vLLM 服务端点。

这个细节很小，但值得产品人注意。硬编码是 demo 的写法，环境变量分离是工程的起点。他甚至在 VLLM_URL 那行留了注释："部署完成后再填"——说明整个流程是设计过的，不是边写边改。

另一个容易被忽略的点是配额。AWS 新账号默认给 G 类和 VT 实例的 vCPU 配额是 0，得先去控制台申请提升到至少 4 核，才能跑 g4dn.xlarge 这个 GPU 实例。这种"云厂商的隐形门槛"，文档不会主动告诉你，只有真动手的人才会写进教程。

基础设施层：零默认容量的设计意图

看代码片段，EKS 集群的创建参数里有个关键设置：default_capacity=0。意思是"不要默认节点组，我自己定义"。

这背后是明确的资源分层思路。他配了两个节点组：一个 t3.medium 跑系统组件（CoreDNS、kube-proxy），一个 GPU 节点专门跑 vLLM。配合污点（taints）和容忍度（tolerations），确保推理 pod 不会误落到 CPU 节点上。

这种设计在小型实验里显得"过重"，但作者的目的很明确：模拟生产环境。产品人读到这里应该想的是——如果他的 demo 要扩成服务，这套架构几乎不用改。

GPU 节点还单独绑了 IAM 角色，挂载 EKS 工作节点策略。模型存储用的 S3，桶名直接写在配置里。整个数据流是：S3 存模型 → GPU 节点加载 → 负载均衡暴露端点 → Streamlit 前端封装。

为什么是这套组合？

拆解他的选型逻辑，能看到一条清晰的主线：每个工具解决一个明确问题，不重叠，不将就。

vLLM 负责推理效率，EKS 负责编排和可靠性，CDK（代码里用了 Python 的 AWS CDK）负责基础设施即代码，Streamlit 负责快速验证交互。没有为了追求"全链路自研"而造轮子，也没有因为"这只是个实验"而降低工程标准。

这种平衡感，往往是个人项目和企业项目的最大区别。企业容易过度设计，个人实验容易过度简陋。作者的位置卡在中间：够认真，够务实。

给产品人的两个观察

第一，"部署大模型"这个需求正在下沉。一年前还是大厂基础设施团队的专属话题，现在一个工程师用开源工具 + 云托管服务就能跑通。工具链的成熟速度，比多数人感知的更快。

第二，vLLM 这类推理引擎的崛起，说明生态竞争已经从"谁能训模型"转向"谁能跑得好"。训练看算力，serving 看工程——后者恰恰是中小团队能建立优势的地方。

作者最后没写性能数字，也没放聊天机器人的截图。但整个流程跑下来，他解决了一个更基础的问题：从"想知道"到"知道怎么做"。对大多数技术人来说，这个 gap 比任何 benchmark 都大。

至于那个还没填上的 VLLM_URL——等负载均衡的 DNS 生效后，他就会补进去。然后发现，前端调用的代码可能比基础设施还短。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手机 / 数码

房产 / 家居

一个工程师的LLM部署实验：从好奇到动手

AI热潮耗尽库存，Mac Mini起售调高200美元

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

男子买虚拟手机号领券骗取超市70多万 获刑十年十个月

无奈！约基奇：这要在塞尔维亚 全队早被炒了

马筱梅产后身材恢复超好 现身户外直播

雷军很努力 小米还是跌破了30港元大关

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

画画的你绝不能错过！色块与笔触的激情之旅！

日本家电崩塌！索尼电视卖身中国厂商后 TCL CEO拜访并表态

所有户型全卖爆！海口TOP级豪宅，景观样板间五一全线开放！

用青花瓷的方式，打开西溪湿地

男子买虚拟手机号领券骗取超市70多万获刑十年十个月

男子买虚拟手机号领券骗取超市70多万获刑十年十个月

无奈！约基奇：这要在塞尔维亚全队早被炒了

马筱梅产后身材恢复超好现身户外直播

雷军很努力小米还是跌破了30港元大关

限时9.67万起吉利星越L/星瑞i-HEV智擎混动上市