蚂蚁把大模型推理扒到Token级，运维终于不用猜了|刘杨|引擎|token

蚂蚁把大模型推理扒到Token级，运维终于不用猜了

2026-03-26 11:57:25　来源: 薛定谔的BUG

北京举报

分享至

4月16日到18日，QCon全球软件开发大会将在北京举办。这届大会的主题很直接：Agentic AI时代，软件工程怎么重构。Agentic AI、多智能体协作、算力优化、技术债治理、多模态、AI原生基础设施——这些词听起来像技术人员的日常菜单，但背后的问题是：AI落地到底卡在哪？

蚂蚁集团可观测技术架构师刘杨的分享，或许能回答一部分。他的题目是《让推理引擎可被"看见"：大模型推理端到端Token级可观测工程实践》。

2025年，Qwen、DeepSeek这类开源模型能力追平闭源模型，vLLM、SGLang等推理引擎的进化让成本大幅下降，Agent应用随之爆发。但热闹背后有个老问题：推理链路越来越复杂，多语言、异构技术栈交织，传统微服务的可观测体系出现了明显盲区。打个比方，以前的监控像看城市交通拥堵，只看主干道车流；现在需要看清每辆车的发动机转速——而推理引擎就是那个黑盒子。

传统Trace停留在请求粒度，Token怎么生成的？性能瓶颈在哪？生产故障怎么定位？全靠猜。

蚂蚁可观测团队的做法是把观测精度下沉到Token级别。这不是简单的"看得更细"，而是构建了一套覆盖全链路、全栈的深度可观测体系，让推理过程从黑盒变成白盒。具体来说，他们能实时捕获候选Token的概率分布，观测开销控制在千分点级别，不采样也能高保真运行。

刘杨会系统分享这套体系的架构设计、技术突破和典型场景。对于正在搭建AI基础设施的团队，这算是可复用的方法论。

除了这个专题，大会还安排了Agentic Engineering、多模态理解与生成、智能体记忆系统、具身智能、Agent Infra架构设计、AI重塑数据生产与消费、AI原生基础设施、AI驱动的技术债治理、小模型与领域适配、大模型算力优化、Agent可观测性与评估工程、AI for SRE等20多个论坛。100多位来自腾讯、阿里、百度、华为、小米、网易等企业的技术专家，会带来真实落地案例。

刘杨在分享提纲里列了一个实践痛点：深入引擎内部埋点，覆盖多引擎和异构硬件，维护成本确实不低。这或许解释了为什么业界首个Token级深度可观测Trace出自蚂蚁——不是所有团队都愿意啃这块硬骨头。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.