4月16日到18日,QCon全球软件开发大会将在北京举办。这届大会的主题很直接:Agentic AI时代,软件工程怎么重构。Agentic AI、多智能体协作、算力优化、技术债治理、多模态、AI原生基础设施——这些词听起来像技术人员的日常菜单,但背后的问题是:AI落地到底卡在哪?
蚂蚁集团可观测技术架构师刘杨的分享,或许能回答一部分。他的题目是《让推理引擎可被"看见":大模型推理端到端Token级可观测工程实践》。
2025年,Qwen、DeepSeek这类开源模型能力追平闭源模型,vLLM、SGLang等推理引擎的进化让成本大幅下降,Agent应用随之爆发。但热闹背后有个老问题:推理链路越来越复杂,多语言、异构技术栈交织,传统微服务的可观测体系出现了明显盲区。打个比方,以前的监控像看城市交通拥堵,只看主干道车流;现在需要看清每辆车的发动机转速——而推理引擎就是那个黑盒子。
传统Trace停留在请求粒度,Token怎么生成的?性能瓶颈在哪?生产故障怎么定位?全靠猜。
![]()
蚂蚁可观测团队的做法是把观测精度下沉到Token级别。这不是简单的"看得更细",而是构建了一套覆盖全链路、全栈的深度可观测体系,让推理过程从黑盒变成白盒。具体来说,他们能实时捕获候选Token的概率分布,观测开销控制在千分点级别,不采样也能高保真运行。
刘杨会系统分享这套体系的架构设计、技术突破和典型场景。对于正在搭建AI基础设施的团队,这算是可复用的方法论。
除了这个专题,大会还安排了Agentic Engineering、多模态理解与生成、智能体记忆系统、具身智能、Agent Infra架构设计、AI重塑数据生产与消费、AI原生基础设施、AI驱动的技术债治理、小模型与领域适配、大模型算力优化、Agent可观测性与评估工程、AI for SRE等20多个论坛。100多位来自腾讯、阿里、百度、华为、小米、网易等企业的技术专家,会带来真实落地案例。
刘杨在分享提纲里列了一个实践痛点:深入引擎内部埋点,覆盖多引擎和异构硬件,维护成本确实不低。这或许解释了为什么业界首个Token级深度可观测Trace出自蚂蚁——不是所有团队都愿意啃这块硬骨头。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.