4月16日到18日,QCon全球软件开发大会将在北京举办。这届大会的主题很直白:Agentic AI时代,软件工程怎么重做。
蚂蚁集团可观测技术架构师刘杨会在"Agent可观测性与评估工程"专题出场,分享《让推理引擎可被"看见":大模型推理端到端Token级可观测工程实践》。
2025年,Qwen、DeepSeek这类开源模型已经逼近闭源水平,vLLM、SGLang等推理引擎的进化直接把推理成本打下来,Agent应用随之爆发。但热闹背后有个麻烦:大模型驱动的推理链路变得极其复杂——多语言、异构技术栈交织,传统微服务那套可观测体系突然失效了。
最要命的是推理引擎这个核心节点。传统Trace只能看到请求粒度,Token是怎么一个个蹦出来的,完全是个黑盒。性能优化没抓手,线上出问题只能靠猜。
蚂蚁可观测团队的解法是把观测精度下沉到Token级别。不是采样,是实时、全量、千分点开销的透视——相当于给推理引擎装了台显微镜,能实时捕获每个候选Token的概率分布。
刘杨会分享这套体系的架构设计、技术突破和落地案例。几个关键看点:
![]()
链路盲区怎么补:多语言、异构技术栈的观测覆盖
引擎黑盒怎么拆:从请求Trace到Token级白盒
观测成本怎么控:不采样、千分点开销的高保真方案
社区标准怎么推:覆盖vLLM、SGLang等主流引擎的Trace统一规范
这套东西已经在蚂蚁生产环境大规模跑了。维护成本确实不低——深入引擎埋点、适配多引擎和异构硬件,都是硬骨头。
除了这个专题,QCon北京站还安排了Agentic Engineering、多模态、具身智能、AI驱动的技术债治理等20多个方向,100多位来自腾讯、阿里、百度、华为、小米、网易等企业的技术专家会分享一线实战经验。
详情可以联系票务经理18514549229。刘杨在演讲末尾留了句话:观测精度决定了优化上限——这话放在大模型时代,大概会变成基础设施团队的日常焦虑。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.