网易首页 > 网易号 > 正文 申请入驻

AI-Infra-Auto-Driven-SKILLS v0.1.0:给 Codex / Cl...

0
分享至

来源:市场资讯

(来源:GiantPandaLLM)

AI-Infra-Auto-Driven-SKILLS v0.1.0

工程地址:https://github.com/BBuf/AI-Infra-Auto-Driven-SKILLS,欢迎 star 和使用。

AI-Infra-Auto-Driven-SKILLS 达到 400 stars 后,发布 v0.1.0。这个版本整理了当前可用的一批 AI Infra SKILLS,并补充对应的使用说明。

感谢 @haosdent 和 @changhuaixin 两位 contributor。@haosdent 贡献了 vllm-sota-humanize-loop,使同一套 SOTA loop 覆盖 SGLang 和 vLLM 两个框架。@changhuaixin 贡献了 llm-pipeline-analysis、llm-serving-capacity-planner、model-compute-simulation,分别对应 trace 下钻、容量分析和 FLOPs/MFU 估算。


AI-Infra-Auto-Driven-SKILLS repo

这个仓库沉淀推理框架开发中的流程约束:先做 benchmark,避免不公平的结果比较;先检查启动日志,再决定是否修改源码;profile 时区分 prefill/decode;修改后回到同一个 workload 复测。这些流程被整理成 SKILL.md,供 Codex / Claude Code 按步骤执行。

v0.1.0 Release 地址:https://github.com/BBuf/AI-Infra-Auto-Driven-SKILLS/releases/tag/v0.1.0

这套 SKILLS 可用于 Codex 和 Claude Code。目录结构是普通的 SKILL.md,把对应目录放到各自的 skill 目录下即可。以 v0.1.0 为例:

git clone --branch v0.1.0 https://github.com/BBuf/AI-Infra-Auto-Driven-SKILLS.gitcd AI-Infra-Auto-Driven-SKILLS# Codexmkdir -p "${CODEX_HOME:-$HOME/.codex}/skills"ln -s "$PWD/skills/llm-serving-auto-benchmark" "${CODEX_HOME:-$HOME/.codex}/skills/llm-serving-auto-benchmark"ln -s "$PWD/skills/llm-torch-profiler-analysis" "${CODEX_HOME:-$HOME/.codex}/skills/llm-torch-profiler-analysis"ln -s "$PWD/skills/sglang-sota-humanize-loop" "${CODEX_HOME:-$HOME/.codex}/skills/sglang-sota-humanize-loop"ln -s "$PWD/skills/vllm-sota-humanize-loop" "${CODEX_HOME:-$HOME/.codex}/skills/vllm-sota-humanize-loop"ln -s "$PWD/model-pr-optimization-history" "${CODEX_HOME:-$HOME/.codex}/skills/model-pr-history-knowledge"# Claude Codemkdir -p "$HOME/.claude/skills"ln -s "$PWD/skills/llm-serving-auto-benchmark" "$HOME/.claude/skills/llm-serving-auto-benchmark"ln -s "$PWD/skills/llm-torch-profiler-analysis" "$HOME/.claude/skills/llm-torch-profiler-analysis"ln -s "$PWD/skills/sglang-sota-humanize-loop" "$HOME/.claude/skills/sglang-sota-humanize-loop"ln -s "$PWD/skills/vllm-sota-humanize-loop" "$HOME/.claude/skills/vllm-sota-humanize-loop"ln -s "$PWD/model-pr-optimization-history" "$HOME/.claude/skills/model-pr-history-knowledge"

可以按任务安装需要的 skill。服务压测对应 llm-serving-auto-benchmark;trace 分析对应 llm-torch-profiler-analysis 和 llm-pipeline-analysis;完整 SOTA loop 对应 benchmark、profiler、pipeline analysis、model PR history、Humanize/RLCR 相关 skill。

0x1. Core Skills

这版核心 skill 包含 10 个,对应推理框架开发、debug、profile、benchmark 中的常见场景:

Skill

解决的问题

llm-serving-auto-benchmark

对 SGLang、vLLM、TensorRT-LLM 或其它 OpenAI-compatible server 做公平的 serving benchmark 搜索。

llm-serving-capacity-planner

从 SGLang/vLLM 启动日志里看 GPU memory、KV cache、request capacity 和 OOM pressure。

llm-torch-profiler-analysis

读 torch profiler trace,输出 kernel、overlap、fuse opportunity 三张表,并把 prefill/decode 分开。

llm-pipeline-analysis

继续往 forward、layer、kernel timeline 下钻,找代表层、anchor kernel 和 Perfetto 时间范围。

model-compute-simulation

根据模型结构估算 operator shapes、FLOPs、MFU,再把 kernel 和 op 对起来看。

sglang-humanize-review

使用 2024-2025 SGLang human review 语料做代码审查,覆盖 maintainer review 中常见的正确性、测试、性能和维护性问题。

sglang-sota-humanize-loop

输入模型和硬件预算后,使 SGLang 在固定 workload/SLA 下追平或超过当前 benchmark 中可复现的最优 competitor。

vllm-sota-humanize-loop

同样的模型级 SOTA loop,不过目标框架换成 vLLM。

sglang-prod-incident-triage

线上 serving 出现 queue growth、timeout、wrong output、crash、hang 时,先提取 replay,再决定下一步 debug。

model-architecture-diagram

找 DeepSeek、GLM、Qwen、Kimi、MiniMax、Step、Hunyuan、Qwen3-VL 等模型的公开原始架构图。

另外还有 model-pr-optimization-history。它用于保存模型优化 PR 的本地知识记录。SOTA loop 在修改源码前会先查询它,确认目标模型家族已有的相关 PR、修改文件、验证风险和可复用思路,减少重复尝试。

0x2. 两个 SOTA Loop

v0.1.0 包含两个 SOTA loop。

sglang-sota-humanize-loop 面向 SGLang。给定模型和硬件预算后,流程先运行固定公平 benchmark,再判断 SGLang 是否仍有性能差距。如果存在差距,继续执行 profile、pipeline analysis、源码修改和复测。benchmark 表用于决定下一轮是否需要 patch、patch 目标位置,以及 patch 后是否产生收益。


SGLang SOTA Humanize Loop

vllm-sota-humanize-loop 面向 vLLM。流程会先对 vLLM、SGLang、TensorRT-LLM 做同预算搜索,再判断 vLLM 是否落后。如果存在差距,继续收集 profiler、pipeline analysis 和必要的 NCU 证据,再修改 vLLM 源码。


vLLM SOTA Humanize Loop

两个 loop 共同遵循以下规则:

  • 避免将已调优的目标框架与 competitor 默认配置比较,每个框架都要 bounded search。

  • 模型、精度、GPU 数、workload、SLA 固定之后,再讨论性能差距。

  • 先 profile,再用 llm-pipeline-analysis 定位到层和 kernel,然后进入源码修改。

  • 如果改的是 CUDA / Triton / CUTLASS 这类 kernel 路径,需要 counter 证据时再接 ncu-report-skill。

  • 每一轮都记录 benchmark、profile、失败尝试、patch 和复测结果,保证跨轮状态可追踪。

0x3. OpenAI Goals 和 4 组 Prompt

OpenAI Codex 的 /goal 是线程级的持久目标。SOTA 任务通常需要多轮 profile、源码修改、复测和继续/停止判断。/goal 用于在当前线程中记录完成条件:目标状态、成功证据和约束边界。官方入口在这里:https://developers.openai.com/codex/cli/slash-commands#set-an-experimental-goal-with-goal

prompts/ 目录包含 4 组 SGLang SOTA prompt:

Prompt

用法

sglang-sota-b200-prompts.md

普通 skill prompt 版本,面向 B200,覆盖 1/2/4/8 GPU 的模型级 SGLang SOTA 任务。

sglang-sota-h200-prompts.md

普通 skill prompt 版本,面向 H200,适合 ion8-h200 / ion9-h200 这类远端验证环境。

sglang-sota-b200-codex-goal-prompts.md

B200 的 Codex /goal 版本,把结果、证据、约束、清理规则和停止条件都写进持久目标。

sglang-sota-h200-codex-goal-prompts.md

H200 的 Codex /goal 版本,适合长时间 benchmark/profile/patch/revalidate 的任务。

这些 prompt 包含以下约束:开始前查询相关 open PR;workspace 必须干净;benchmark/profile 前记录 GPU 状态;资源不足时等待或停止;只清理当前模型 cache,不清理共享 cache;需要提 PR 时只推到允许的 fork;每个优化 PR 都写明 benchmark 和 GSM8K/MMLU 精度表。

这些约束用于降低数据污染、工作区污染和错误基线比较带来的风险。

0x4. 为什么做这个仓库

在推理框架任务中使用 Agent 时,需要给出具体上下文和验证方式。性能优化不适合直接从单个现象进入源码修改。可复现流程通常包括:确认 benchmark 是否公平,区分 prefill/decode,检查 kernel timeline,查询历史 PR,做小范围源码改动,最后回到同一组 workload 复测。这个链条里任何一步缺失,后续结论都可能不可靠。

AI-Infra-Auto-Driven-SKILLS 将这些流程整理成 Agent 可执行的 skill,同时保留人工检查入口。工程判断仍由人完成,skill 负责自动化重复步骤、记录中间证据和维持跨轮状态。

如果你在做 SGLang、vLLM、TensorRT-LLM、模型适配、serving 排障或者性能追踪,可以参考这个仓库,也可以继续贡献新的 AI Infra SKILLS。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
还敢去全季酒店过夜吗

还敢去全季酒店过夜吗

不正确
2026-05-28 23:04:54
再创历史新高!证监会副主席刘浩凌:去年A股公司分红总额2.55万亿

再创历史新高!证监会副主席刘浩凌:去年A股公司分红总额2.55万亿

每日经济新闻
2026-05-30 00:21:19
向太不再隐瞒!曝黄晓明曾当众给她下跪,一句话揭开两人真实关系

向太不再隐瞒!曝黄晓明曾当众给她下跪,一句话揭开两人真实关系

林轻吟
2026-05-30 09:37:08
为190元榴莲千里维权商家收到人身威胁言论,称已报警,并起诉“仅退款”买家索赔

为190元榴莲千里维权商家收到人身威胁言论,称已报警,并起诉“仅退款”买家索赔

红星新闻
2026-05-29 22:21:07
曾参演《九品芝麻官》知名男演员刘洵离世,罗家英发文悼念

曾参演《九品芝麻官》知名男演员刘洵离世,罗家英发文悼念

大象新闻
2026-05-30 10:07:04
关志鸥任湖北省委书记,王忠林另有任用

关志鸥任湖北省委书记,王忠林另有任用

新京报
2026-05-30 09:50:19
无缘冲击第25冠!德约遭19岁新星惊天逆转,新科大满贯冠军将诞生

无缘冲击第25冠!德约遭19岁新星惊天逆转,新科大满贯冠军将诞生

全景体育V
2026-05-30 05:28:06
讨论对华新限制措施,内部多国持谨慎态度,欧盟这次会议暴露深层次焦虑

讨论对华新限制措施,内部多国持谨慎态度,欧盟这次会议暴露深层次焦虑

环球网资讯
2026-05-30 06:40:11
巴萨官宣今夏首援 25岁英格兰国脚8000万欧加盟 签约5年+薪水翻倍

巴萨官宣今夏首援 25岁英格兰国脚8000万欧加盟 签约5年+薪水翻倍

我爱英超
2026-05-30 05:17:32
耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

耿同学的北航博导杨昀:论文不让国内看,跟肖飞合作,清华本硕没有一作

小小河
2026-05-29 22:41:27
耿同学又爆新料!多所985名校顶刊论文集体沦陷

耿同学又爆新料!多所985名校顶刊论文集体沦陷

网易新闻出品
2026-05-29 19:29:43
41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

41岁夫妻因“房事频繁”双双入院,医生提醒:每周不应超过一个数

医学原创故事会
2026-05-29 23:34:07
为28元外卖恶意投诉骑手,985女白领已被公司开除

为28元外卖恶意投诉骑手,985女白领已被公司开除

不写散文诗
2026-05-29 12:23:12
唐嫣素颜进幼儿园!6岁女儿戴皇冠萌翻全场,罗晋全程冷脸零互动

唐嫣素颜进幼儿园!6岁女儿戴皇冠萌翻全场,罗晋全程冷脸零互动

优墨出品
2026-05-30 08:57:35
突发!世界乒联发文道歉,WTT赛取消原因曝光,亏损没有钱举办,索林很无奈

突发!世界乒联发文道歉,WTT赛取消原因曝光,亏损没有钱举办,索林很无奈

最爱乒乓球
2026-05-30 05:04:56
湖南省农业农村厅党组书记、厅长王建球拟进一步使用

湖南省农业农村厅党组书记、厅长王建球拟进一步使用

汲古知新
2026-05-28 22:51:55
“说着说着,他的手就趁你不注意,他手就捞过来,就很熟练。”武汉女子称报案维权反遭猥亵,多次向相关部门举报、报警

“说着说着,他的手就趁你不注意,他手就捞过来,就很熟练。”武汉女子称报案维权反遭猥亵,多次向相关部门举报、报警

都市快报橙柿互动
2026-05-30 08:18:51
襄阳割麦反转?官方回应“割四赔五”是旧俗,可麦烂地里只是开始

襄阳割麦反转?官方回应“割四赔五”是旧俗,可麦烂地里只是开始

奇思妙想草叶君
2026-05-29 16:32:56
瞒不住了?比亚迪发布4nm芯片被全网扒,大家其实都弄错了重点!

瞒不住了?比亚迪发布4nm芯片被全网扒,大家其实都弄错了重点!

李将平老师
2026-05-29 20:24:30
2026-05-30 10:52:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3401548文章数 7710关注度
往期回顾 全部

科技要闻

英伟达、微软一同发布神秘预告 下周亮相?

头条要闻

茅台经销商电话轰炸企业家"搭售"卖酒:赚有钱人的钱

头条要闻

茅台经销商电话轰炸企业家"搭售"卖酒:赚有钱人的钱

体育要闻

即使是文班亚马,也做不到这件事

娱乐要闻

向太曝黄晓明曾当众给她下跪

财经要闻

双汇管不住一头猪

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

教育
游戏
时尚
房产
军事航空

教育要闻

中国海洋大学第1专业,就业现状与报考性价比分析!#金榜同行人

《暗黑破坏神4》S14赛季PTR将于6月3日开启

aespa治好了我的黑眼圈焦虑

房产要闻

顺德澐璟「澐冠」再出圈:顶阶人群不是买房,是追加“传世资产”

军事要闻

中方公布参加香会阵容 几大议题受到关注

无障碍浏览 进入关怀版