网易首页 > 网易号 > 正文 申请入驻

字节跳动开源大模型Seed-OSS-36B,本地部署,性能实测

0
分享至

大家好,我是 Ai 学习的老章

字节跳动发布 Seed-OSS 系列大模型有段日子了,最近有空升级了 vLLM,拿出一张 H200 实际部署看看显存占用及性能情况

Seed-OSS-36B

本地字节跳动发布的大模型包括 3 个版本:

  • Seed-OSS-36B-Base(基础模型,含合成数据版本)

  • Seed-OSS-36B-Base-woSyn(基础模型的"纯净版",不含合成数据版本)

  • Seed-OSS-36B-Instruct(指令微调版本)

模型大小都是 36B。这个模型的特性是可以调整思考长度(类似 GPT-OSS 调整思考长度的 low-high). 以及 Agent 性能进行了优化。原生上下文长度为 512K。

Seed-OSS-36B 模型的主要特性如下:

  • 原生 512K 上下文窗口:端到端专为超长上下文训练,可一次性吞入海量文档、多步链路与智能体轨迹,远超常见 128K 开源上限。

  • “思考预算”灵活可控:用户可动态调节推理长度,在成本/延迟与推理深度之间权衡——便于生产级推理管理。

  • 推理与智能体性能:模型针对复杂问题求解与工具使用场景调优,同时保持均衡的通用能力。

  • 面向研究的发布策略:提供两个基础模型——一个带有合成指令数据,开箱即用性能更高;一个不带合成数据,基础更“纯粹”——同时满足应用与学术需求。

  • 现代 LLM 架构:因果解码器仅 Transformer,采用 RoPE 位置编码、GQA 注意力、RMSNorm 和 SwiGLU 激活;共 64 层、36B 参数、5120 隐藏维度、155K 词表。

原生 512K 上下文解锁了全新的应用类别:

  • 长文本分析:多文档综合(RFP、法律、研究文献)、大规模日志分析,以及端到端会议语料推理。

  • 智能体轨迹:在单会话预算内,保留多步工具调用及类似思维链的中间状态或批评。

  • 大规模 RAG:最小化分块压力、扩大检索窗口,实现更丰富的跨段推理,无需激进截断策略。

由于长上下文是原生训练(而非后期追加),模型在超长文本上应能更好保持稳定性与注意力行为,不过仍需针对具体应用做延迟与内存优化。

Seed-OSS-36B-Instruct

完成预训练的 Seed-OSS-36B-Base 模型在多数评测基准上有较好表现,效果优于不包含合成数据的 woSyn 版本。

Seed-OSS-36B-Instruct 是基于 Seed-OSS-36B-Base 进行后训练的模型版本,在数学、代码、推理、Agent 能力、长文本能力等评测中,接近或达到同级别尺寸开源模型的最好水平。

经过指令微调的变体强调指令遵循、推理、智能体任务、编程、多语言、安全性和长上下文,在多个领域都取得了 SOTA 成绩:

  • 数学与推理:Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成绩,在 BeyondAIME 上取得 65,均代表开源领域的最新 SOTA 水平。

  • 代码能力:在 LiveCodeBench v6 上,Instruct 模型得分 67.4,同样刷新 SOTA 纪录。

  • 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。

vLLM 本地部署省流:vllm 官方正式版本 0.10.1 及以内版本均部署失败

官方文档提到使用 vllm >= 0.10.0 或更高版本进行推理,还要安装支持 Seed-OSS 的 vLLM 版本:

VLLM_USE_PRECOMPILED=1 VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL=1 pip install git+https://github.com/vllm-project/vllm.git

内网搞起来还是麻烦,我测试,vllm 至少要 0.10.2 版本才支持 Seed-OSS(0.10.1 和 0.10.1.1 都不行),还有最近热门模型 Qwen3-Next

我是使用 docker 部署的 vllm 0.10.2

具体过程:

docker pull vllm/vllm-openai:v0.10.2 docker save vllm/vllm-openai:v0.10.2 > vllm102.tar # tar 包传入生产内网 docker load -i  vllm102.tar  docker run --rm --runtime nvidia   --name seed36-server --ipc=host --gpus '"device=3"'   -p 8007:8000 -v /data/ai:/models vllm/vllm-openai:v0.10.2  --model /models/seed-oss-36-instruct  --chat-template   /models/seed-oss-36-instruct/chat_template.jinja   --served-model-name seed-oss-36 --port 8000   --max-num-seqs 8 --max-model-len  65536 --gpu-memory-utilization 0.6

我的卡是 141GB 显存,刚开始设置 64K 上下文,--gpu-memory-utilization 0.6 报错了,显示空间不足

这是因为模型文件 74GB 左右,64K 的max-model-len,KV 显存需要 16GB

所以调整后顺利加载模型了

对接到 openwebui

日志显示生成速度 48Tokens/s 的样子

跑了一下测试脚本,并发很低,总体生成速度 320 多

重新部署,将--max-num-seqs 调整到 50

docker run --rm --runtime nvidia --name seed36-server  --ipc=host --gpus '"device=3"'  -p 8007:8000  -v /data/ai:/models vllm/vllm-openai:v0.10.2  --model /models/seed-oss-36-instruct  --chat-template   /models/seed-oss-36-instruct/chat_template.jinja   --served-model-name seed-oss-36  --port 8000  --max-num-seqs 50  --max-model-len  65536 --gpu-memory-utilization 0.7

重新测试,总体平均 Tokens 1500+Tokens/s

很不错了

这个模型的官方测评结果看,各个方面都领先 Qwen3-32B,尤其是长上下文处理测试中,该模型达到 94.6,创下开源模型的最高分。据我所知,很多公司级的知识库应用多是调用 Qwen3-32B,Seed-OSS-36B-Instruct 这个超长上下文还是很有优势的。

另外,它还有可控思维预算机制,用户可以根据任务复杂性灵活指定模型的推理长度,如设置为 512、1K、2K、4K、8K 或 16K 等。模型在推理过程中会定期触发自我反思,估计已消耗和剩余的预算,对于简单任务可快速响应,复杂任务则可分配更多预算进行深度思考。

但是应该是为了实现这个灵活的推理预算控制,它的思考标签是 seed:think,所以在 openwebui 中它的思考过程不会被准确识别,将会被截断输出到对话框。如果后续对接 Agent 平台不知道会不会有毛病,增加开发成本。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孟子义和李昀锐全程零互动、综艺不同队、行程全错开,昀牵孟绕真的be了吗?

孟子义和李昀锐全程零互动、综艺不同队、行程全错开,昀牵孟绕真的be了吗?

情感大头说说
2026-05-15 14:16:58
阿里巴巴,全年收入首次超1万亿元!平头哥自研GPU芯片已实现规模化量产!云和AI成新增长引擎

阿里巴巴,全年收入首次超1万亿元!平头哥自研GPU芯片已实现规模化量产!云和AI成新增长引擎

前沿科技学习分享圈
2026-05-14 23:31:28
中美谈判桌炸出4颗深水炸弹:特朗普千亿订单被中国反手撕碎?

中美谈判桌炸出4颗深水炸弹:特朗普千亿订单被中国反手撕碎?

小莜读史
2026-05-14 13:43:45
亚洲杯战报:神秘之师丢球险胜,日本再零封,中国进两球惜败

亚洲杯战报:神秘之师丢球险胜,日本再零封,中国进两球惜败

余憁搞笑段子
2026-05-15 16:20:06
中美会晤结束,特朗普松开了中方的手,李在明笑了高市却要哭了

中美会晤结束,特朗普松开了中方的手,李在明笑了高市却要哭了

素颜为谁倾城人
2026-05-15 21:05:40
卖大麻不交税!加州政府拿华人开刀,华人店主被控66项重罪,面临超50年刑期

卖大麻不交税!加州政府拿华人开刀,华人店主被控66项重罪,面临超50年刑期

大洛杉矶LA
2026-05-16 01:08:40
京东外卖急刹车:500亿买来的,不只是止损

京东外卖急刹车:500亿买来的,不只是止损

快消经纬
2026-05-13 19:47:54
G1输上海发布会!许利民直指遗憾,回应双塔组合与manman伤势!

G1输上海发布会!许利民直指遗憾,回应双塔组合与manman伤势!

篮球资讯达人
2026-05-15 22:19:54
中美会晤结束,中方一锤定音,特朗普喊话全球,美媒:美国变了

中美会晤结束,中方一锤定音,特朗普喊话全球,美媒:美国变了

杰丝聊古今
2026-05-16 00:45:31
麦迪:猛龙不该退役伦纳德的球衣,他甚至都没打满一个赛季

麦迪:猛龙不该退役伦纳德的球衣,他甚至都没打满一个赛季

懂球帝
2026-05-15 17:29:17
谈判桌上摊牌!美方死咬2500万吨大豆订单,想把中国当接盘侠?

谈判桌上摊牌!美方死咬2500万吨大豆订单,想把中国当接盘侠?

故事终将光明磊落
2026-05-15 10:58:31
无极县一火锅店突发重大刑案,惊悚说法大量传播,信息公开很重要

无极县一火锅店突发重大刑案,惊悚说法大量传播,信息公开很重要

胡侃社会百态
2026-05-14 13:26:32
中药又立功!蒲公英能在48小时内杀死98%的癌细胞?医生说出实情

中药又立功!蒲公英能在48小时内杀死98%的癌细胞?医生说出实情

垚垚分享健康
2026-05-15 08:52:25
黄仁勋,全世界最贵的吃播

黄仁勋,全世界最贵的吃播

餐观局
2026-05-15 21:01:06
张馨予太丰满,穿白衬衫都兜不住好身材,我感慨军人老公眼光真好

张馨予太丰满,穿白衬衫都兜不住好身材,我感慨军人老公眼光真好

蓓小西
2026-04-11 09:28:58
这个工具让AI编程成本直降67%,代码越多省越多

这个工具让AI编程成本直降67%,代码越多省越多

硅屿手记
2026-05-16 00:14:28
金砖成员国吵起来了,中方不在场,俄印镇不住,10国盼着中国出手

金砖成员国吵起来了,中方不在场,俄印镇不住,10国盼着中国出手

娱乐圈的笔娱君
2026-05-16 00:24:23
姆巴佩已确定出局!金球奖基本从这5人中产生!你更看好谁?

姆巴佩已确定出局!金球奖基本从这5人中产生!你更看好谁?

生活新鲜市
2026-05-15 18:24:57
当特朗普的面,中方交底涉台问题,11字震耳欲聋,对岸阴谋论开始

当特朗普的面,中方交底涉台问题,11字震耳欲聋,对岸阴谋论开始

傲傲讲历史
2026-05-16 00:55:15
《主角》好评如潮,12岁的她功不可没,戏内又土又脏,戏外很清秀

《主角》好评如潮,12岁的她功不可没,戏内又土又脏,戏外很清秀

娱君坠星河
2026-05-15 17:13:31
2026-05-16 03:03:00
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3406文章数 11152关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

头条要闻

黄仁勋在北京喝豆汁痛苦皱眉 问“这是什么东西”

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

教育
房产
数码
手机
公开课

教育要闻

2027英国留学费用+排名+雅思要求一篇看懂

房产要闻

老黄埔热销之下,珠江春,为何去化仅3成?

数码要闻

联想发布ThinkPad T14 Gen 7 支持LPCAMM2可更换内存

手机要闻

iPhone 17系列全系跳水,最高立减2500!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版