网易首页 > 网易号 > 正文 申请入驻

刚刚,字节开源Seed-OSS-36B模型,512k上下文

0
分享至

机器之心报道

机器之心编辑部

开源赛道也是热闹了起来。

就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本:

  • Seed-OSS-36B-Base(含合成数据)
  • Seed-OSS-36B-Base(不含合成数据)
  • Seed-OSS-36B-Instruct(指令微调版)

  • Hugging Face 地址:https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
  • 项目地址:https://github.com/ByteDance-Seed/seed-oss

Seed-OSS 使用了 12 万亿(12T)tokens 进行训练,并在多个主流开源基准测试中取得了出色的表现。

这三个模型均以 Apache-2.0 许可证发布,允许研究人员和企业开发者自由使用、修改和再分发。

主要特性:

  • 灵活的推理预算控制:允许用户根据需要灵活调整推理长度。这种对推理长度的动态控制能力,可在实际应用场景中提升推理效率。
  • 增强的推理能力:在保持平衡且优秀的通用能力的同时,针对推理任务进行了特别优化。
  • 智能体能力:在涉及工具使用和问题解决等智能体任务中表现突出。
  • 研究友好:考虑到在预训练中加入合成指令数据可能会影响后续研究,字节同时发布了含有与不含指令数据的预训练模型,为研究社区提供了更多样化的选择。
  • 原生长上下文:在训练中原生支持最长 512K 的上下文窗口。

模型架构

Seed-OSS-36B 的架构结合了多种常见的设计选择,包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。

每个模型包含 360 亿参数,分布在 64 层网络中,并支持 15.5 万词表。

其最具代表性的特性之一是原生长上下文能力,最大上下文长度可达 512k tokens,能够在不损失性能的情况下处理超长文档和推理链。

这一长度是 OpenAI 最新 GPT-5 模型系列的两倍,大约相当于 1600 页文本。

另一个显著的特性是引入了推理预算,它允许开发者在模型给出答案之前,指定模型应执行多少推理过程。

这一设计在近期其他一些开源模型中也有所体现,例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。

在实际应用中,这意味着团队可以根据任务的复杂性和部署的效率需求来调节性能。

推荐的预算值为 512 tokens 的倍数,其中 0 表示直接输出答案的模式。

结果

基准测试结果显示,Seed-OSS-36B 位列当前性能较强的开源大模型之列。

Seed-OSS-36B-Base

含合成数据版本的 Base 模型在 MMLU-Pro 上取得 65.1 得分,在 MATH 上取得 81.7 得分。非合成基础版本虽然在许多方面略微落后,但也具有竞争力。

Seed-OSS-36B-Instruct

Instruct 版本在多个领域都取得了 SOTA 成绩。

  • 数学与推理:Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成绩,在 BeyondAIME 上取得 65,均代表开源领域的最新 SOTA 水平。
  • 代码能力:在 LiveCodeBench v6 上,Instruct 模型得分 67.4,同样刷新 SOTA 纪录。
  • 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。

思考预算

用户可以灵活指定模型的推理预算。下图展示了在不同任务中,随着推理预算变化而产生的性能曲线。

对于较简单的任务(如 IFEval),模型的思维链较短,随着推理预算的增加,分数会出现一定波动。

而在更具挑战性的任务(如 AIME 和 LiveCodeBench)中,模型的思维链较长,分数则会随着推理预算的增加而提升。

模型在运行过程,会提醒用户 token 使用情况:

Got it, let's try to solve this problem step by step. The problem says ... ...

I have used 129 tokens, and there are 383 tokens remaining for use.

Using the power rule, ... ...

I have used 258 tokens, and there are 254 tokens remaining for use.

Alternatively, remember that ... ...

I have used 393 tokens, and there are 119 tokens remaining for use.

Because if ... ...

I have exhausted my token budget, and now I will start answering the question.

To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).

如果未设置推理预算(默认模式),Seed-OSS 将以无限长度启动推理。

如果指定了推理预算,字节建议用户优先选择 512 的整数倍数(如 512、1K、2K、4K、8K 或 16K),因为模型已在这些区间上进行了大量训练。

当推理预算为 0 时,模型会被指示直接输出答案;对于低于 512 的预算,字节也建议统一设为 0。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
日媒:日本队26人大名单平均身高1米81,史上首次破1米8大关

日媒:日本队26人大名单平均身高1米81,史上首次破1米8大关

懂球帝
2026-05-15 15:09:09
曼联官方:德里赫特成功接受背部手术,预计下赛季初期回归;卡里克:卡塞米罗可以出战,谢什科还没有完全恢复

曼联官方:德里赫特成功接受背部手术,预计下赛季初期回归;卡里克:卡塞米罗可以出战,谢什科还没有完全恢复

MUREDS
2026-05-15 23:10:11
韩媒:韩国官员称霍尔木兹海峡船只袭击事件几乎可确定为伊朗所为

韩媒:韩国官员称霍尔木兹海峡船只袭击事件几乎可确定为伊朗所为

璀璨幻行者
2026-05-15 16:28:21
山东榴莲仅退款后续来了:女子被行政拘留7日,不道歉商家会起诉

山东榴莲仅退款后续来了:女子被行政拘留7日,不道歉商家会起诉

映射生活的身影
2026-05-15 15:43:54
河南男子狂犬病发作去世,生前已打3针疫苗,为什么人还是走了

河南男子狂犬病发作去世,生前已打3针疫苗,为什么人还是走了

39健康网
2026-05-15 18:30:57
多项研究显示:性生活频率过低,男女容易早衰且患癌风险增高!

多项研究显示:性生活频率过低,男女容易早衰且患癌风险增高!

灯锦年
2026-05-05 21:55:51
金铜银大幅下挫,现货白银跌近6%,紫金矿业跌5%,有色ETF汇添富(159652)跌超4%,是危是机?机构:回归供需挺价!

金铜银大幅下挫,现货白银跌近6%,紫金矿业跌5%,有色ETF汇添富(159652)跌超4%,是危是机?机构:回归供需挺价!

有连云
2026-05-15 15:02:42
马斯克黄仁勋空军一号合影曝光 机舱内饰奢华大气 马斯克评论:愉快的旅途

马斯克黄仁勋空军一号合影曝光 机舱内饰奢华大气 马斯克评论:愉快的旅途

快科技
2026-05-15 14:58:18
成都商超便利店“面包大王”新厂区破土动工,建成后产能将提升2倍

成都商超便利店“面包大王”新厂区破土动工,建成后产能将提升2倍

红星新闻
2026-05-15 19:29:02
无缘20分逆转北京输在哪?数据一目了然,4主力拖后腿,1人要担责

无缘20分逆转北京输在哪?数据一目了然,4主力拖后腿,1人要担责

后仰大风车
2026-05-15 22:57:27
坐在非机动车道喝咖啡?深圳网红街占道经营引争议,部门回应

坐在非机动车道喝咖啡?深圳网红街占道经营引争议,部门回应

南方都市报
2026-05-14 18:51:01
1952年许世友返乡,不顾老母亲下跪劝阻,掏出枪对准三叔:毙了你

1952年许世友返乡,不顾老母亲下跪劝阻,掏出枪对准三叔:毙了你

云端小院
2026-05-12 06:41:03
中国有宴会厅,美国也要修,特朗普迫不及待宣布要修园子

中国有宴会厅,美国也要修,特朗普迫不及待宣布要修园子

三叔的装备空间
2026-05-15 22:43:59
特朗普专机离开这一幕 中国军人的“不动”再刷屏

特朗普专机离开这一幕 中国军人的“不动”再刷屏

看看新闻Knews
2026-05-15 20:44:05
不瞒了!马斯克罕见承认:美国是第一,但第二到第十全都来自中国

不瞒了!马斯克罕见承认:美国是第一,但第二到第十全都来自中国

潋滟晴方DAY
2026-04-25 23:29:34
一张国宴自拍,炸出多少玻璃心

一张国宴自拍,炸出多少玻璃心

梳子姐
2026-05-15 08:19:35
华尔街精英利用马斯克做局,使中国富豪损失百亿,还不敢对外公布

华尔街精英利用马斯克做局,使中国富豪损失百亿,还不敢对外公布

吴学华看天下
2024-11-12 19:42:48
5月,遇到这水果别手软,一次买20斤,晒干后美味翻倍,营养解馋

5月,遇到这水果别手软,一次买20斤,晒干后美味翻倍,营养解馋

阿龙美食记
2026-05-13 14:06:46
郑州再迎重磅首店,“必胜汉堡”三店同开切入“一人食”赛道

郑州再迎重磅首店,“必胜汉堡”三店同开切入“一人食”赛道

大象新闻
2026-05-15 16:54:40
要为芯片的暴跌做准备

要为芯片的暴跌做准备

半导体行业观察
2026-05-15 08:52:08
2026-05-16 07:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13006文章数 142650关注度
往期回顾 全部

科技要闻

直降千元起步!苹果华为率先开启618让利

头条要闻

特朗普访问中国43个小时行程密集紧凑 全程回顾

头条要闻

特朗普访问中国43个小时行程密集紧凑 全程回顾

体育要闻

德约科维奇买的球队,从第6级联赛升入法甲

娱乐要闻

方媛为何要来《桃花坞6》没苦硬吃?

财经要闻

腾讯掉队,马化腾戳破真相

汽车要闻

高尔夫GTI刷新纽北纪录 ID. Polo GTI迎全球首秀

态度原创

教育
家居
亲子
时尚
本地

教育要闻

除了 happy 你还知道怎么表达“我很快乐”吗?

家居要闻

110㎡淡而有致的生活表达

亲子要闻

孕妇补钙怕刺激怎么选?液体钙无添加配方实测,蓝帽认证更靠谱

顶级团队拍出来的作品不如素人,问题出在哪儿了?

本地新闻

用苏绣的方式,打开江西婺源

无障碍浏览 进入关怀版