网易首页 > 网易号 > 正文 申请入驻

刚刚,字节开源Seed-OSS-36B模型,512k上下文

0
分享至

机器之心报道

机器之心编辑部

开源赛道也是热闹了起来。

就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本:

  • Seed-OSS-36B-Base(含合成数据)
  • Seed-OSS-36B-Base(不含合成数据)
  • Seed-OSS-36B-Instruct(指令微调版)

  • Hugging Face 地址:https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
  • 项目地址:https://github.com/ByteDance-Seed/seed-oss

Seed-OSS 使用了 12 万亿(12T)tokens 进行训练,并在多个主流开源基准测试中取得了出色的表现。

这三个模型均以 Apache-2.0 许可证发布,允许研究人员和企业开发者自由使用、修改和再分发。

主要特性:

  • 灵活的推理预算控制:允许用户根据需要灵活调整推理长度。这种对推理长度的动态控制能力,可在实际应用场景中提升推理效率。
  • 增强的推理能力:在保持平衡且优秀的通用能力的同时,针对推理任务进行了特别优化。
  • 智能体能力:在涉及工具使用和问题解决等智能体任务中表现突出。
  • 研究友好:考虑到在预训练中加入合成指令数据可能会影响后续研究,字节同时发布了含有与不含指令数据的预训练模型,为研究社区提供了更多样化的选择。
  • 原生长上下文:在训练中原生支持最长 512K 的上下文窗口。

模型架构

Seed-OSS-36B 的架构结合了多种常见的设计选择,包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。

每个模型包含 360 亿参数,分布在 64 层网络中,并支持 15.5 万词表。

其最具代表性的特性之一是原生长上下文能力,最大上下文长度可达 512k tokens,能够在不损失性能的情况下处理超长文档和推理链。

这一长度是 OpenAI 最新 GPT-5 模型系列的两倍,大约相当于 1600 页文本。

另一个显著的特性是引入了推理预算,它允许开发者在模型给出答案之前,指定模型应执行多少推理过程。

这一设计在近期其他一些开源模型中也有所体现,例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。

在实际应用中,这意味着团队可以根据任务的复杂性和部署的效率需求来调节性能。

推荐的预算值为 512 tokens 的倍数,其中 0 表示直接输出答案的模式。

结果

基准测试结果显示,Seed-OSS-36B 位列当前性能较强的开源大模型之列。

Seed-OSS-36B-Base

含合成数据版本的 Base 模型在 MMLU-Pro 上取得 65.1 得分,在 MATH 上取得 81.7 得分。非合成基础版本虽然在许多方面略微落后,但也具有竞争力。

Seed-OSS-36B-Instruct

Instruct 版本在多个领域都取得了 SOTA 成绩。

  • 数学与推理:Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成绩,在 BeyondAIME 上取得 65,均代表开源领域的最新 SOTA 水平。
  • 代码能力:在 LiveCodeBench v6 上,Instruct 模型得分 67.4,同样刷新 SOTA 纪录。
  • 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。

思考预算

用户可以灵活指定模型的推理预算。下图展示了在不同任务中,随着推理预算变化而产生的性能曲线。

对于较简单的任务(如 IFEval),模型的思维链较短,随着推理预算的增加,分数会出现一定波动。

而在更具挑战性的任务(如 AIME 和 LiveCodeBench)中,模型的思维链较长,分数则会随着推理预算的增加而提升。

模型在运行过程,会提醒用户 token 使用情况:

Got it, let's try to solve this problem step by step. The problem says ... ...

I have used 129 tokens, and there are 383 tokens remaining for use.

Using the power rule, ... ...

I have used 258 tokens, and there are 254 tokens remaining for use.

Alternatively, remember that ... ...

I have used 393 tokens, and there are 119 tokens remaining for use.

Because if ... ...

I have exhausted my token budget, and now I will start answering the question.

To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).

如果未设置推理预算(默认模式),Seed-OSS 将以无限长度启动推理。

如果指定了推理预算,字节建议用户优先选择 512 的整数倍数(如 512、1K、2K、4K、8K 或 16K),因为模型已在这些区间上进行了大量训练。

当推理预算为 0 时,模型会被指示直接输出答案;对于低于 512 的预算,字节也建议统一设为 0。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小米上架米家燃气灶3猛火版,到手价899元

小米上架米家燃气灶3猛火版,到手价899元

ZAEKE知客
2026-02-27 12:41:13
美快艇闯进古巴内海开火,被古巴打死4人,“卢沟桥事变”重演?

美快艇闯进古巴内海开火,被古巴打死4人,“卢沟桥事变”重演?

石江月
2026-03-01 17:29:10
这才是最大底牌,中美全面战争动员能力对比

这才是最大底牌,中美全面战争动员能力对比

兵国大事
2024-06-27 12:02:31
香港著名演员发文称被肖战圈粉!惊喜直言肖战太英俊,演技也精彩

香港著名演员发文称被肖战圈粉!惊喜直言肖战太英俊,演技也精彩

看尽落尘花q
2026-03-01 13:34:34
3500亿订单被取消!美方想要围堵芯片,却意外炸出中方底牌

3500亿订单被取消!美方想要围堵芯片,却意外炸出中方底牌

刘旷
2026-02-28 17:52:18
刚需狂喜!西洪新村电梯学区房1.7万成交,鼓楼上车门槛又降了

刚需狂喜!西洪新村电梯学区房1.7万成交,鼓楼上车门槛又降了

小白看楼市
2026-03-01 19:30:03
胡歌的父亲原来是他,妻子得乳腺癌去世7年,儿子孙女成精神寄托

胡歌的父亲原来是他,妻子得乳腺癌去世7年,儿子孙女成精神寄托

踏青云看世界
2026-03-01 20:44:52
大S一对子女去医院探望马筱梅,11岁玥儿抱小弟弟的画面好温馨!

大S一对子女去医院探望马筱梅,11岁玥儿抱小弟弟的画面好温馨!

娱乐团长
2026-02-27 12:27:55
王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

王晶没撒谎!退出春晚、和沈腾决裂,性格大变的贾玲印证他说的话

胡一舸南游y
2026-01-25 14:54:04
她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

她在非诚勿扰上站五年,爆灯无数却不牵手,最终被主持人赶下台

琴声飞扬
2026-02-22 15:21:45
欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

欠中国的钱,委内瑞拉不还了?美财长:中国已无法继续获得委石油

萌城少年强
2026-01-22 12:47:40
纪实大爷冒充太白金星,以传输仙气为由,诱骗大妈发生30余次关系

纪实大爷冒充太白金星,以传输仙气为由,诱骗大妈发生30余次关系

谈史论天地
2026-01-10 11:44:20
神助攻中国队翻盘!台北“赵睿”上头引热议 媒体:很糙且迷之自信

神助攻中国队翻盘!台北“赵睿”上头引热议 媒体:很糙且迷之自信

狼叔评论
2026-03-01 18:50:03
人民币升破6.84,高息定存美元的人慌了!4.5%利率难抵汇率损失,有人10万本金反亏超2千

人民币升破6.84,高息定存美元的人慌了!4.5%利率难抵汇率损失,有人10万本金反亏超2千

时代财经
2026-03-01 11:30:08
“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

“我就是她取精生子的工具”清华学霸哭诉,撕开了女富豪的遮羞布

北纬的咖啡豆
2026-02-20 19:12:17
蓝白出手后,民调一边倒,吴思瑶这回尴尬了,刘世芳或面临辞职!

蓝白出手后,民调一边倒,吴思瑶这回尴尬了,刘世芳或面临辞职!

再战五百回合
2026-03-01 22:33:57
金亨泰用AI画明日香贺图惹怒《尼尔》设计师:烂完了!

金亨泰用AI画明日香贺图惹怒《尼尔》设计师:烂完了!

游民星空
2026-02-28 14:35:19
从中国男篮惊险逆转台北队的过程看:周琦在国家队尚有一席之地

从中国男篮惊险逆转台北队的过程看:周琦在国家队尚有一席之地

姜大叔侃球
2026-03-01 21:55:19
新人中东度蜜月突遇战争爆发,新娘在领空关闭前幸运离境,新郞滞留:买了饼干和水,机票改签到10多天后,市区不时传来爆炸声

新人中东度蜜月突遇战争爆发,新娘在领空关闭前幸运离境,新郞滞留:买了饼干和水,机票改签到10多天后,市区不时传来爆炸声

极目新闻
2026-03-01 19:33:19
伊前总统内贾德遇害细节,保镖也被袭身亡,生前是强硬派反美战士

伊前总统内贾德遇害细节,保镖也被袭身亡,生前是强硬派反美战士

十九妹
2026-03-02 02:04:59
2026-03-02 04:12:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

荣耀发布机器人手机、折叠屏、人形机器人

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

头条要闻

特朗普警告伊朗“不要报复” 伊朗外长回应

体育要闻

火箭输给热火:乌度卡又输斯波教练

娱乐要闻

黄景瑜 李雪健坐镇!38集犯罪大剧来袭

财经要闻

中东局势升级 如何影响A股、黄金和原油

汽车要闻

理想汽车2月交付26421辆 历史累计交付超159万辆

态度原创

健康
游戏
艺术
亲子
手机

转头就晕的耳石症,能开车上班吗?

以《生化危机》命名?Capcom解答对RE引擎的误读

艺术要闻

看!这位伊朗超模如何颠覆你的美丽认知!

亲子要闻

带娃看医生,听懂这几句话少走90%弯路!

手机要闻

现场直击!荣耀Robot Phone机器人手机长啥样

无障碍浏览 进入关怀版