网易首页 > 网易号 > 正文 申请入驻

刚刚,字节开源Seed-OSS-36B模型,512k上下文

0
分享至

来源:市场资讯

(来源:机器之心)

开源赛道也是热闹了起来。

就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本:

  • Seed-OSS-36B-Base(含合成数据)

  • Seed-OSS-36B-Base(不含合成数据)

  • Seed-OSS-36B-Instruct(指令微调版)


  • Hugging Face 地址:https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct

  • 项目地址:https://github.com/ByteDance-Seed/seed-oss

Seed-OSS 使用了 12 万亿(12T)tokens 进行训练,并在多个主流开源基准测试中取得了出色的表现。

这三个模型均以 Apache-2.0 许可证发布,允许研究人员和企业开发者自由使用、修改和再分发。

主要特性:

  • 灵活的推理预算控制:允许用户根据需要灵活调整推理长度。这种对推理长度的动态控制能力,可在实际应用场景中提升推理效率。

  • 增强的推理能力:在保持平衡且优秀的通用能力的同时,针对推理任务进行了特别优化。

  • 智能体能力:在涉及工具使用和问题解决等智能体任务中表现突出。

  • 研究友好:考虑到在预训练中加入合成指令数据可能会影响后续研究,字节同时发布了含有与不含指令数据的预训练模型,为研究社区提供了更多样化的选择。

  • 原生长上下文:在训练中原生支持最长 512K 的上下文窗口。

模型架构

Seed-OSS-36B 的架构结合了多种常见的设计选择,包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。

每个模型包含 360 亿参数,分布在 64 层网络中,并支持 15.5 万词表。

其最具代表性的特性之一是原生长上下文能力,最大上下文长度可达 512k tokens,能够在不损失性能的情况下处理超长文档和推理链。

这一长度是 OpenAI 最新 GPT-5 模型系列的两倍,大约相当于 1600 页文本。


另一个显著的特性是引入了推理预算,它允许开发者在模型给出答案之前,指定模型应执行多少推理过程。

这一设计在近期其他一些开源模型中也有所体现,例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。

在实际应用中,这意味着团队可以根据任务的复杂性和部署的效率需求来调节性能。

推荐的预算值为 512 tokens 的倍数,其中 0 表示直接输出答案的模式。

结果

基准测试结果显示,Seed-OSS-36B 位列当前性能较强的开源大模型之列。

Seed-OSS-36B-Base

含合成数据版本的 Base 模型在 MMLU-Pro 上取得 65.1 得分,在 MATH 上取得 81.7 得分。非合成基础版本虽然在许多方面略微落后,但也具有竞争力。


Seed-OSS-36B-Instruct

Instruct 版本在多个领域都取得了 SOTA 成绩。

  • 数学与推理:Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成绩,在 BeyondAIME 上取得 65,均代表开源领域的最新 SOTA 水平。

  • 代码能力:在 LiveCodeBench v6 上,Instruct 模型得分 67.4,同样刷新 SOTA 纪录。

  • 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。


思考预算

用户可以灵活指定模型的推理预算。下图展示了在不同任务中,随着推理预算变化而产生的性能曲线。

对于较简单的任务(如 IFEval),模型的思维链较短,随着推理预算的增加,分数会出现一定波动。

而在更具挑战性的任务(如 AIME 和 LiveCodeBench)中,模型的思维链较长,分数则会随着推理预算的增加而提升。


模型在运行过程,会提醒用户 token 使用情况:

Got it, let's try to solve this problem step by step. The problem says ... ...I have used 129 tokens, and there are 383 tokens remaining for use.Using the power rule, ... ...I have used 258 tokens, and there are 254 tokens remaining for use.Alternatively, remember that ... ...I have used 393 tokens, and there are 119 tokens remaining for use.Because if ... ...I have exhausted my token budget, and now I will start answering the question.To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).

如果未设置推理预算(默认模式),Seed-OSS 将以无限长度启动推理。

如果指定了推理预算,字节建议用户优先选择 512 的整数倍数(如 512、1K、2K、4K、8K 或 16K),因为模型已在这些区间上进行了大量训练。

当推理预算为 0 时,模型会被指示直接输出答案;对于低于 512 的预算,字节也建议统一设为 0。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张继科一语道破关键,郝帅硬刚刘国梁的底气,藏在这儿!

张继科一语道破关键,郝帅硬刚刘国梁的底气,藏在这儿!

十点街球体育
2026-01-21 00:05:02
CBA刺激一夜!深圳绝杀浙江,北京19分惨败,辽宁5场1胜附积分榜

CBA刺激一夜!深圳绝杀浙江,北京19分惨败,辽宁5场1胜附积分榜

小火箭爱体育
2026-01-20 21:52:23
伊朗最大内鬼被摩萨德策反,鲁哈尼十年前拒购歼10

伊朗最大内鬼被摩萨德策反,鲁哈尼十年前拒购歼10

领悟看世界
2026-01-21 00:33:34
你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

你听过最劲爆的瓜是啥?网友:被大八岁的补习班老师表白了

带你感受人间冷暖
2025-11-26 00:10:06
你们可能被特朗普骗了,特朗普有可能真的是美国最伟大的总统

你们可能被特朗普骗了,特朗普有可能真的是美国最伟大的总统

流苏晚晴
2026-01-10 16:24:45
牢A直播谈美国斩杀线,“糖霜苹果”一词让美女主持人直接犯恶心

牢A直播谈美国斩杀线,“糖霜苹果”一词让美女主持人直接犯恶心

消失的电波
2026-01-19 20:35:55
全球数亿部iPhone需紧急升级iOS 26,这些机型例外

全球数亿部iPhone需紧急升级iOS 26,这些机型例外

环球网资讯
2026-01-19 10:19:34
一夫一妻制逐渐难维持!社会学家分析:未来3种模式将成为主流?

一夫一妻制逐渐难维持!社会学家分析:未来3种模式将成为主流?

流云青史
2025-11-24 19:15:05
金球奖红毯真敢穿,女星个个风情万种,詹妮弗“透视装”尺度拉满

金球奖红毯真敢穿,女星个个风情万种,詹妮弗“透视装”尺度拉满

电影烂番茄
2026-01-18 23:17:51
1月20日俄乌最新:恐怖的交换比

1月20日俄乌最新:恐怖的交换比

西楼饮月
2026-01-20 21:18:32
U23国足vs越南全场数据:控球率50.4%,射门16-7&射正7-4占优

U23国足vs越南全场数据:控球率50.4%,射门16-7&射正7-4占优

懂球帝
2026-01-21 01:58:03
0-3让越南球迷破防:一塌糊涂 飘上天被打醒 U23国足强得令人意外

0-3让越南球迷破防:一塌糊涂 飘上天被打醒 U23国足强得令人意外

我爱英超
2026-01-21 06:54:47
睡前吃瑞舒伐他汀有危害?劝告:多人服药方式是错的,答案来了

睡前吃瑞舒伐他汀有危害?劝告:多人服药方式是错的,答案来了

荆医生科普
2026-01-19 17:55:01
人类对闲鱼的开发不足1%,网友:浅薄了,闲鱼相当于唐诡里的鬼市

人类对闲鱼的开发不足1%,网友:浅薄了,闲鱼相当于唐诡里的鬼市

夜深爱杂谈
2026-01-13 21:58:51
“闯关”回美!华人绿卡芝加哥入境缴费695美元,这些人都要注意了!

“闯关”回美!华人绿卡芝加哥入境缴费695美元,这些人都要注意了!

华人生活网
2026-01-21 04:12:12
豪取七连胜,阿森纳提前锁定欧冠联赛阶段榜首晋级淘汰赛

豪取七连胜,阿森纳提前锁定欧冠联赛阶段榜首晋级淘汰赛

懂球帝
2026-01-21 06:09:56
第1讲:立体山城,独特楼市——重庆楼市的底层逻辑与格局!

第1讲:立体山城,独特楼市——重庆楼市的底层逻辑与格局!

重庆地产视野
2025-12-07 17:30:26
WTA500阿布扎比发布郑钦文参赛海报,该比赛2月1日开打

WTA500阿布扎比发布郑钦文参赛海报,该比赛2月1日开打

懂球帝
2026-01-21 01:05:26
1.21股市早8点丨降温容易再涨难·美股又出幺蛾子

1.21股市早8点丨降温容易再涨难·美股又出幺蛾子

沙黾农
2026-01-21 06:21:56
17亿铂金级肉签公布中签结果,阳光普照奖,你中签了吗?

17亿铂金级肉签公布中签结果,阳光普照奖,你中签了吗?

数据挖掘分析
2026-01-21 06:52:23
2026-01-21 09:23:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2057571文章数 5291关注度
往期回顾 全部

科技要闻

走进车间,感受中国低轨卫星互联网“加速度”

头条要闻

牛弹琴:特朗普和马克龙直接开干 马克龙疾呼欢迎中国

头条要闻

牛弹琴:特朗普和马克龙直接开干 马克龙疾呼欢迎中国

体育要闻

勇士遭暴击!巴特勒重伤赛季报销

娱乐要闻

网红版闫学晶!600万粉博主阿爆翻车

财经要闻

拆解涉税黑中介虚开套路

汽车要闻

奇瑞张贵兵:墨甲不做秀技术的企业 只做痛点终结者

态度原创

艺术
旅游
教育
游戏
公开课

艺术要闻

一百多年前的中国,太雄伟震撼了!

旅游要闻

西安秦岭古寺,白居易写下《长恨歌》的地方!还有罕见隋代古塔

教育要闻

避雷!学校中层最容易踩的四个管理坑

魔兽世界:橙装2W金起包,团长吃1万红包,为什么没有人抵触?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版