网易首页 > 网易号 > 正文 申请入驻

刚刚,字节开源Seed-OSS-36B模型,512k上下文

0
分享至



机器之心报道

机器之心编辑部

开源赛道也是热闹了起来。

就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本:

  • Seed-OSS-36B-Base(含合成数据)
  • Seed-OSS-36B-Base(不含合成数据)
  • Seed-OSS-36B-Instruct(指令微调版)



  • Hugging Face 地址:https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
  • 项目地址:https://github.com/ByteDance-Seed/seed-oss

Seed-OSS 使用了 12 万亿(12T)tokens 进行训练,并在多个主流开源基准测试中取得了出色的表现。

这三个模型均以 Apache-2.0 许可证发布,允许研究人员和企业开发者自由使用、修改和再分发。

主要特性:

  • 灵活的推理预算控制:允许用户根据需要灵活调整推理长度。这种对推理长度的动态控制能力,可在实际应用场景中提升推理效率。
  • 增强的推理能力:在保持平衡且优秀的通用能力的同时,针对推理任务进行了特别优化。
  • 智能体能力:在涉及工具使用和问题解决等智能体任务中表现突出。
  • 研究友好:考虑到在预训练中加入合成指令数据可能会影响后续研究,字节同时发布了含有与不含指令数据的预训练模型,为研究社区提供了更多样化的选择。
  • 原生长上下文:在训练中原生支持最长 512K 的上下文窗口。

模型架构

Seed-OSS-36B 的架构结合了多种常见的设计选择,包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。

每个模型包含 360 亿参数,分布在 64 层网络中,并支持 15.5 万词表。

其最具代表性的特性之一是原生长上下文能力,最大上下文长度可达 512k tokens,能够在不损失性能的情况下处理超长文档和推理链。

这一长度是 OpenAI 最新 GPT-5 模型系列的两倍,大约相当于 1600 页文本。



另一个显著的特性是引入了推理预算,它允许开发者在模型给出答案之前,指定模型应执行多少推理过程。

这一设计在近期其他一些开源模型中也有所体现,例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。

在实际应用中,这意味着团队可以根据任务的复杂性和部署的效率需求来调节性能。

推荐的预算值为 512 tokens 的倍数,其中 0 表示直接输出答案的模式。

结果

基准测试结果显示,Seed-OSS-36B 位列当前性能较强的开源大模型之列。

Seed-OSS-36B-Base

含合成数据版本的 Base 模型在 MMLU-Pro 上取得 65.1 得分,在 MATH 上取得 81.7 得分。非合成基础版本虽然在许多方面略微落后,但也具有竞争力。



Seed-OSS-36B-Instruct

Instruct 版本在多个领域都取得了 SOTA 成绩。

  • 数学与推理:Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成绩,在 BeyondAIME 上取得 65,均代表开源领域的最新 SOTA 水平。
  • 代码能力:在 LiveCodeBench v6 上,Instruct 模型得分 67.4,同样刷新 SOTA 纪录。
  • 长上下文处理:在 RULER(128K 上下文长度)测试中,该模型达到 94.6,创下开源模型的最高分。



思考预算

用户可以灵活指定模型的推理预算。下图展示了在不同任务中,随着推理预算变化而产生的性能曲线。

对于较简单的任务(如 IFEval),模型的思维链较短,随着推理预算的增加,分数会出现一定波动。

而在更具挑战性的任务(如 AIME 和 LiveCodeBench)中,模型的思维链较长,分数则会随着推理预算的增加而提升。



模型在运行过程,会提醒用户 token 使用情况:

Got it, let's try to solve this problem step by step. The problem says ... ...

I have used 129 tokens, and there are 383 tokens remaining for use.

Using the power rule, ... ...

I have used 258 tokens, and there are 254 tokens remaining for use.

Alternatively, remember that ... ...

I have used 393 tokens, and there are 119 tokens remaining for use.

Because if ... ...

I have exhausted my token budget, and now I will start answering the question.

To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted).

如果未设置推理预算(默认模式),Seed-OSS 将以无限长度启动推理。

如果指定了推理预算,字节建议用户优先选择 512 的整数倍数(如 512、1K、2K、4K、8K 或 16K),因为模型已在这些区间上进行了大量训练。

当推理预算为 0 时,模型会被指示直接输出答案;对于低于 512 的预算,字节也建议统一设为 0。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈芋汐炸鱼!407C出现重大失误,依然排名第一,领先第2名53.35分

陈芋汐炸鱼!407C出现重大失误,依然排名第一,领先第2名53.35分

体育就你秀
2025-11-09 07:49:47
大家别被电视剧沉默的荣耀给骗了,真实的吴石将军其实是这样!

大家别被电视剧沉默的荣耀给骗了,真实的吴石将军其实是这样!

生性洒脱
2025-11-07 11:59:03
妻子手机半夜收到“父亲”信息,丈夫替妻子回复:他不在家,快来

妻子手机半夜收到“父亲”信息,丈夫替妻子回复:他不在家,快来

惟来
2025-11-09 19:01:19
太子集团好色陈志游艇淫乱派对细节曝光,助手称其专拣温柔女孩。

太子集团好色陈志游艇淫乱派对细节曝光,助手称其专拣温柔女孩。

环球趣闻分享
2025-11-08 13:40:07
英法德没想到,曾经无足轻重的匈牙利,竟然成为了新欧洲经济中心

英法德没想到,曾经无足轻重的匈牙利,竟然成为了新欧洲经济中心

百科密码
2025-11-04 16:25:52
再添新瓜!副院长和曾主任半年一块出差27次,网友:还挺频繁

再添新瓜!副院长和曾主任半年一块出差27次,网友:还挺频繁

坠入二次元的海洋
2025-11-09 15:05:46
蛇类不会无缘无故进入住宅,一旦入屋往往预示着这三件事情

蛇类不会无缘无故进入住宅,一旦入屋往往预示着这三件事情

青青会讲故事
2025-11-05 16:55:04
降息,突变!美联储,重磅来袭!

降息,突变!美联储,重磅来袭!

数据宝
2025-11-09 19:18:30
爆冷门!朱婷赛后拒绝采访含泪离场,教练回应引全网热议

爆冷门!朱婷赛后拒绝采访含泪离场,教练回应引全网热议

去山野间追风
2025-11-08 12:51:22
马筱梅挺孕肚带继女外出,小玥儿驼背揪衣角,这是缺乏安全感了吧

马筱梅挺孕肚带继女外出,小玥儿驼背揪衣角,这是缺乏安全感了吧

娱乐顺风车666
2025-11-08 09:30:48
郑丽文公开纪念吴石,蒋万安、侯友宜相继表态,民进党坐不住了!

郑丽文公开纪念吴石,蒋万安、侯友宜相继表态,民进党坐不住了!

老范谈史
2025-11-09 18:08:19
台湾终极解决方案:土地回归祖国,人员往来自由,两岸统一新路径

台湾终极解决方案:土地回归祖国,人员往来自由,两岸统一新路径

古事寻踪记
2025-11-09 07:07:20
世界上平原面积最大的五个国家

世界上平原面积最大的五个国家

世界纵横说
2025-11-05 11:29:37
蒋万安被问到对郑丽文祭拜吴石一事的看法时,彻底撕下伪装

蒋万安被问到对郑丽文祭拜吴石一事的看法时,彻底撕下伪装

放开他让wo来
2025-11-08 22:35:20
停职后续!祖院长曾医生的5种结局,哪个最有可能?

停职后续!祖院长曾医生的5种结局,哪个最有可能?

吃瓜局
2025-11-09 15:45:58
终结2连败重回前三!马克西31分7助,恩比德29+6+4,神兵20+17+10

终结2连败重回前三!马克西31分7助,恩比德29+6+4,神兵20+17+10

无术不学
2025-11-09 11:49:35
副院长祖雄兵被停职!他口中所谓的“纯洁婚外恋”,是自欺欺人

副院长祖雄兵被停职!他口中所谓的“纯洁婚外恋”,是自欺欺人

云舟史策
2025-11-09 07:16:52
陈芋汐没料到,周继红没料到,就连陈若琳也没猜着

陈芋汐没料到,周继红没料到,就连陈若琳也没猜着

小光侃娱乐
2025-11-09 10:55:03
全运会男篮小组赛后,郭士强重选这五人回归国家队,四人或退出

全运会男篮小组赛后,郭士强重选这五人回归国家队,四人或退出

老媹古装影视解说
2025-11-09 18:44:00
(周运)苏珊米勒每周星座运势11.10-11.15

(周运)苏珊米勒每周星座运势11.10-11.15

星译社
2025-11-09 19:29:32
2025-11-09 20:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11672文章数 142501关注度
往期回顾 全部

科技要闻

黄仁勋亲赴台积电“讨要更多芯片”

头条要闻

“青云租”爆雷员工揭内幕:每人每月需投资30台手机

头条要闻

“青云租”爆雷员工揭内幕:每人每月需投资30台手机

体育要闻

他只想默默地拿走最后一亿美元

娱乐要闻

《繁花》事件影响:唐嫣工作被取消

财经要闻

10月CPI同比涨0.2% PPI同比下降2.1%

汽车要闻

钛7月销破2万 霜雾灰与青峦翠配色正式开启交付

态度原创

教育
健康
手机
公开课
军事航空

教育要闻

绵阳科一中3人!2025年“天府中学生英才计划”入选学生名单公布

超声探头会加重受伤情况吗?

手机要闻

千元机价格旗舰级配置!vivo新机全配置曝光,是否值得期待?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄媒:俄军即将攻占乌克兰"第三首都"

无障碍浏览 进入关怀版