网易首页 > 网易号 > 正文 申请入驻

字节突然开源Seed-OSS,512K上下文主流4倍长度,推理能力刷纪录

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

字节跳动突发开源大模型,一出手就是360亿参数的Seed-OSS-36B。



这个Seed-OSS的命名方式,明显是在呼应OpenAI此前发布的GPT-OSS系列。

与OpenAI的开源策略也是一样,并没有直接开源核心商业模型豆包(Doubao),而是基于内部技术打造了一个专门面向开源社区的版本。

字节跳动Seed团队正式在Hugging Face和GitHub上发布了这个系列模型,采用Apache-2.0开源协议,可以免费用于学术研究和商业部署。

512K上下文窗口,还能灵活控制思考预算

要说Seed-OSS最让人眼前一亮的特性,那必须是原生512K的超长上下文。

目前主流的开源模型,比如DeepSeek V3.1的上下文窗口是128K,而Seed-OSS直接翻了4倍。

而且这个512K是在预训练阶段就构建好的,不是后期通过插值等方法硬撑上去的。

这意味着法律文档审查、长篇报告分析、复杂代码库理解等需要处理海量信息的专业场景,Seed-OSS都能轻松拿下。

此外,Seed-OSS还引入了“思考预算”(Thinking Budget)机制。

通过设定一个token数量,你就能控制模型思考的深度。比如你设置512个token的预算,模型在推理过程中会这样工作:
复制

好的,让我一步步来解决这个问题。题目说的是… 我已经使用了129个token,还剩383个token可用。 使用幂法则,我们可以… 我已经使用了258个token,还剩254个token可用。 另外,记住… 我已经耗尽了token预算,现在开始给出答案。

对于简单任务,可以设置较小的预算让模型快速响应;对于复杂的数学推理或代码生成,你可以给更多预算让它深思熟虑。



字节跳动建议使用512的整数倍(比如512、1K、2K、4K、8K或16K),因为模型在这些区间上经过了大量训练。

模型架构方面,Seed-OSS采用了成熟稳定的设计:

360亿参数的稠密模型(不是MoE),使用了RoPE位置编码、GQA注意力机制、RMSNorm归一化和SwiGLU激活函数。整个模型有64层,隐藏层维度5120,词汇表大小155K。



考虑到合成指令数据可能影响后训练研究,字节Seed团队提供了两个版本的基座模型,
一个包含合成指令数据(性能更强),一个不包含(更纯净),为研究社区提供更多选择。

多项基准测试开源SOTA

那么这个模型的实际表现如何呢?

在知识理解方面,Seed-OSS-36B-Base在MMLU-Pro上达到了65.1分,超过了同等规模的Qwen2.5-32B-Base的58.5分。在TriviaQA上更是拿下了82.1的高分。

推理能力的BBH基准测试得分87.7,直接刷新了开源模型的记录。在数学能力上,GSM8K达到90.8分,MATH的81.7分。

Seed-OSS代码能力同样不俗,HumanEval得分76.8,MBPP达到80.6。



指令微调版本Seed-OSS-36B-Instruct在AIME24数学竞赛题上达到了91.7分的成绩,仅次于OpenAI的OSS-20B。



并且这些成绩是用仅12T token训练出来的,相比之下,很多同规模模型的训练数据量都在15T以上。

字节Seed团队的开源版图

字节Seed团队成立于2023年,定位是“打造业界最先进的AI基础模型”,研究方向覆盖大语言模型、多模态、AI基础设施等多个前沿领域。

过去一年多时间里,已经陆续开源了多个有影响力的项目,只不过多是细分领域模型,而不是受关注的基座语言模型。



今年5月,他们发布了Seed-Coder,一个8B规模的代码生成模型,最大的创新是让LLM自己管理和筛选训练数据,大幅提升了代码生成能力。

紧接着,他们又推出了BAGEL,一个能同时处理文本、图像和视频的统一多模态模型,真正实现了”万物皆可输入输出”。

更早之前,他们还发布了Seed Diffusion,这是一个基于离散状态扩散技术的实验性语言模型,在代码生成任务上实现了极高的推理速度。

为了支撑这些模型的训练,团队还开源了VeOmni,一个PyTorch原生的全模态分布式训练框架。

最近他们还搞了个Seed LiveInterpret端到端的同声传译模型,不仅翻译准确率高,延迟低,还能复刻说话人的声音特征。

随着Seed-OSS的开源,国产开源Base模型又添一员猛将。

GitHub:
https://github.com/ByteDance-Seed/seed-oss

HuggingFace:
https://huggingface.co/collections/ByteDance-Seed/seed-oss-68a609f4201e788db05b5dcd

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央行:将商业用房购房贷款最低首付比例下调至30%

央行:将商业用房购房贷款最低首付比例下调至30%

界面新闻
2026-01-15 15:17:42
“等生了孩子”“等还完房贷”,网友质疑!最新:广告已换下

“等生了孩子”“等还完房贷”,网友质疑!最新:广告已换下

南方都市报
2026-01-14 09:18:34
孙悟空这就叫不识货!当年东海龙王手里那件7200斤的神器,他没看上,结果差点要了他的命!

孙悟空这就叫不识货!当年东海龙王手里那件7200斤的神器,他没看上,结果差点要了他的命!

历史回忆室
2026-01-15 12:58:16
王健林预言成真!第3轮大涨来了?内行人:2026年房价或超出想象

王健林预言成真!第3轮大涨来了?内行人:2026年房价或超出想象

猫叔东山再起
2026-01-15 10:55:03
头皮发麻!手术切出大量活虫,罪魁祸首是广东人钟爱的鱼生

头皮发麻!手术切出大量活虫,罪魁祸首是广东人钟爱的鱼生

环球网资讯
2026-01-15 15:16:07
凑凑火锅郑州门店清零?呷哺呷哺回应

凑凑火锅郑州门店清零?呷哺呷哺回应

鲁中晨报
2026-01-15 14:11:08
余承东带队到访东风背后:解码“奕境”如何重构智慧出行新境

余承东带队到访东风背后:解码“奕境”如何重构智慧出行新境

Autolab
2026-01-14 22:33:44
51:50,美参议院否决限制特朗普战争权议案,万斯投出关键一票!美国完成首批委内瑞拉石油销售,价值5亿美元;委代总统证实同特朗普通话

51:50,美参议院否决限制特朗普战争权议案,万斯投出关键一票!美国完成首批委内瑞拉石油销售,价值5亿美元;委代总统证实同特朗普通话

每日经济新闻
2026-01-15 12:59:39
家属透露聂卫平病逝细节:曾经患癌,去年突发脑梗昏迷12天

家属透露聂卫平病逝细节:曾经患癌,去年突发脑梗昏迷12天

南方都市报
2026-01-15 08:51:49
AI医疗的中场战事:谁是聚光灯外的“隐形深耕者”?

AI医疗的中场战事:谁是聚光灯外的“隐形深耕者”?

陆玖商业评论
2026-01-13 15:01:50
“杨贵妃”胸部的马赛克,就能看出媒体的眼光和格局

“杨贵妃”胸部的马赛克,就能看出媒体的眼光和格局

打破砂锅
2026-01-15 11:26:05
笑不活!常坟镇上开了肯德基,网友:肯德基已经混到租这种房子了

笑不活!常坟镇上开了肯德基,网友:肯德基已经混到租这种房子了

火山诗话
2026-01-15 07:08:18
追觅员工怒怼CEO俞浩,其他员工纷纷截屏

追觅员工怒怼CEO俞浩,其他员工纷纷截屏

超角度
2026-01-15 12:30:36
莱纳德33+4快船击败奇才4连胜,哈登22+5+8乔治23+5

莱纳德33+4快船击败奇才4连胜,哈登22+5+8乔治23+5

湖人崛起
2026-01-15 13:57:02
痛心!贺娇龙抢救无效离世,同学透露遗体已回昭苏,最后朋友圈曝光

痛心!贺娇龙抢救无效离世,同学透露遗体已回昭苏,最后朋友圈曝光

派大星纪录片
2026-01-15 08:25:49
纪实:南京杀妻案吉星鹏被判处死刑,临刑前全身抽搐流泪不止

纪实:南京杀妻案吉星鹏被判处死刑,临刑前全身抽搐流泪不止

谈史论天地
2026-01-14 12:55:03
痛心!贺娇龙意外坠马,头部重伤不幸离世 生前曾谈及为何坚持骑马拍视频

痛心!贺娇龙意外坠马,头部重伤不幸离世 生前曾谈及为何坚持骑马拍视频

红星新闻
2026-01-15 01:12:10
5行代码,逼疯整个硅谷!澳洲放羊大叔,捅开AI编程奇点

5行代码,逼疯整个硅谷!澳洲放羊大叔,捅开AI编程奇点

新智元
2026-01-14 17:38:10
携程吸血有多猛?全国酒店加起来都没它赚得多

携程吸血有多猛?全国酒店加起来都没它赚得多

上峰视点
2026-01-15 11:28:05
“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

“每卖一辆问界,13.6万流向华为”,赛力斯最新披露来了

智能车参考
2026-01-14 17:14:37
2026-01-15 15:56:49
量子位 incentive-icons
量子位
追踪人工智能动态
12019文章数 176359关注度
往期回顾 全部

科技要闻

阿里最狠的一次“自我革命”

头条要闻

媒体:不论美国是否会立即攻打伊朗 中方态度相当鲜明

头条要闻

媒体:不论美国是否会立即攻打伊朗 中方态度相当鲜明

体育要闻

棋圣千古!聂卫平侠气豪情寄国足 一生情缘亦成憾

娱乐要闻

传奇棋圣聂卫平离世,网友集体悼念

财经要闻

央行下调结构性货币政策工具利率0.25%

汽车要闻

今年推出超40款新车,BBA要把失去的夺回来

态度原创

本地
数码
时尚
家居
公开课

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

数码要闻

曝三星已开始量产8.6代OLED屏幕 将用于新款笔记本电脑

金工守艺人陈英泽:一锤定音,锻出山川意向

家居要闻

自在自宅 个性自由

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版