网易首页 > 网易号 > 正文 申请入驻

字节首次开源推理模型,连夺7项第一

0
分享至

智东西8月21日报道,今天,字节跳动Seed团队开源了Seed-OSS系列模型,这些模型专为长上下文、推理、Agent和通用场景设计,将上下文窗口扩展至512k,是业界常见上下文窗口(128k)的4倍,GPT-5上下文窗口的2倍,相当于1600页文本。

Seed-OSS系列模型是推理模型,专门针对推理任务进行了优化,还允许用户灵活地控制思维预算。

字节Seed团队共开源了Seed-OSS的三个版本,分别为:

(1)基础模型Seed-OSS-36B-Base

(2)无合成数据基础模型Seed-OSS-36B-Base-woSyn

(3)指令微调模型Seed-OSS-36B-Instruct

指令微调后的Seed-OSS-36B-Instruct在通用知识、Agent、编程、长上下文等领域的基准测试中,取得同量级开源模型中的7项SOTA(性能最佳)表现,整体能力超过了Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型,与Qwen3-30B-A3B-Thinking-2507在大部分领域旗鼓相当。

▲基准测试结果,加粗项为开源SOTA(图源:Hugging Face)

Seed-OSS系列模型采用了宽松的Apache2.0开源协议,并会在后续发布模型的详细技术报告。

开源地址:

https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base

https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct

值得一提的是,字节Seed团队本次的发布方式较为“研究友好”。鉴于在预训练中包含合成指令数据可能会影响后训练研究,无合成数据基础模型的发布,为研究社区提供了更多样化的选择。这一系列模型还支持4位和8位格式的量化,以减少内存需求。

Seed-OSS系列模型使用了12万亿个token的预训练数据,采用当前主流的因果语言模型架构,也就是“预测下一个token”类型的模型。同时,Seed-OSS系列均为稠密模型,没有采用MoE等架构。

这一系列模型结合了几项关键技术,包括RoPE(旋转位置编码)、GQA注意力机制(Grouped Query Attention)、RMSNorm归一化(Root Mean Square Normalization)、SwiGLU激活函数等。这是现代大模型常见的高效组件组合,可提升训练稳定性和推理性能。

Seed-OSS的上下文窗口达512k,相当于能一次性处理数十万字的内容。这一上下文窗口并非后续扩展而来,而是通过原生训练打造的。

思考预算功能可帮助开发者控制模型推理成本,优化使用体验等。字节Seed团队分享了Seed-OSS在不同思考预算下性能的变化情况。

对于更简单的任务(如IFEval),模型的思维链较短,随着思维预算的增加,分数波动并不明显。对于更具挑战性的任务(如AIME和LiveCodeBench),模型的思维链更长,随着思维预算的增加,分数也会提高。

字节Seed团队称,如果没有设置思维预算(默认模式),Seed-OSS将不会拥有任何思考长度限制。

如果指定了思维预算,建议优先考虑512的整数倍值,因为模型已经在这些区间上进行了大量的训练。

当思维预算为0时,模型会直接输出内容,建议将任何低于512的预算设置为0。

Seed-OSS系列模型,获得了不少开发者的认可。Hugging Face的华人工程师Tiezhen Wang评价道,这一系列模型“很适合做消融研究”。这种研究能以较低的成本,探索不同组件对大模型性能的影响。

有网友称,这种尺寸的基础模型在开源界也是比较罕见的,Qwen3就没有公布14B以上的基础模型。另一位网友补充道,长上下文能力对真实应用而言有很大的价值。

结语:从可选项到标配,国产开源模型再添新选项

近期,字节Seed团队已经密集开源了多款模型,除此次的Seed-OSS系列之外,他们还开源了多语言翻译模型Seed-X、智能体模型Tar系列、图像编辑模型Vincie等。

如今,开源已经逐渐从可选项变为近似“标配”的存在,连OpenAI等原本坚持闭源策略的厂商,也在逐步开源模型。字节本次将更为核心的语言模型贡献给社区,给开源社区的后续研究提供了更多基础模型的选择。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
CBA最新消息!赵睿常规赛报销,浙江广厦新外援到位

CBA最新消息!赵睿常规赛报销,浙江广厦新外援到位

体坛瞎白话
2026-04-14 17:26:57
博主:华为Pura X Max 8988元起 典藏版10988元起

博主:华为Pura X Max 8988元起 典藏版10988元起

CNMO科技
2026-04-14 13:47:35
澳富人区惊现恶心一幕!女子街头公然排便,男伴持纸巾一旁守候

澳富人区惊现恶心一幕!女子街头公然排便,男伴持纸巾一旁守候

澳洲红领巾
2026-04-14 14:19:03
美军开始在海峡拦截船只,伊朗有一个王牌绝招,让特朗普隐隐不安

美军开始在海峡拦截船只,伊朗有一个王牌绝招,让特朗普隐隐不安

军机Talk
2026-04-14 15:39:43
全线逼空式暴涨!

全线逼空式暴涨!

君临财富
2026-04-14 15:44:17
美军开始拦截船只;伊朗学者警告中国护航将使美中直接对抗

美军开始拦截船只;伊朗学者警告中国护航将使美中直接对抗

混沌录
2026-04-14 17:28:26
分析:湖人队即使东契奇和里夫斯受伤,首轮为何仍能爆冷击败火箭

分析:湖人队即使东契奇和里夫斯受伤,首轮为何仍能爆冷击败火箭

好火子
2026-04-14 21:41:33
印度暗示中国伸出援手,希望11天内尽快给答复,别耽误了他们时间

印度暗示中国伸出援手,希望11天内尽快给答复,别耽误了他们时间

蜉蝣说
2026-04-14 16:15:13
司马南的绿卡被吊销了?

司马南的绿卡被吊销了?

十柱
2026-04-14 18:22:49
莫迪强硬警告:若短期内无法确保充足化肥供应,将面临严重危机

莫迪强硬警告:若短期内无法确保充足化肥供应,将面临严重危机

人生录
2026-04-09 21:50:14
扬中市人民医院原党委委员、副院长瞿彩平接受纪律审查和监察调查

扬中市人民医院原党委委员、副院长瞿彩平接受纪律审查和监察调查

环球网资讯
2026-04-14 19:35:07
事先没半点风声,拉夫罗夫起身访华,与中方讨论4个“生死议题”

事先没半点风声,拉夫罗夫起身访华,与中方讨论4个“生死议题”

近史谈
2026-04-14 19:05:24
奉劝所有中国人,大家一定要做好心理准备

奉劝所有中国人,大家一定要做好心理准备

安安说
2026-04-14 11:01:43
江青书信曝光!钢笔字竟暗藏惊人秘密,书法之争谁胜出?

江青书信曝光!钢笔字竟暗藏惊人秘密,书法之争谁胜出?

书画相约
2026-04-14 07:21:03
明天只要关注这5大板块!

明天只要关注这5大板块!

风风顺
2026-04-14 07:10:31
李想炮轰东风日产后续:工信部约谈双方!

李想炮轰东风日产后续:工信部约谈双方!

鞭牛士
2026-04-14 19:03:11
这球输的冤啊!剩6秒钟98平,20岁小将,竟主动犯规,送对方罚球

这球输的冤啊!剩6秒钟98平,20岁小将,竟主动犯规,送对方罚球

金山话体育
2026-04-13 22:35:36
重要提醒!人民币突然升值大涨!有存款的家庭,今年钱更值钱了!

重要提醒!人民币突然升值大涨!有存款的家庭,今年钱更值钱了!

凡知
2026-04-13 20:19:25
世体:恩里克续约后涨薪超50%,将跻身世界足坛教练薪水前三

世体:恩里克续约后涨薪超50%,将跻身世界足坛教练薪水前三

懂球帝
2026-04-14 19:03:17
曝67岁许家印逃过死刑!最多被判无期:债务3052亿 冻结资产500亿

曝67岁许家印逃过死刑!最多被判无期:债务3052亿 冻结资产500亿

风过乡
2026-04-14 19:08:37
2026-04-14 21:56:49
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11580文章数 117028关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

宋祖儿刘宇宁恋情大反转 正主火速辟谣

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

本地
房产
家居
艺术
公开课

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

改善标杆,1.5w+起横扫国兴!海口楼市,打出最猛一张牌!

家居要闻

现代融合 自然灵动

艺术要闻

这位美女画家的夏天竟如此梦幻

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版