网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

热点丨开源大模型迎来新选择，字节跳动开源Seed-OSS系列模型

2025-08-25 21:32:29　来源: AI芯天下

广东举报

0

分享至

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言：

在大模型技术加速迭代的今天，开源生态正成为推动行业创新的核心力量。

近日，字节跳动Seed团队突然官宣开源Seed-OSS系列大语言模型，以360亿参数的中等规模入局，却凭借原生512K超长上下文、可编程[思考预算]等突破性技术，在七项公开基准测试中刷新开源模型最优成绩。

作者| 方文三

图片来源 |网络

超长上下文与可控推理的双重突破

Seed-OSS系列最引人瞩目的两大核心特性，彻底改变了开源大模型的能力边界：原生512K超长上下文与可编程[思考预算]机制。

前者解决了信息处理的广度问题，后者则实现了推理过程的精准控制。

原生512K上下文窗口是Seed-OSS的[撒手锏]。

这一能力并非通过后期外推或插值实现，而是在预训练阶段就直接构建，能稳定支持512K tokens的序列长度，相当于一次性处理90万个汉字，约等于《三体》三部曲全集的文本量。

这一容量是当前主流开源模型（如DeepSeek V3.1）的4倍，能轻松应对完整财报分析、长篇法律合同审查、大型代码库理解等专业场景。

在长文档理解基准测试RULER-128K中，Seed-OSS-36B-Instruct以94.6分的成绩远超第二名Qwen3-32B的77.5分，领先优势达17.1个百分点。

这一数据印证了其超长上下文的实际效果。

在处理128K以上的真实长文档任务时，模型能保持信息连贯性，避免因上下文截断导致的关键信息丢失，这对需要深度挖掘长文本逻辑关系的场景至关重要。

[思考预算]机制则体现了Seed-OSS对推理过程的精细化控制能力。

用户可通过[thinking_budget]参数限定模型的中间推理步数，预算单位为tokens，推荐设置为512的整数倍（如0、512、1K、2K等）。

其底层通过动态规划算法实现，模型会在推理过程中实时评估剩余预算，并优先分配资源到关键逻辑节点。

这种机制让模型能根据任务难度动态调整推理策略：对于IFEval等简单指令跟随任务，增加预算对性能影响不大，设置0预算（即时响应模式）可实现快速响应并降低成本；

而面对AIME24高难度数学推理或LiveCodeBench代码生成任务时，预算从512提升到4K，准确率分别提高6.3%和4.7%。

例如在代码生成中，更高预算会让模型自动增加函数依赖关系验证步骤，显著提升代码可靠性。

开源模型性能七项测试霸榜

Seed-OSS-36B-Instruct在七项公开基准测试中均取得开源模型最优成绩，覆盖通用知识、数学推理、代码生成、长文档理解等核心领域，用硬数据证明了其中等规模参数的强大实力。

在通用知识与多领域能力评估基准MMLU-Pro中，Seed-OSS-36B-Instruct得分82.7，比开源领域次优模型Qwen3-30B-A3B高出0.8分。

这一成绩表明，即使在不依赖超大规模参数的情况下，通过优化训练数据与网络结构，模型仍能在跨领域知识掌握上实现领先。

复杂数学推理是大模型的[试金石]，Seed-OSS在AIME24基准中以91.7分领先Qwen3-30B-A3B 4.0分，展现出对高级数学问题的强处理能力。

这背后既有数据增强策略的功劳，也得益于[思考预算]机制提供的充足推理空间。

模型能在预算范围内完成公式推导、步骤分解和自我验证，大幅降低计算错误率。

代码生成领域，Seed-OSS-36B-Instruct在LiveCodeBench v6中得分67.4，比OAI-OSS-20B高出3.6分；

HumanEval通过率76.8%，MBPP达到80.6%，均刷新开源模型纪录。

这与其时序数据增强策略密切相关，通过学习Git提交记录中的代码演变过程，模型能更好地理解代码逻辑与开发规范。

软件工程任务评估基准SWE-Bench Verified中，模型得分56，比OpenHands高出1.2分，证明其在解决真实软件工程问题上的实用性。

而在智能体任务基准AgentBench中，Seed-OSS同样排名开源模型第一，验证了其在多步骤交互、工具使用等复杂场景的适用性。

多语言能力上，Seed-OSS在涵盖90种语言的XTREME评测中，平均得分比Llama 3-65B高4.3分，这得益于其155K子词的多语言分词器和跨语言对比学习策略。

逻辑推理方面，BBH基准得分87.7，超过Qwen3-30B-A3B的81.2分，展现出强大的逻辑链构建能力。

更令人惊叹的是，这些成绩是在仅使用12T token训练数据的情况下取得的，相比之下，很多同规模模型的训练数据量都在15T以上。

这意味着Seed-OSS团队通过更高效的训练策略和数据处理方法，实现了[少而精]的性能突破，为大模型训练的成本优化提供了新思路。

从网络设计到训练策略的革新

Seed-OSS系列的卓越性能并非偶然，而是建立在对大模型技术架构的系统性优化之上。

从网络结构设计到训练策略选择，每一处细节都体现了工程化与学术创新的深度结合。

在网络结构上，Seed-OSS-36B采用360亿参数的稠密Transformer架构，包含64层网络和5120的隐藏维度。

其核心创新在于注意力机制的设计，使用分组查询注意力（GQA），设置80个查询头和8个键值头。

与传统多头注意力相比，GQA通过让多个查询头共享键值头，在保持模型性能的同时，显著降低了推理过程中的内存占用和计算量。

这一优化使单张80GB显存显卡就能运行半精度模型，大幅降低了部署成本。

位置编码技术是支撑512K超长上下文的关键。Seed-OSS采用旋转位置编码（RoPE），但将基频参数从常规的1×10⁴提升至1×10⁷。

这一看似简单的调整，让模型能更精准地捕捉长序列中的相对位置关系，从根本上解决了长文本处理中的上下文连续性问题。

在处理长达1600页的合同文本时，Seed-OSS-36B-Instruct的上下文连续性错误率比同规模模型降低42%，这在法律文书审查、金融财报分析等专业场景中价值连城。

训练策略上，使用12T token的高质量语料，经过去重、毒性过滤和版权清洗三重处理，确保数据质量。

训练框架结合PyTorch 2.3和Megatron-LM的混合并行技术，动用1024张A100显卡连续训练60天，在精度控制上采用bf16前向计算加fp32主权重，梯度裁剪设为1.0，学习率通过余弦退火降到1×10⁻⁵。

在多语言对齐方面，通过中文、英文语料的跨语言对比学习，使MMLU-Pro的中英混合测试得分提升3.2分；

针对代码生成任务，利用Git提交记录构建时序训练数据，将HumanEval得分提高2.1分；

在数学推理训练中，刻意混入15%的错误推导过程，迫使模型学会识别逻辑漏洞，最终使AIME24的准确率提升6.3%。

推理优化方面，Seed-OSS支持4-bit和8-bit量化（包括GPTQ、AWQ两种方式），并提供vLLM和Transformers双后端推理脚本。

通过vLLM后端优化，单卡80GB显存可实现每秒32 token的生成速度，完全满足直播字幕生成等实时场景需求。

而创新性的[思考预算]机制，则让用户能通过token级开关控制推理深度，实现性能与成本的灵活平衡。

Seed团队此前已陆续开源Seed-Coder代码生成模型、BAGEL多模态模型、Seed Diffusion语言模型等项目，加上此次的Seed-OSS系列，形成了覆盖多领域的开源矩阵。

从技术趋势看，Seed-OSS的成功验证了两大方向的价值。

①中等规模模型的精细化优化，通过网络结构创新、训练策略改进和推理机制设计，360亿参数模型能在特定场景媲美更大规模模型。

②[可控性]成为大模型实用化的核心指标，[思考预算]机制将性能与成本的调控权交还给用户，这种[以人为本]的设计思路可能成为未来大模型的标配功能。

结尾：

从可选项到标配，开源正在重塑大模型的竞争格局。Seed-OSS系列的出现，不仅是一次技术突破，更是对行业创新模式的探索。

当技术红利通过开源惠及更多主体，当创新成本因共享机制大幅降低，大模型的黄金时代才真正拉开序幕。

部分资料参考：拟合论见：《36B模型却能读懂90万字上下文？解密字节首个开源大语言模型》，量子位：《字节突然开源Seed-OSS，512K上下文碾压主流4倍长度！推理能力刷新纪录》，智东西：《字节首次开源推理模型，连夺7项第一》

本公众号所刊发稿件及图片来源于网络，仅用于交流使用，如有侵权请联系回复，我们收到信息后会在24小时内处理。

请务必注明：

「姓名 + 公司 + 合作需求」

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

“秦始皇遣使采药昆仑石刻”最新进展：国家文物局认定为秦代石刻

封面新闻 2025-09-15 12:32:15
20835 跟贴 20835
生于1988年、省委委员，黄娜拟任新职

新京报政事儿 2025-09-17 15:24:36
273 跟贴 273

上海学生午餐虾仁炒蛋紧急停供持续发酵，闵行区市监局介入，家长称“菜臭得吃到吐”

极目新闻 2025-09-17 14:51:39
24798 跟贴 24798

46年来首次埃及总统首次将以色列称为"敌人"

鲁中晨报 2025-09-17 15:31:08
18232 跟贴 18232
深圳全球最大室内雪场将开，高价票引消费者吐槽！企业回应

南方都市报 2025-09-17 21:47:06
2055 跟贴 2055

突然爆了！不少人在线抢，1秒就没？

鲁中晨报 2025-09-17 18:19:03
2089 跟贴 2089

7分钟上齐3道菜，太二酸菜鱼“活鱼现做”遭质疑，客服：鲜活门店是活鱼现杀，其余门店为每日鲜配鱼柳

极目新闻 2025-09-15 18:20:49
6091 跟贴 6091
郑州178厘米大学生扣碎篮板，校方：说明弹跳力好！学校出资购买新篮板，已安装好

极目新闻 2025-09-17 14:40:52
379 跟贴 379

共护国际秩序，共促和平发展，多国代表齐聚北京香山论坛

环球网资讯 2025-09-18 06:44:16
73 跟贴 73
8米33！世锦赛跳远摘铜，石雨豪找回曾经一飞冲天的自己

澎湃新闻 2025-09-17 22:48:29
260 跟贴 260
国防部长董军：让矛盾纠葛、兵戈相向回归为生死与共

环球网资讯 2025-09-18 12:00:14
383 跟贴 383
海底捞多款儿童套餐标注部分预加工，客服：确实有标注，由中央厨房统一生产并标准化配送至门店

鲁中晨报 2025-09-17 16:51:09
1869 跟贴 1869
重磅！银川市全面取消城镇落户限制

鲁中晨报 2025-09-18 10:59:16
26 跟贴 26
全国首批L3级“真自动驾驶”汽车要来了

每日经济新闻 2025-09-17 20:22:07
1146 跟贴 1146
应届大学生因工资过低离职，却被告知要退回给公司2330元！单位回应：算错了，其实该员工有154元工资

FM93浙江交通之声 2025-09-18 12:50:34
40 跟贴 40
房源“一房一码”！青岛市住房租赁、存量房交易两大平台正式上线

半岛官网 2025-09-18 09:22:25
79 跟贴 79
江苏省公布2025年度社会保险缴费基数

扬子晚报 2025-09-18 12:13:04
0 跟贴 0
北京大学副校长任羽中接受审查调查

央视新闻客户端 2025-09-17 16:02:44
536 跟贴 536
创业板指跌逾1% 下跌个股超3300只

财联社 2025-09-18 09:42:04
66 跟贴 66
宇树科技：人形机器人已在工业巡检、电网电力等领域有一定应用

澎湃新闻 2025-09-18 07:00:27
76 跟贴 76
北京因上周六冰雹所致车险，估损超4亿元

极目新闻 2025-09-17 17:03:27
437 跟贴 437
当水杯“上了锁”：究竟是现实的需求，还是家长的焦虑｜深度报道

北青深一度 2025-09-17 16:07:26
1 跟贴 1
蜜雪冰城送错吸管，顾客要求店员唱歌道歉，网友吵翻了

中国能源网 2025-09-17 17:00:07
406 跟贴 406
民生调查｜跑了上海20多家店，“卖不完”的面包去哪了？

上观新闻 2025-09-18 11:28:07
0 跟贴 0
行人被撞身份难辨交警急寻知情人

鲁中晨报 2025-09-18 14:19:08
0 跟贴 0
山寨版收费居高违规投放无序扩张私自加装存在隐患违规亲子单车，不要骑！

中国妇女报 2025-09-18 14:20:13
0 跟贴 0
香港突发黄金大劫案！10多名男子抢走65公斤黄金，价值超半个亿，西九龙重案组已跟进

极目新闻 2025-09-18 13:53:13
0 跟贴 0
表弟给表哥装修房子测出甲醛超标？表哥发视频曝光自家兄弟，称要“大义灭亲”

极目新闻 2025-09-18 13:33:07
0 跟贴 0
浙江女子去非洲婆家，买8台苹果手机做见面礼，却连泡面都吃不起

哄动一时啊 2025-09-18 14:20:13
0 跟贴 0

取消限制也没用，中国已下定决心，拒买美国芯，黄仁勋：很失望

取消限制也没用，中国已下定决心，拒买美国芯，黄仁勋：很失望

桑启红原

2025-09-18 12:48:27

世锦赛乱套：日本男排狂胜，诞生2大黑马，中国男排出线迎利好

世锦赛乱套：日本男排狂胜，诞生2大黑马，中国男排出线迎利好

知轩体育

2025-09-18 10:32:23

打脸了？2015年专家预测：一旦开放二胎，中国新生人口将会激增

打脸了？2015年专家预测：一旦开放二胎，中国新生人口将会激增

一针见娱

2025-09-14 21:44:59

今天，小喜乐在浙江成为“大体老师”，出生仅237天！妈妈的信看哭所有人……

今天，小喜乐在浙江成为“大体老师”，出生仅237天！妈妈的信看哭所有人……

FM93浙江交通之声

2025-09-16 20:25:52

拒绝所有合同！NBA天才7号秀！24岁沦落到无球可打

拒绝所有合同！NBA天才7号秀！24岁沦落到无球可打

篮球教学论坛

2025-09-18 12:28:47

女子借120万网贷不还,7家催债公司查到信息后面色大变:这地没法去

女子借120万网贷不还,7家催债公司查到信息后面色大变:这地没法去

罪案洞察者

2025-08-04 10:56:06

钱再多也没用！游本昌和妻子住进养老院，还在因父子关系耿耿于怀

钱再多也没用！游本昌和妻子住进养老院，还在因父子关系耿耿于怀

阿纂看事

2025-09-10 16:01:40

鹿晗关晓彤：我们的爱情，没有烂尾。

鹿晗关晓彤：我们的爱情，没有烂尾。

会说话的舌

2025-09-18 00:15:00

刚刚宣布，15%！

中国基金报

2025-09-18 10:01:11

“臀大胯宽”的女孩穿什么衣服好看？粉色长袖搭配鲨鱼裤，美美哒

“臀大胯宽”的女孩穿什么衣服好看？粉色长袖搭配鲨鱼裤，美美哒

小乔古装汉服

2025-09-18 10:20:03

SpaceX芯片合作曝光：Starlink手机直连服务或将重塑全球移动通信格局

SpaceX芯片合作曝光：Starlink手机直连服务或将重塑全球移动通信格局

三体引力波

2025-09-17 16:36:18

曼联续约低迷魔咒！阿莫林不满4000万边锋表现，业余传球选择被批

曼联续约低迷魔咒！阿莫林不满4000万边锋表现，业余传球选择被批

罗米的曼联博客

2025-09-18 12:05:32

赚麻了西贝储值金高达20亿！年营收超62亿，食材采购却仅占30%

赚麻了西贝储值金高达20亿！年营收超62亿，食材采购却仅占30%

法老不说教

2025-09-17 20:08:54

“治港败类”曾荫权：治理香港7年，为何却在卸任后，获刑20个月

“治港败类”曾荫权：治理香港7年，为何却在卸任后，获刑20个月

普览

2025-09-15 22:35:52

章子怡担忧的事还是发生了！

章眽八卦

2025-09-18 13:34:59

于朦胧临走前拿走朋友两块手表的行为，真实原因只有一个

于朦胧临走前拿走朋友两块手表的行为，真实原因只有一个

魔都姐姐杂谈

2025-09-12 05:01:34

全红婵身材遭质疑！官方确认：肯定是变胖了，是否退役由她自己决定

全红婵身材遭质疑！官方确认：肯定是变胖了，是否退役由她自己决定

小椰的奶奶

2025-09-18 07:30:41

远华集团总裁赖昌星，在狱中对董文华的描述，听后让人咋舌

远华集团总裁赖昌星，在狱中对董文华的描述，听后让人咋舌

兰姐说故事

2025-02-17 22:00:03

一定要稳！双色球2025108期，1注分享！

一定要稳！双色球2025108期，1注分享！

王晓爱体彩

2025-09-18 10:52:49

太难了！佛山一玻璃工厂公告结业，声称长期亏损，承诺结清工资…

太难了！佛山一玻璃工厂公告结业，声称长期亏损，承诺结清工资…

明月杂谈

2025-09-18 06:31:22

从芯出发，用心服务

6326文章数 166关注度

往期回顾全部

科技要闻

DeepSeek称R1训练费200万，不依赖蒸馏对手

头条要闻

女子买辆二手奔驰车惹怒提车中心员工：我要让她坐牢

头条要闻

女子买辆二手奔驰车惹怒提车中心员工：我要让她坐牢

体育要闻

身高170的他，让196的博尔特坐不住了

娱乐要闻

杨丞琳庆祝结婚6周年，与李荣浩撒糖

财经要闻

美联储重启降息！新任理事投了反对票

汽车要闻

女神代言/新增配色/智能升级 26款腾势N9售38.98万起

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

数码

旅游

手机

艺术

军事航空

数码要闻

Meta的尴尬时刻：首款带屏AI+AR眼镜发布却两度“翻车” AR热潮会否开启？

旅游要闻

热闻|清明假期将至，热门目的地有哪些?

手机要闻

传闻iPhone 18 Pro将带来“略带透明”的背部玻璃

艺术要闻

故宫珍藏的墨迹《十七帖》，比拓本更精良，这才是地道的魏晋写法

军事要闻

哈马斯高层在多哈遇袭后首次现身

© 1997-2025 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版