网易首页 > 网易号 > 正文 申请入驻

热点丨开源大模型迎来新选择,字节跳动开源Seed-OSS系列模型

0
分享至

·聚焦:人工智能、芯片等行业

欢迎各位客官关注、转发

前言

在大模型技术加速迭代的今天,开源生态正成为推动行业创新的核心力量。

近日,字节跳动Seed团队突然官宣开源Seed-OSS系列大语言模型,以360亿参数的中等规模入局,却凭借原生512K超长上下文、可编程[思考预算]等突破性技术,在七项公开基准测试中刷新开源模型最优成绩。

作者| 方文三

图片来源 |网 络

超长上下文与可控推理的双重突破

Seed-OSS系列最引人瞩目的两大核心特性,彻底改变了开源大模型的能力边界:原生512K超长上下文与可编程[思考预算]机制。

前者解决了信息处理的广度问题,后者则实现了推理过程的精准控制。

原生512K上下文窗口是Seed-OSS的[撒手锏]。

这一能力并非通过后期外推或插值实现,而是在预训练阶段就直接构建,能稳定支持512K tokens的序列长度,相当于一次性处理90万个汉字,约等于《三体》三部曲全集的文本量。

这一容量是当前主流开源模型(如DeepSeek V3.1)的4倍,能轻松应对完整财报分析、长篇法律合同审查、大型代码库理解等专业场景。

在长文档理解基准测试RULER-128K中,Seed-OSS-36B-Instruct以94.6分的成绩远超第二名Qwen3-32B的77.5分,领先优势达17.1个百分点。

这一数据印证了其超长上下文的实际效果。

在处理128K以上的真实长文档任务时,模型能保持信息连贯性,避免因上下文截断导致的关键信息丢失,这对需要深度挖掘长文本逻辑关系的场景至关重要。

[思考预算]机制则体现了Seed-OSS对推理过程的精细化控制能力。

用户可通过[thinking_budget]参数限定模型的中间推理步数,预算单位为tokens,推荐设置为512的整数倍(如0、512、1K、2K等)。

其底层通过动态规划算法实现,模型会在推理过程中实时评估剩余预算,并优先分配资源到关键逻辑节点。

这种机制让模型能根据任务难度动态调整推理策略:对于IFEval等简单指令跟随任务,增加预算对性能影响不大,设置0预算(即时响应模式)可实现快速响应并降低成本;

而面对AIME24高难度数学推理或LiveCodeBench代码生成任务时,预算从512提升到4K,准确率分别提高6.3%和4.7%。

例如在代码生成中,更高预算会让模型自动增加函数依赖关系验证步骤,显著提升代码可靠性。

开源模型性能七项测试霸

Seed-OSS-36B-Instruct在七项公开基准测试中均取得开源模型最优成绩,覆盖通用知识、数学推理、代码生成、长文档理解等核心领域,用硬数据证明了其中等规模参数的强大实力。

在通用知识与多领域能力评估基准MMLU-Pro中,Seed-OSS-36B-Instruct得分82.7,比开源领域次优模型Qwen3-30B-A3B高出0.8分。

这一成绩表明,即使在不依赖超大规模参数的情况下,通过优化训练数据与网络结构,模型仍能在跨领域知识掌握上实现领先。

复杂数学推理是大模型的[试金石],Seed-OSS在AIME24基准中以91.7分领先Qwen3-30B-A3B 4.0分,展现出对高级数学问题的强处理能力。

这背后既有数据增强策略的功劳,也得益于[思考预算]机制提供的充足推理空间。

模型能在预算范围内完成公式推导、步骤分解和自我验证,大幅降低计算错误率。

代码生成领域,Seed-OSS-36B-Instruct在LiveCodeBench v6中得分67.4,比OAI-OSS-20B高出3.6分;

HumanEval通过率76.8%,MBPP达到80.6%,均刷新开源模型纪录。

这与其时序数据增强策略密切相关,通过学习Git提交记录中的代码演变过程,模型能更好地理解代码逻辑与开发规范。

软件工程任务评估基准SWE-Bench Verified中,模型得分56,比OpenHands高出1.2分,证明其在解决真实软件工程问题上的实用性。

而在智能体任务基准AgentBench中,Seed-OSS同样排名开源模型第一,验证了其在多步骤交互、工具使用等复杂场景的适用性。

多语言能力上,Seed-OSS在涵盖90种语言的XTREME评测中,平均得分比Llama 3-65B高4.3分,这得益于其155K子词的多语言分词器和跨语言对比学习策略。

逻辑推理方面,BBH基准得分87.7,超过Qwen3-30B-A3B的81.2分,展现出强大的逻辑链构建能力。

更令人惊叹的是,这些成绩是在仅使用12T token训练数据的情况下取得的,相比之下,很多同规模模型的训练数据量都在15T以上。

这意味着Seed-OSS团队通过更高效的训练策略和数据处理方法,实现了[少而精]的性能突破,为大模型训练的成本优化提供了新思路。

从网络设计到训练策略的革新

Seed-OSS系列的卓越性能并非偶然,而是建立在对大模型技术架构的系统性优化之上。

从网络结构设计到训练策略选择,每一处细节都体现了工程化与学术创新的深度结合。

在网络结构上,Seed-OSS-36B采用360亿参数的稠密Transformer架构,包含64层网络和5120的隐藏维度。

其核心创新在于注意力机制的设计,使用分组查询注意力(GQA),设置80个查询头和8个键值头。

与传统多头注意力相比,GQA通过让多个查询头共享键值头,在保持模型性能的同时,显著降低了推理过程中的内存占用和计算量。

这一优化使单张80GB显存显卡就能运行半精度模型,大幅降低了部署成本。

位置编码技术是支撑512K超长上下文的关键。Seed-OSS采用旋转位置编码(RoPE),但将基频参数从常规的1×10⁴提升至1×10⁷。

这一看似简单的调整,让模型能更精准地捕捉长序列中的相对位置关系,从根本上解决了长文本处理中的上下文连续性问题。

在处理长达1600页的合同文本时,Seed-OSS-36B-Instruct的上下文连续性错误率比同规模模型降低42%,这在法律文书审查、金融财报分析等专业场景中价值连城。

训练策略上,使用12T token的高质量语料,经过去重、毒性过滤和版权清洗三重处理,确保数据质量。

训练框架结合PyTorch 2.3和Megatron-LM的混合并行技术,动用1024张A100显卡连续训练60天,在精度控制上采用bf16前向计算加fp32主权重,梯度裁剪设为1.0,学习率通过余弦退火降到1×10⁻⁵。

在多语言对齐方面,通过中文、英文语料的跨语言对比学习,使MMLU-Pro的中英混合测试得分提升3.2分;

针对代码生成任务,利用Git提交记录构建时序训练数据,将HumanEval得分提高2.1分;

在数学推理训练中,刻意混入15%的错误推导过程,迫使模型学会识别逻辑漏洞,最终使AIME24的准确率提升6.3%。

推理优化方面,Seed-OSS支持4-bit和8-bit量化(包括GPTQ、AWQ两种方式),并提供vLLM和Transformers双后端推理脚本。

通过vLLM后端优化,单卡80GB显存可实现每秒32 token的生成速度,完全满足直播字幕生成等实时场景需求。

而创新性的[思考预算]机制,则让用户能通过token级开关控制推理深度,实现性能与成本的灵活平衡。

Seed团队此前已陆续开源Seed-Coder代码生成模型、BAGEL多模态模型、Seed Diffusion语言模型等项目,加上此次的Seed-OSS系列,形成了覆盖多领域的开源矩阵。

从技术趋势看,Seed-OSS的成功验证了两大方向的价值。

①中等规模模型的精细化优化,通过网络结构创新、训练策略改进和推理机制设计,360亿参数模型能在特定场景媲美更大规模模型。

②[可控性]成为大模型实用化的核心指标,[思考预算]机制将性能与成本的调控权交还给用户,这种[以人为本]的设计思路可能成为未来大模型的标配功能。

尾:

从可选项到标配,开源正在重塑大模型的竞争格局。Seed-OSS系列的出现,不仅是一次技术突破,更是对行业创新模式的探索。

当技术红利通过开源惠及更多主体,当创新成本因共享机制大幅降低,大模型的黄金时代才真正拉开序幕。

部分资料参考:拟合论见:《36B模型却能读懂90万字上下文?解密字节首个开源大语言模型》,量子位:《字节突然开源Seed-OSS,512K上下文碾压主流4倍长度!推理能力刷新纪录》,智东西:《字节首次开源推理模型,连夺7项第一》

本公众号所刊发稿件及图片来源于网络,仅用于交流使用,如有侵权请联系回复,我们收到信息后会在24小时内处理。

请务必注明:

「姓名 + 公司 + 合作需求」

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苏联女兵日记:战地里只有性没有爱情,我却难舍一个负心汉

苏联女兵日记:战地里只有性没有爱情,我却难舍一个负心汉

浔阳咸鱼
2026-03-31 11:20:07
这6个“养生动作”被严重低估了!尤其第2个,降压效果被科学验证

这6个“养生动作”被严重低估了!尤其第2个,降压效果被科学验证

人民日报健康客户端
2026-03-27 07:33:38
叹来世不做人?实乃懦弱逃避之举

叹来世不做人?实乃懦弱逃避之举

烽火瞭望者
2026-03-31 06:24:03
拒绝退役,国家队会召全红婵吗?正式发声,官宣决定,周继红欣慰

拒绝退役,国家队会召全红婵吗?正式发声,官宣决定,周继红欣慰

懂球社
2026-03-31 11:40:36
战火烧到台湾,岛内疯抢塑料袋,赖党黔驴技穷,台湾有条更好的路

战火烧到台湾,岛内疯抢塑料袋,赖党黔驴技穷,台湾有条更好的路

通文知史
2026-03-31 04:15:03
北京男子靠龙虾OpenClaw实现36小时买房:龙虾迅速筛出周边房源,2小时内独自对比大量中介并选定,精准摸清历史最低成交价

北京男子靠龙虾OpenClaw实现36小时买房:龙虾迅速筛出周边房源,2小时内独自对比大量中介并选定,精准摸清历史最低成交价

扬子晚报
2026-03-29 19:35:46
一男子在武汉街头持刀致4人受伤 警民齐心协力将其制服

一男子在武汉街头持刀致4人受伤 警民齐心协力将其制服

封面新闻
2026-03-31 17:25:09
开会员 1 分钟,取消难、还收违约金,这些 App 套路,90% 的人都

开会员 1 分钟,取消难、还收违约金,这些 App 套路,90% 的人都

国际阿尝
2026-03-30 15:58:29
央视直播4月1日澳门单打世界杯,孙颖莎对梅谢芙,王楚钦战卢伟

央视直播4月1日澳门单打世界杯,孙颖莎对梅谢芙,王楚钦战卢伟

乒乓球球
2026-03-31 23:26:34
马斯克尴尬了:华为激光雷达,拿下40%份额,中国市场第一

马斯克尴尬了:华为激光雷达,拿下40%份额,中国市场第一

互联网.乱侃秀
2026-03-31 12:49:42
弃400万美金别墅净身出户!郎平离婚真相:根本没有和平分手!

弃400万美金别墅净身出户!郎平离婚真相:根本没有和平分手!

辉辉历史记
2026-03-19 10:37:48
10-8逆转!小特会师墨菲手握2优势,吴宜泽创纪录,百岁对决打响

10-8逆转!小特会师墨菲手握2优势,吴宜泽创纪录,百岁对决打响

刘姚尧的文字城堡
2026-03-31 09:58:47
斯诺克战报:希金斯6-2胜威廉姆斯,2杆50+连鞭

斯诺克战报:希金斯6-2胜威廉姆斯,2杆50+连鞭

小染说台球
2026-04-01 01:05:11
中国承诺尿素出口,菲律宾纠集24国闹事,中方强硬回击

中国承诺尿素出口,菲律宾纠集24国闹事,中方强硬回击

老腘的世界视角
2026-03-30 20:12:26
美债39万亿曝光,中东产油国狂卖美债,人民币杀入中东石油结算第二

美债39万亿曝光,中东产油国狂卖美债,人民币杀入中东石油结算第二

别人都叫我阿腈
2026-03-31 17:51:33
23岁深圳女子头痛一周突发心脏骤停,元凶潜伏在冰箱内

23岁深圳女子头痛一周突发心脏骤停,元凶潜伏在冰箱内

南方都市报
2026-03-31 19:09:16
《五哈6》官宣明星阵容,网友:该来的不来,不该来的全来了!

《五哈6》官宣明星阵容,网友:该来的不来,不该来的全来了!

阿纂看事
2026-03-31 16:36:14
侵馆第5天,高市辞职传遍东京,日本民众忍无可忍,率先扛大旗

侵馆第5天,高市辞职传遍东京,日本民众忍无可忍,率先扛大旗

柏拉图的诉说1
2026-03-30 20:48:29
媒体人:淡厚然已返回美国不打CBA,这影响他NCAA参赛资格

媒体人:淡厚然已返回美国不打CBA,这影响他NCAA参赛资格

懂球帝
2026-03-31 14:57:27
世界杯开打前73天,德国把加纳主帅打下课!

世界杯开打前73天,德国把加纳主帅打下课!

体坛周报
2026-03-31 12:09:12
2026-04-01 01:56:49
AI芯天下
AI芯天下
从芯出发,用心服务
6643文章数 169关注度
往期回顾 全部

科技要闻

华为2025年销售收入8809亿,净利润680亿元

头条要闻

伊朗:准备好“迎接”美军到来 将战斗到底

头条要闻

伊朗:准备好“迎接”美军到来 将战斗到底

体育要闻

县城修车工,用20年成为世界冠军

娱乐要闻

《月鳞绮纪》空降 鞠婧祎却被举报偷税

财经要闻

油价暴涨 我们的生活成本会飙升多少?

汽车要闻

腾势Z9GT到底GT在哪?

态度原创

健康
家居
数码
教育
手机

干细胞抗衰4大误区,90%的人都中招

家居要闻

新婚爱巢 甜蜜情趣拉满

数码要闻

RTX 50又免费升级!DLSS 4.5 6× 多帧生成+动态多帧生成抢先体验

教育要闻

微专题:高考地理中的地理实验

手机要闻

vivo X300s线下上手:体验后,不吐不快!

无障碍浏览 进入关怀版