网易首页 > 网易号 > 正文 申请入驻

TikTok母公司字节跳动发布开源Seed-OSS-36B模型

0
分享至

TikTok今日再次成为头条新闻,白宫正式入驻这一热门社交媒体平台,而其母公司、中国互联网巨头字节跳动也带来了令人意外的重大发布。

字节跳动旗下Seed团队的AI研究人员今日在AI代码共享网站Hugging Face上发布了Seed-OSS-36B模型。

Seed-OSS-36B是一个全新的开源大语言模型系列,专为高级推理和开发者友好的可用性而设计。该模型拥有更长的Token上下文长度——即模型在单次交互中能够接受和输出的信息量——甚至超过了许多来自美国科技公司的竞争对手,包括OpenAI和Anthropic等行业领导者。

该系列推出了三个主要变体:

**Seed-OSS-36B-Base(含合成数据版本)**

**Seed-OSS-36B-Base(不含合成数据版本)**

**Seed-OSS-36B-Instruct**

Seed团队通过发布Seed-OSS-36B-Base模型的合成数据和非合成数据两个版本,力求在实际性能和研究灵活性之间找到平衡。

含合成数据的变体使用额外的指令数据进行训练,在标准基准测试中始终获得更高分数,旨在作为高性能的通用选择。相比之下,非合成数据模型省略了这些增强功能,创建了更纯净的基础版本,避免了合成指令数据可能引入的偏见或扭曲。

通过提供两个版本,团队为应用用户提供了改进的结果,同时确保研究人员保留了一个中性基线来研究后训练方法。

与此同时,Seed-OSS-36B-Instruct模型的不同之处在于,它通过指令数据进行后训练,优先考虑任务执行和指令遵循,而不是纯粹作为基础模型。

所有三个模型都在Apache-2.0许可证下发布,允许企业的研究人员和开发者免费使用、修改和重新分发。

这意味着它们可以用于驱动商业应用程序,无论是公司内部还是面向外部/客户的应用,都无需向字节跳动支付任何许可费用或应用程序编程接口(API)使用费。

这延续了2025年夏季中国公司发布强大开源模型的趋势,而OpenAI则试图通过本月早些时候发布的自己的开源gpt-oss duet来迎头赶上。

Seed团队将Seed-OSS定位为国际应用,强调在推理、智能体类任务执行和多语言环境中的多功能性。

成立于2023年的Seed团队一直专注于构建能够同时服务于研究和应用用例的基础模型。

**设计和核心特性**

Seed-OSS-36B背后的架构结合了熟悉的设计选择,如因果语言建模、分组查询注意力、SwiGLU激活、RMSNorm和RoPE位置编码。

每个模型在64层中携带360亿个参数,支持155,000个Token的词汇表。

其定义特征之一是原生长上下文能力,最大长度为512,000个Token,旨在处理扩展文档和推理链而不会出现性能损失。

这是OpenAI新GPT-5模型系列长度的两倍,大约相当于1,600页文本,相当于一本基督教圣经的长度。

另一个突出特点是引入了思考预算概念,让开发者可以指定模型在给出答案之前应该进行多少推理。

我们在其他最近的开源模型中也看到了这一点,包括英伟达新推出的Nemotron-Nano-9B-v2,也可在Hugging Face上获得。

在实践中,这意味着团队可以根据任务的复杂性和部署的效率要求来调整性能。

建议预算以512个Token的倍数为单位,0提供直接响应模式。

**第三方基准测试中的竞争性表现**

随版本发布的基准测试将Seed-OSS-36B定位为更强大的大型开源模型之一。特别是Instruct变体,在多个领域都发布了最先进的结果。

**数学和推理**:Seed-OSS-36B-Instruct在AIME24上达到91.7%,在BeyondAIME上达到65分,均代表开源"最先进"(SOTA)水平。

**编程**:在LiveCodeBench v6上,Instruct模型记录了67.4分,这是另一个SOTA分数。

**长上下文处理**:在128K上下文长度的RULER测试中,它达到94.6分,标志着报告的最高开源结果。

**基础模型性能**:含合成数据的Base变体在MMLU-Pro上达到65.1分,在MATH上达到81.7分,均为其类别中的最先进结果。

不含合成数据的Base版本虽然在许多指标上略有落后,但在其自身领域证明了竞争力。它在GPQA-D上超越了其合成数据对应版本,为研究人员提供了更清洁、无指令的实验基线。

对于比较开源选项的企业来说,这些结果表明Seed-OSS在数学密集型、编程和长上下文工作负载方面提供了强大的潜力,同时仍为研究用例提供了灵活性。

**访问和部署**

除了性能之外,Seed团队还强调了对开发者和从业者的可访问性。这些模型可以使用Hugging Face Transformers进行部署,支持4位和8位格式的量化以降低内存需求。

它们还与vLLM集成以实现可扩展服务,包括配置示例和API服务器说明。

为了进一步降低门槛,团队包含了用于推理、提示定制和工具集成的脚本。

对于管理小团队或在预算限制下工作的技术领导者来说,这些条款旨在让360亿参数模型的实验变得更加可行。

**许可和企业决策者的考虑因素**

由于模型在Apache-2.0下提供,组织可以在没有限制性许可条款的情况下采用它们,这对于平衡法律和运营问题的团队来说是一个重要因素。

对于评估开源领域的决策者来说,此次发布带来了三个要点:

在数学、编程和长上下文推理方面的最先进基准测试。

在高性能合成训练模型和清洁研究基线之间的平衡。

为精简工程团队降低运营开销的可访问性功能。

通过在开放许可证下提供强大性能和灵活部署,字节跳动的Seed团队为企业、研究人员和开发者alike增加了新的选择。

Q&A

Q1:Seed-OSS-36B模型有什么特殊之处?

A:Seed-OSS-36B是字节跳动发布的开源大语言模型,拥有512K Token的超长上下文能力,相当于能处理1600页文本,是OpenAI GPT-5的两倍长度。它在数学推理、编程和长文本处理方面都达到了开源模型的最先进水平。

Q2:Seed-OSS-36B有哪些版本可以选择?

A:该模型提供三个版本:含合成数据的Base版本(性能更强)、不含合成数据的Base版本(更纯净的研究基线)、以及Instruct版本(专门优化指令执行)。所有版本都采用Apache-2.0开源许可证,可免费商用。

Q3:企业如何使用Seed-OSS-36B模型?

A:企业可以通过Hugging Face平台获取模型,支持4位和8位量化部署以降低内存需求,还可与vLLM集成实现可扩展服务。由于采用Apache-2.0许可证,企业可以免费用于商业应用而无需支付许可费用。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东济南数百家农家乐假期客流骤减,送土鸡蛋都没人拿的停车位空了一排

山东济南数百家农家乐假期客流骤减,送土鸡蛋都没人拿的停车位空了一排

小鹿姐姐情感说
2026-07-05 15:39:15
吃“春药”后,是什么感觉?医生说的2个案例,告诉你真实感受

吃“春药”后,是什么感觉?医生说的2个案例,告诉你真实感受

医学科普汇
2026-06-23 17:16:20
世预赛!中国男篮VS中国台北,3好消息1坏消息,庞峥麟有机会

世预赛!中国男篮VS中国台北,3好消息1坏消息,庞峥麟有机会

林子说事
2026-07-05 15:35:53
动物交配六亲不认,雄性遇上自己母亲怎么办?马不欺母是真的吗?

动物交配六亲不认,雄性遇上自己母亲怎么办?马不欺母是真的吗?

趣文说娱
2026-07-02 18:28:06
为什么不能干涉他人的因果?网友:有些事儿说不清楚

为什么不能干涉他人的因果?网友:有些事儿说不清楚

阿康四岁啦
2026-06-26 11:05:34
美军司令罕见摊牌:第一岛链所有武器库,最终都只为台湾而设

美军司令罕见摊牌:第一岛链所有武器库,最终都只为台湾而设

瞩望云霄
2026-07-05 22:42:01
深圳街道都开始摸底电容电阻,AI把MLCC、PCB、覆铜板全抬成硬通货了

深圳街道都开始摸底电容电阻,AI把MLCC、PCB、覆铜板全抬成硬通货了

时尚的弄潮
2026-07-05 20:51:35
世界杯带火非洲岛国佛得角,人口50多万拥有7座客运机场,当地中国人称:最近国人多了起来

世界杯带火非洲岛国佛得角,人口50多万拥有7座客运机场,当地中国人称:最近国人多了起来

时代财经
2026-07-04 20:18:23
71岁卢卡申科新伴仅22岁,常年被美女模特环绕,分居妻子杳无音信

71岁卢卡申科新伴仅22岁,常年被美女模特环绕,分居妻子杳无音信

译言
2026-06-21 07:11:28
7.6早评|炸裂!半导体大消息!A股本周能反弹?

7.6早评|炸裂!半导体大消息!A股本周能反弹?

龙行天下虎
2026-07-06 01:26:40
对于明天周一A股,我只说3句话:第一,3927点或将牢不可破!

对于明天周一A股,我只说3句话:第一,3927点或将牢不可破!

趋势清风侠
2026-07-05 10:02:47
中国人民大学通报:未发现蒋方舟存在学术不端行为,暂停其导师研究生招生资格1年

中国人民大学通报:未发现蒋方舟存在学术不端行为,暂停其导师研究生招生资格1年

扬子晚报
2026-07-05 22:25:43
男子上厕所不掀马桶圈,妻子跟擦10年后崩溃欲离婚……有医生建议:为避免家庭矛盾,男性最好是坐着上厕所

男子上厕所不掀马桶圈,妻子跟擦10年后崩溃欲离婚……有医生建议:为避免家庭矛盾,男性最好是坐着上厕所

新民周刊
2026-07-03 21:53:09
天天锻炼不等于长寿,专家忠告:年过60,只适合三种运动方式

天天锻炼不等于长寿,专家忠告:年过60,只适合三种运动方式

华庭讲美食
2026-07-02 00:12:22
彻查!信号强烈!中央升级反腐“天网”!

彻查!信号强烈!中央升级反腐“天网”!

职场资深秘书
2026-07-04 23:45:24
巅峰时期的QQ有多“狂”?2008年,腾讯竟打算用Q币给员工发工资

巅峰时期的QQ有多“狂”?2008年,腾讯竟打算用Q币给员工发工资

荆楚寰宇文枢
2026-05-14 23:20:07
58中33!自由市场第一前锋!勇士最快速度签约

58中33!自由市场第一前锋!勇士最快速度签约

篮球实战宝典
2026-07-04 21:46:46
记一个我被Claude Fable 5震撼的瞬间。

记一个我被Claude Fable 5震撼的瞬间。

数字生命卡兹克
2026-07-03 08:20:43
重磅!杜锋下课,卸任广东宏远主教练,焦泊乔或留队,徐昕迎转机

重磅!杜锋下课,卸任广东宏远主教练,焦泊乔或留队,徐昕迎转机

烨侃体育
2026-07-05 16:46:52
纯属意外!陈龙8岁儿子狂揽19个冠军,一开始只是去蹭哥哥的课

纯属意外!陈龙8岁儿子狂揽19个冠军,一开始只是去蹭哥哥的课

赏心悦目的我
2026-07-03 16:17:29
2026-07-06 03:08:49
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19861文章数 49716关注度
往期回顾 全部

科技要闻

华为:逻辑折叠将大幅提升麒麟CPU核心频率

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

头条要闻

四川深夜连发3次超4级地震 居民外出躲避回屋再遇地震

体育要闻

姆巴佩点走巴拉圭:巴黎三代左锋传承

娱乐要闻

霉霉婚礼照片泄露 有四人违规

财经要闻

揭秘跨境“对敲”换汇黑产

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

手机
健康
旅游
房产
数码

手机要闻

2026下半年换机方向定了:大屏手机要火,华米OV耀聚齐了

听说少吃点能抗衰老?专家讲解!

旅游要闻

我们人类最早的祖先,居然出自云南这座小山,看完心生敬畏!

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

数码要闻

Intel Xe3P核显越来越近!Linux曝光新进展

无障碍浏览 进入关怀版