网易首页 > 网易号 > 正文 申请入驻

豆包 2.0 模型发布,全信息整理(全网最完整,另附 79 页 Model Card)

0
分享至

今天 Seed2.0 全系列正式发布
Seed2.0,也就是豆包大模型2.0(Doubao-Seed-2.0)

包括 Pro、Lite、Mini 三款通用 Agent 模型加一个 Code 模型,围绕 Agent 使用和大规模生产,做了系统性优化

先看数据(本文里所有表格,都是我做的,好不好看!!!)


Seed2.0 核心评测数据总览|vs GPT-5.2 · Claude Opus-4.5 · Gemini-3 Pro

先一次过完核心部份:

多模态,数学与视觉推理 19 项基准 12 项第一,视觉感知、文档理解、长上下文大部分基准 SOTA,EgoTempo 超过人类分数

LLM 科学能力,HealthBench 第一,SuperGPQA 超 GPT-5.2,整体与 Gemini 3 Pro、GPT-5.2 相当;在深度研究上也取得了不俗的成绩

代码,有明显进步,部分高难基准与国际领先模型仍有差距

已上线,豆包 App 选「专家」模式 / TRAE 选「Doubao-Seed-2.0-Code」,全系列 API 已上线火山引擎,价格较同级 GPT 和 Claude 便宜一个数量级


Model Card 也有,同时发布的还有一份 79 页的 Model Card,公众号后台回复「Seed2.0」,获取这份 Model Card


先说定价

Seed2.0 全系列的这四款模型,API 已上线火山引擎。以下为分段计费中 ≤32k 输入的价格,单位元/百万 tokens,这里我也做了个对比图:


价格对比(人民币计价)

Pro(doubao-seed-2-0-pro-260215)旗舰全能,面向复杂推理与长链路 Agent 任务
输入 3.2 / 输出 16 / 缓存命中 0.64

Lite(doubao-seed-2-0-lite-260215)均衡型,综合能力超 Seed1.8,兼顾质量与速度
输入 0.6 / 输出 3.6 / 缓存命中 0.12

Mini(doubao-seed-2-0-mini-260215)低时延高并发,256k 上下文,4 档思考长度
输入 0.2 / 输出 2 / 缓存命中 0.04

Code(doubao-seed-2-0-code-preview-260215)编程加强版,适配 Claude Code 等 IDE 工具链
输入 3.2 / 输出 16 / 缓存命中 0.64

四款模型均支持文字、图片、视频输入,文字输出

token 定价,比海外模型低了约一个数量级。Agent 跑一次 workflow 消耗的 token 是人类对话的几十倍

在现实世界的复杂任务中,大规模推理与长链路生成将消耗大量 token,这个成本变量会越来越重


火山引擎模型详情页:https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-2-0-pro

本次的优化

Seed 团队分析了通用模型在 MaaS 服务中的真实调用情况


MaaS 调用场景分布

Seed 通用模型 MaaS 服务在中国大陆的调用场景分布,数据来自「火山方舟协作奖励计划」

最高比例的需求是处理混杂图表、文档等非结构化信息的知识内容。企业端的典型模式:先让模型做「读得多、想得多」的任务,再进入复杂且专业的流程型工作

基于这个真实需求,Seed2.0 重点优化三个方向:

  • 更稳健的视觉与多模态理解:复杂文档、表格、图形、视频内容的解析能力显著提升

  • 更可靠的复杂指令执行:多约束、多步骤、长链路任务的理解与执行能力强化

  • 更灵活的推理选择:Pro、Lite、Mini 三档加 Code 模型,覆盖不同场景

除了生产级需求,Seed2.0 还在推高模型智能上限。目前已经能从解决奥林匹克竞赛类问题迈向支持研究级推理,比如尝试探索埃尔德什级别的数学问题,也可以完成部分科学相关任务的编程工作

能解埃尔德什问题和能帮你整理一堆扫描版合同,是两种能力
Seed2.0 两个都在做

多模态理解:大部分基准 SOTA 数学与视觉推理

Seed2.0 Pro 在 MathVista、MathVision、MathKangaroo、MathCanvas 等数学推理基准上达到业界最优水平。LogicVista、VisuLogic 等视觉解谜与逻辑推理基准上,较 Seed1.8 显著提升


数学与视觉推理评测数据

标注 * 的数据引自公开技术报告

视觉感知

VLMsAreBiased、VLMsAreBlind、BabyVision 等基准中取得业界最高分。面对不同类型的视觉输入时仍能保持准确且可信的感知和判断能力


视觉感知与通用 VQA 评测数据

标注 * 的数据引自公开技术报告

文档理解与长上下文

模型面对的,往往是复杂版式混排的原始材料。相比 Seed1.8,处理非结构化信息的能力显著强化,ChartQAPro 与 OmniDocBench 1.5 达到顶尖水准

长上下文方面,DUDE、MMLongBench、MMLongBench-Doc 均取得业界最佳分数


文档理解与长上下文评测数据

标注 * 的数据引自公开技术报告

视频理解

时间序列与运动感知方面,TVBench、TempCompass、MotionBench 等关键测评处于领先位置

EgoTempo 超过人类分数(人类 63.2,Seed2.0 Pro 71.8),对「变化、动作、节奏」的捕捉更为稳定

长视频场景中,Seed2.0 在大部分评测上超越了其他顶尖模型,可以高效准确地处理小时级别的长视频。视频工具 VideoCut 进一步提高了长视频处理的时长范围和推理精度

流式实时视频方面同样表现优异,能完成实时视频流分析、环境感知、主动纠错与情感陪伴,可应用于健身、穿搭等场景


视频理解评测数据

标注 * 的数据引自公开技术报告

LLM 与 Agent:真实长程任务执行能力提升

Seed 团队观察到一个典型失衡:模型已经可以顺利解决竞赛难题,但放在真实世界中,依然很难端到端地完成实际任务,比如一次性构建一个设计精良、功能完整的小程序

原因来自两点。真实世界任务跨越更长时间尺度、包含多个阶段,现有 LLM Agent 难以自主构建高效工作流。真实世界知识具有很强的领域壁垒且呈长尾分布,各行业的经验不在训练语料的高频区

长尾领域知识

Seed2.0 通过系统性加强长尾领域知识来应对

SuperGPQA 超过 GPT-5.2,HealthBench 第一名,科学领域整体成绩与 Gemini 3 Pro 和 GPT-5.2 相当。FrontierSci 等 STEM 基准表现突出,部分场景得分超过 Gemini 3 Pro


LLM 科学能力评测数据 指令遵循

Seed2.0 保持较强的一致性与可控性,为 Agent 模型在长链路、多步骤任务中严格按约束条件执行奠定了基础


指令遵循评测数据 深度研究

Seed2.0 在长链路任务中表现突出,尤其擅长连续完成「找资料、做归纳、写结论」这类连续工作流

三项深度研究评测,Pro 和 Lite 都取得了不俗的成绩


深度研究评测数据 真实世界任务

在具备直接经济价值的现实任务评测中,Seed2.0 在客服问答、信息抽取、意图识别、中小学阶段问题解答等高频场景上表现稳定。GDPVal-Diamond、XPert Bench 等复杂专业任务基准上同样取得有竞争力的结果


真实世界任务评测数据 科学发现

FrontierSci-research 等前沿科研基准上表现强劲,AInstein Bench 领先,体现出在科学发现场景中较强的假设驱动式推理能力


科学发现评测数据 从研究想法到实验方案

Seed2.0 还能把「研究想法」推进到「形成可落地的实验方案」

以高尔基体蛋白分析为例,模型把基因工程、小鼠模型构建、亚细胞分离与多组学分析串成一条完整流程,细化到关键环节怎么做、用什么做对照排除污染、用哪些指标评估纯度

相关领域专家的反馈:方案在跨学科的实验细节与步骤化表达上超出预期,能产出结构清晰、科学上相对可靠、具有可执行性的实验草案


高尔基体蛋白分析实验方案示例 代码:有进步,有差距

端到端整体代码生成、上下文学习方面取得了明显进步


Vibe Coding 及上下文评测数据

部分高难基准上,与国际领先模型相比仍有提升空间

最后

除了火山 API 之外,Seed2.0 Pro 和 Code 还已分别上线:

  • • 豆包 App:选择「专家」模式,开启对话

  • • TRAE:在「内置模型」中选择「Doubao-Seed-2.0-Code」

以及,火山的这个模型,也已上线方舟 Coding Plan,且首月低至 8.91 元

新春限时特惠 ✖️ 二月特别补贴

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美联储、鲍威尔,突发!降息,重大变数!

美联储、鲍威尔,突发!降息,重大变数!

数据宝
2026-04-04 18:16:51
为嫁给美国人,56岁南京大妈奔赴美国,2年后嫁给70岁美国老头

为嫁给美国人,56岁南京大妈奔赴美国,2年后嫁给70岁美国老头

情感艺术家
2026-03-08 22:07:38
震惊!涉黄的麻豆传媒永久关停!

震惊!涉黄的麻豆传媒永久关停!

广告创意
2026-04-04 09:15:50
色色是第一生产力!因丝袜效果爆火的作者制作相关模拟器

色色是第一生产力!因丝袜效果爆火的作者制作相关模拟器

3DM游戏
2026-04-02 15:00:47
8天已到,高市拒绝道歉!外交部宣布动手,日本有人财产全被冻结

8天已到,高市拒绝道歉!外交部宣布动手,日本有人财产全被冻结

甜柠聊史
2026-04-03 22:51:02
普京下最后通牒:泽连斯基今天必须撤出顿巴斯

普京下最后通牒:泽连斯基今天必须撤出顿巴斯

桂系007
2026-04-01 23:22:32
张志新烈士忌日,回看那泯灭人性的年代,不寒而栗中更需警醒

张志新烈士忌日,回看那泯灭人性的年代,不寒而栗中更需警醒

薇微笑语
2026-04-04 21:14:49
烟火伴锋芒,深情渡余生!张雪峰的爱情故事很浪漫

烟火伴锋芒,深情渡余生!张雪峰的爱情故事很浪漫

史海流年号
2026-04-03 08:25:33
真相来了|以色列特拉维夫上空“乌鸦遮天”?其实是美国旧视频

真相来了|以色列特拉维夫上空“乌鸦遮天”?其实是美国旧视频

国际在线
2026-04-04 17:25:19
美伊战争,出现了3个赢家,至少15个输家,他们都是谁?

美伊战争,出现了3个赢家,至少15个输家,他们都是谁?

七号说三国
2026-03-27 17:55:32
昏招!斯洛特晚用天才一步,利物浦希望之星被他彻底埋没

昏招!斯洛特晚用天才一步,利物浦希望之星被他彻底埋没

奶盖熊本熊
2026-04-05 02:08:01
“没屋顶才是有钱人标配”,大小姐跳舞视频火了,普通人看清现实

“没屋顶才是有钱人标配”,大小姐跳舞视频火了,普通人看清现实

妍妍教育日记
2026-03-09 17:40:44
茜茜公主童话,骗了你整整四十年,她16岁嫁的不是王子,是亲表哥

茜茜公主童话,骗了你整整四十年,她16岁嫁的不是王子,是亲表哥

西楼知趣杂谈
2026-04-02 13:02:51
没想到,李荣浩心中这口恶气竟让人民日报给出了,网友:就该封杀

没想到,李荣浩心中这口恶气竟让人民日报给出了,网友:就该封杀

乐天闲聊
2026-04-03 05:35:52
太残酷了!师傅月薪18000,悉心带徒两年,换来自己被替代的下场

太残酷了!师傅月薪18000,悉心带徒两年,换来自己被替代的下场

火山詩话
2026-04-04 16:25:14
搞笑西游记冷笑话,唐僧师徒四人来到一家饭庄化缘,掌柜说长老要点什么?

搞笑西游记冷笑话,唐僧师徒四人来到一家饭庄化缘,掌柜说长老要点什么?

天天明星
2026-04-04 00:12:08
眉毛冒出一根很长的毛?不要大意!俗话说“眉生长毛,必有一遭”

眉毛冒出一根很长的毛?不要大意!俗话说“眉生长毛,必有一遭”

一根香烟的少妇
2026-03-17 17:54:13
1965年,山西黄河发现巨龟,行走如百米大山,7人因此命丧黄泉

1965年,山西黄河发现巨龟,行走如百米大山,7人因此命丧黄泉

古怪奇谈录
2025-05-09 14:24:29
84岁“王芳”住进养老院,不是没人管,而是不愿活成流量符号

84岁“王芳”住进养老院,不是没人管,而是不愿活成流量符号

墨印斋
2026-04-05 01:18:52
浙江包工头多器官衰竭,医院一直没找出病因,母亲煮饺子察觉蹊跷

浙江包工头多器官衰竭,医院一直没找出病因,母亲煮饺子察觉蹊跷

二十一号故事铺
2024-10-18 19:35:03
2026-04-05 04:12:49
赛博禅心
赛博禅心
拜AI古佛,修赛博禅心
359文章数 50关注度
往期回顾 全部

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

头条要闻

伊朗发动第七轮导弹袭击 耶路撒冷拦截导弹升空

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

健康
房产
本地
时尚
公开课

干细胞抗衰4大误区,90%的人都中招

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

本地新闻

跟着歌声游安徽,听古村回响

别再穿大一码了!遮肉根本不是靠宽松

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版