字节证明了，豆包不止是个搞笑姐|模态|代码|agent

字节证明了，豆包不止是个搞笑姐

2026-02-14 22:39:14　来源: 光锥智能

山西举报

分享至

文｜魏琳华

编｜王一粟

越到春节越热闹，2月接近过半，全球AI行业迎来了一个忙碌的“超级发布月”。

海外御三家先后参战，先是OpenAI和Anthropic撞档期，前后脚发布了GPT 5.3 codex和Claude Opus 4.6，隔了几天，Google把Deep Think端了上来；国内，两家上市的六小虎智谱、MiniMax发模型，视频领域，快手的可灵3.0和字节的Seedance对打。真是好不热闹。

在这场模型对决中，字节算得上是本周掀起最大热度的一家参战者。不说Seedance 2.0的破圈效应，在发模型的力度上，字节本周一口气把视频、图片生成和大语言模型全都放了出来，每个领域都在刷存在感。

回顾这两年，其实在大语言模型的领域，字节的存在感显然不如视频、图文等多模态领域更强，但豆包却成了AI入口之争中表现最好的产品。

事事争先的字节，目标一定是全领域覆盖。所以这次的豆包2.0大模型（Seed 2.0），也是有备而来。

豆包之所以领先，靠的不仅仅是字节系流量的灌溉，更关键的是找对了用户想玩的场景。比如最近刷视频，天天都能刷到豆包指点人类穿搭。

所以在大语言模型的优化上，豆包的进展也延续了场景思路，重点在两个方向：一是继续在多模态能力上发光发热，二是为了火山引擎做铺垫，优化了Agent相关能力，让它在企业端更好用。

字节的AI野心，正在随着模型能力的补全缓缓展开。

进化靠场景：左手多模态、右手抓Agent

可以说，Seed 2.0更新最亮眼的能力，就是多模态的进化。

在官方晒出取得成绩的一系列领域中，一部分功劳就要归到视觉理解能力身上。以数学领域为例，字节超过海外多个闭源大模型的其中两个指标MathVista、MathVision，这两者重点考察模型对包含视觉信息的数学问题的理解能力——也就是模型不仅得数学好，还得“看”得明白。

除了视觉推理，在视频场景的理解上，Seed 2.0的表现也相对突出。在官方演示中，它能通过对于时间、运动感知的理解，让大模型看明白视频中的内容。比如吃透台球的走位、推测击打台球的位置。

不难想象，这个功能如果后期和视频通话进行联动，豆包又能做出来多少出圈视频。

多模态能力的加强，也让Seed 2.0优化了一些在现实中更刚需的场景。豆包不仅仅是基于用户需求优化，字节在做模型的思路上，也同样是朝着场景落地来做优化。

在Seed 2.0文档描述中，官方提到，之前分析过Seed 通用模型在 MaaS 服务中的调用情况，发现，最高比例的需求为处理混杂图表、文档等非结构化信息的知识内容。

光锥智能用网上搜集来的一张简历表的图片给到豆包做参考，让它做个一模一样的表格出来。在实际测试效果中，虽然表格的大小比例还需要自己优化，但豆包已经能把表格的内容完整复制下来。

左为参考图片，右为Seed 2.0生成的表格

我们又丢了一张混杂着各种柱状图表的图片让豆包解读，它也能准确识别不同轴每个月份的信息。并且读出来柱状图上的数字、不同颜色的轴代表的意义是收入和差值，然后讲解图片代表的意义。

另外，除了提升文件信息的处理，豆包这次把重心放在了Agent上。同样是为了企业应用的场景考虑，做了对长内容理解和连续多步骤执行能力的优化。

从测评数据来看，在Agent任务的执行上，Seed 2.0确实站上了第一梯队的位置。

以HLE（人类最后的测试，用于评判处理复杂任务的能力）为例，Seed 2.0拿到了52.4，超过了海外多个模型，超过了这几天新发的模型GLM 5.0、MiniMax 2.5。但如果和开源老大哥阿里的Qwen-3 Thinking Max（58.3）相比，还有些许差距。

为了测试豆包的Agent能力，光锥智能给了豆包一串月之暗面曾经展示过的提示词，让Seed 2.0做一个在手机端运行防止作弊的小问卷，主题是考验用户对豆包2.0的理解，一共出十道题就行。

虽然豆包一开始做的版本没办法点击测试按钮跳转到题目，但我们让它自动修正两次后，豆包把这个需求成功复刻出来了。能运行、能跳转、能打分。

再让它做了下连连看、黄金矿工这类小游戏，虽然在画面上还有很大的优化空间，不算美观。但豆包给到的已经是一个能直接运行的游戏网页。

可以说，现在的Seed 2.0，对于普通用户的体验来说足够友好。不过在今年大火的Coding场景上，豆包的大模型梯队还背着追赶第一梯队的任务。

比如，在SWE-bench Verfied（用代码解决问题的能力）测试上，Seed 2.0的表现还没办法和智谱、MiniMax的新模型抗衡。Vibe Coding上，Seed 2.0的表现也不算突出。不过字节也没准备把Coding塞到这个模型里，而是另发了一个Coding模型补全代码能力。

在模型定价上，Seed 2.0可以说把价格压到了非常低的程度，这一如既往地符合字节在大模型方面的低价策略。官方给出的价格展示中，Seed 2.0的输入价格被压低至0.6元/百万tokens，对比Claude Sonnet 4.5 3美元/百万token的价格，Seed仅是其 1/35，相比智谱GLM-5每百万tokens6元的价格，它仅是其1/10。

这样的价格，在Agent抢跑的2026年，可以想象，会成为字节做Agent的落地优势。

字节式胜利：视频模型的场景和速度战

如果说Seed 2.0是基础设施的加固，那么本周发布的视频模型Seedance 2.0，则算得上字节打得相当漂亮的一场仗。

时间倒退回几年前，可灵是第一个在国内引起震动的视频生成模型。而现在，这种先发优势正在被后者追赶上。

本月，快手和字节先后发布了视频生成模型的更新，快手发了可灵3.0，在分镜能力上有所优化，但目前还在内测阶段，尚未在官网全量上线；字节的Seedance 2.0虽然发得晚，但在真人素材、分镜、物理规律理解和视频匹配的音频效果上的优化，加上不到一周时间就基本开放到人人可用的程度，后者成为当前声量最大的视频生成产品。

但在实际测试中，光锥智能以快手可灵2.6和字节Seedance 2.0做测试，其实两者拉开的差距并没有大到拉开一个量级的差距。

就以物理规律为例，光锥智能以“台球撞击”为提示词，让两个模型分别生成白球击打红球、红球落袋的视频，从结果来看，两者各有优势：可灵2.6没有生成球杆击打的效果，但白球击中红球一次后就顺利落袋；Seedance 2.0给到了球杆击打的画面碰撞了两次红球才落袋。

但复盘Seedance 2.0的破圈之路，会发现，这个模型的破圈在场景需求+字节工厂的能力下，几乎是必胜的。

先说场景，字节在社媒的快速破圈，不仅是靠影视飓风Tim、游戏科学创始人冯骥的点评和测试，还有真人素材生成视频的玩法破圈。这种生成的真实度包括了人像的真实、语音效果和本人的接近，让更多用户愿意“尝鲜”。

找到场景的情况下，字节正在靠剪映、豆包覆盖到更多用户。当竞争对手快手可灵3.0仍处于内测阶段，仅限小范围用户体验的情况下，字节把Seedance 2.0的体验放到了剪映、豆包中。当前，剪映及海外CCapcu工具t在剪辑中处在断层领先的优势，而豆包也是AI助手月活第一的产品。

现在，你可以直接在豆包里用上Seedance 2.0

可以说，字节用速度和生态的覆盖，成功拿下了市场。

除了视频生成模型外，在图像生成方面，字节本周发布的Seedream 5.0 Lite延续了字节在图片生成领域的优势。这次的更新，主要围绕着实时信息搜索和指令遵循两部分能力的提升，前者让图片生成能够基于网上的信息增强理解效果，后者则让它生成的结果更符合用户提示词给出的需求。

反过来，字节在多模态能力上的持续加强，也在反哺着豆包App。

最近爆火的豆包视频实时指导你穿搭，效果搞笑，被更多人当成了新奇玩法，这些高频场景不仅培养了用户习惯，也为模型提供了更多有效的对话信息。

本周三个大模型更新的“超级发布周”，是一次典型的字节式胜利：优势不仅是单点技术的突破，还靠接地气的产品化能力和与普通用户贴近的场景。

模型层面，字节在春节前交了一个能让团队满意的答卷，证明了豆包不止是一个“搞笑姐”。产品层面，豆包要和各家大厂AI App打的仗，即将在春晚掀开帷幕。

随着模型能力差距的拉近，这场AI战争，注定越来越激烈。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.