![]()
新智元报道
![]()
【新智元导读】6 月 24 日,豆包上线专业版,首个 Agent 驱动的办公任务模式搭载豆包 2.1 Pro。实测调研报告、财报分析、自建 Skill 等办公场景,交付质量对标 Claude Opus 4.6。2 亿日活的国民 AI 应用,开始认真干活了。
刚刚,豆包正式上线专业版,同步发布豆包 2.1 系列大模型。
这次更新最核心的变化是全新的「办公任务模式」,分别为专业版用户和免费用户提供豆包 2.1 Pro 和豆包 2.1 Turbo 模型,这也可以被认为是豆包的第一个 Agent 版本。
![]()
在这个模式下,豆包能完成一个完整的工作目标,自主拆解步骤,调用本地电脑、浏览器、飞书办公套件等工具,产出可以直接交付使用的工作成品,一份行业报告、一张数据分析表、一套 PPT,或者一个带后端数据库的网站。
谈到模型能力,有个效果十分吸睛的 Demo:一个芯片设计 RTL 的测试,豆包 2.1 Pro 连续运行近 18 小时,完成 6 个核心模块、1303 行 RTL 代码,经历 9 轮迭代,还跑通了仿真、测试、综合检查等完整工程流程,展现出模型在真实工程场景里的生产级 Coding 交付能力。过去完成该任务需要 3-5 个工程师做数周。
豆包日活超过 2 亿,是中国用户量最大的 AI 应用。
这 2 亿人里大多数从未接触过 Claude Code 和 Codex 等专业 Agent 工具。
Agent 能力进入一个每天 2 亿人打开的 App,覆盖的是一个全新的用户群体。
免费用户不受任何影响,现有功能和额度保持不变,底层模型升级为豆包 2.1 Turbo,能力甚至有显著提升。
办公任务模式也在一定额度内向所有用户免费开放。
对于豆包的免费用户来说,免费服务的现有功能和额度保持不变,还整体接入了豆包 2.1 模型,能力有所提升。
此外,免费用户还能体验接入豆包 2.1 Turbo 模型的办公任务模式。
那么这个 Agent 模式到底能把活干到什么程度?
三大场景,实测豆包 Agent
办公任务模式的逻辑很简单,Agent 明确目标,拆解步骤,调用工具,交付成品。
产出物是可以直接发给同事、交给客户的工作成果。
以下三个场景按难度递进,用交付结果说话。
场景一:本地电脑操作 + 应用生成
第一个场景直接测豆包新推出的办公任务模式最硬核的能力之一——操作用户本地电脑上的文件,写代码、跑代码、发现问题自己修。
实测分两轮。
第一轮 Prompt:
设计一个可复用的本地软件,帮助我检测出重复照片中质量最好的,将其余质量相对更差的放入回收站。可以用我本地文件夹的这些照片来测试并完善软件。
![]()
豆包先查看了本地照片文件夹,了解测试数据,然后开始写代码。
过程中经历了多轮自我迭代,遇到依赖兼容性问题主动切换技术方案,发现评分算法和分组逻辑的 Bug 后自行修复重跑,直到测试结果达标才交付。
第二轮 Prompt:
能否加上一套极简 UI,让连运行 Python 代码都不会的人也能傻瓜式操作?
![]()
豆包用 tkinter 做了一个完整的图形界面,文件夹选择、严格度滑块、备份模式、可视化扫描结果、进度条、二次确认弹窗,删除默认进系统回收站。
![]()
生成了一个双击启动脚本,用户点一下就能打开。
最终交付四个文件,命令行版、GUI 版、启动脚本和使用说明。
最终,Agent 从两张相同场景的照片中成功挑出了质量最好的一张。
![]()
正确对焦的清晰照片:IMG_5676.jpg
![]()
错误对焦的模糊照片:IMG_5684.jpg
![]()
成功选出了更清晰的第一张照片:IMG_5675.jpg
一个完全不会写代码的人,全程鼠标操作就能清理完重复照片。
场景二:财报数据分析 + 对比图表
实测 Prompt:
帮我整理近半年全球 AI 芯片行业的财报核心数据,对比英伟达、AMD 两家公司的营收增速、毛利率变化,生成对比分析表格并给出行业趋势总结,输出为飞书表格 + 500 字以内的投资摘要文档。
Agent 要从多个数据源提取财务指标,清洗比对,生成可读性强的表格,还要写出有判断力的趋势分析。
从信息提取到数据处理到可视化到文字总结,这是一个多步骤链式任务,任何一环断了都交不出合格的活。
豆包交付了两个文件,一份双 Sheet 的飞书表格和一份投资摘要文档。
表格链接:https://my.feishu.cn/sheets/DFBHsfWtOh7zHMtJur4cootPn9c
文档链接:https://my.feishu.cn/docx/Xwxfd5Dv5opPaAxcGLPccvs6nbd
![]()
Sheet 1
![]()
Sheet 2
![]()
文档
表格做到了什么程度?
第一个 Sheet 是季度对比,按公司分列、按指标分行,英伟达 FY2027 Q1 营收 816 亿美元(同比 +85%)、GAAP 毛利率 74.9%、数据中心收入 752 亿美元(同比 +92%);AMD 2026 Q1 营收 103 亿美元(同比 +38%)、毛利率 53%。
第二个 Sheet 是年度核心数据,包括全年营收、AI 业务占比、市值等维度。
每个数字都有明确的时间范围标注,不需要人去猜「这个季度到底是哪几个月」。
投资摘要没有停留在复述数字的层面,而是提炼出了三个行业趋势判断,全球 AI 算力建设加速驱动需求持续超预期、英伟达 CUDA 生态加硬件迭代形成深厚护城河、竞争格局呈现「一超多强」分化。
最后给出了配置建议,英伟达超配、AMD 标配,并提示关注三季度新品节奏和云厂商资本开支变化。
AI 生成的财务数据仍需人工核验,文档也标注了「部分内容由豆包生成」。
但作为初稿,这份表格加摘要的双交付,已经覆盖了一个初级分析师大概半天的工作量。
场景三:自建 Skill + 世界杯数据分析
实测 Prompt:
创建一个可以生成数据可视化面板的技能,然后用这个技能把今天世界杯的所有比赛数据分析一下。
第三个场景展示的是 Agent 最有想象空间的能力,用户在教 AI 学一个新技能,然后让它用这个技能干活。
这条 Prompt 里包含两个任务。
第一步是创建一个自定义 Skill,第二步是调用刚创建的 Skill 执行具体分析。
豆包先生成了一个名为「data-dashboard」的 Skill,基于 ECharts 构建,支持统计卡片、柱状图、饼图、折线图、双轴图等多种图表类型,响应式设计,深色渐变主题,并附带了完整的 HTML 模板和使用指南。
然后豆包调用这个 Skill,抓取了 6 月 24 日世界杯 4 场比赛的实时数据,生成了一个交互式数据面板。
![]()
![]()
![]()
面板里的信息让人很难相信这是一句 Prompt 的产物。
6 个关键指标统计卡片(总进球、零封场次、场均进球等),各队进球数对比柱状图,比赛状态分布饼图,进球时间分布折线图,小组积分形势双轴图,外加一张完整的赛程数据表格。
数据的时效性也跟上了,葡萄牙 5 比 0 大胜乌兹别克斯坦,C 罗梅开二度(siuuuuu~),成为历史首位在六届世界杯中全部取得进球的球员(41 岁 138 天),这些细节都准确呈现在面板里。
![]()
图源:央视新闻
这个案例的价值在于 Agent 完成了「先造工具,再用工具干活」的复合指令。
传统工作流里,创建一个数据分析模板和用模板执行分析是两个独立步骤,通常需要不同的技能栈。
豆包只需要一句 Prompt。
而且这个 Skill 创建一次之后可以反复调用,明天、后天的世界杯赛事数据不需要重新描述需求。
三个场景之外,办公任务模式还有几项能力值得留意。
本地电脑操作方面,经用户授权后,豆包可以协助整理本地文件、归类文档、跨应用搬运信息。
定时任务方面,用户可以设定豆包在固定时间自动执行重复性工作,比如每周一上午 9 点自动生成 AI 行业动态周报。
网站和应用生成方面,办公任务模式支持创建带后端数据库的生产级网站,可供个人或团队快速搭建信息系统。
所有能力仍在持续迭代,更多专业 Skill 后续会陆续上线。
![]()
底座之变,豆包 2.1 Pro 是什么水平
办公任务模式的交付质量,底层由模型能力决定。豆包专业版搭载的是最新的豆包 2.1 Pro,免费版用户则可使用豆包 2.1 Turbo。
豆包大模型 2.1 Pro 已经达到了可用的标准,可以对标 Claude Opus 4.6 的水平,进入到了 Agent 的可用门槛。
一个有意思的变化是,此前 Seed 团队有单独的 Coding 模型 SeedCode,豆包 2.1 发布后 Coding 和 Agent 能力全部合并到了主版模型里,与此同时推出了 Seed Evolving 系列,在 2.1 基础上每一两周更新一次。
在面向真实 Coding 场景的众测开发者评估中,Seed 2.1 Pro 对比 Claude Opus 4.6 获得了 59.1% 的胜率。
在 ALE(Agents' Last Exam)基准评测中,这个覆盖 13 个行业集群、1000 多项高经济价值真实任务的测试里,Seed 2.1 Pro 处于第一梯队。
![]()
Agents' Last Exam 基准评测中,左侧为完整通过率,右侧为平均综合得分
GDPval 基准衡量模型在真实工作任务中的完成质量和经济价值,Seed 2.1 Pro 拿到了参评模型的最高分。
Terminal Bench 2.1 的得分为 71.0,与 Claude Opus 4.7 的 71.7 基本持平。
![]()
跑分是参考维度之一,前面的实测也更能反映 Agent 在真实办公场景中的交付水平。
两者结合来看,豆包 2.1 Pro 确实已经迈过了 Agent 的可用门槛。
价格方面,Seed 2.1 Pro 的 API 定价为输入 6 元/百万 Token、输出 30 元/百万 Token,约为海外同水平模型的四分之一。
豆包专业版采用三档订阅,标准 68 元/月,加强 200 元/月,高级 500 元/月,区别仅在使用额度,功能和模型完全一致。
与此同时,豆包即将推出面向在校大学生提供认证后 38 元/月的专属优惠,针对视障人群的视频通话功能也有特殊优惠方案。
再重复一遍关键信息:免费用户现有功能和额度不受影响。
办公任务模式也在一定额度内向所有用户免费开放,免费用户可以体验接入豆包 2.1 Turbo 模型的办公任务模式。
而专业版,主要解决的是专业用户在复杂任务场景下的额度需求。
2 亿人的 Agent 飞轮
豆包日活超过 2 亿。
这 2 亿用户里也有相当多使用智能手机还不算流畅的中老年人等相对的「科技弱势群体」。
他们大多数不知道 Claude Code 和 Codex 是什么。
![]()
Claude Code
![]()
Codex
对这个群体来说,Agent 此前只是科技媒体报道里的概念。
办公任务模式把 Agent 工作流放进了这些人每天都在用的 App 里。
一个从没写过代码的行政人员,现在能用一句话让豆包帮她整理本地文件、生成周报,甚至部署一个内部查询网站。
一个大学生可以用 38 元/月的学生优惠价,获得搭载旗舰模型的办公 Agent。
让 2 亿普通用户零门槛使用专业级工作流,是 AI 普惠当下最务实的一步。
2 亿日活还带来一个结构性优势——海量用户在 Agent 模式下处理真实工作任务,积累的数据将持续反哺模型的 Agent 能力迭代。
用户量级带来数据量级,数据量级加速模型进化,模型进化再拉动更多用户使用 Agent 功能。
Seed Evolving 系列每一两周更新一次,就是这种飞轮效应的产品化体现。
办公任务模式将不断快速进化,即将上新的功能包括但不限于:
技能商店页面,支持用户添加 / 管理;
手机远程操作电脑;
电脑端支持 GUI 操作;
进一步和飞书融合打通。
方向已经很清楚了。
Agent 时代,跑分是入场券,2 亿日活才是战场。
当一个国民级应用开始替用户干活,改变的是 2 亿国民的工作方式。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.