网易首页 > 网易号 > 正文 申请入驻

字节按下 AI Agent 加速键

0
分享至

经历了 2025 年初 DeepSeek、Manus 们的冲击,大厂正在重新明确自己下一步的战略。

作者|宛辰
编辑|郑玄

DeepSeek-R1 的好文笔、GPT-4o 的吉卜力画风、OpenAI o3 的看图推导地理位置……

这是过去两个月里此起彼伏刷屏的现象级 AI 产品,你能明显看到:强化学习终于可以泛化了,多模态模型也越来越可用了。这也意味着,2025 年真的进入了 Agent 应用落地、加速落地的时间点。

此前爆火的 AI Agent——Manus 团队曾透漏,去年底 Claude 3.5 Sonnet 在长程规划任务、逐步解决问题的能力上达到了做 Agent 所需要的程度,这是 Manus 诞生的前提。

现在,随着深度思考模型和多模态模型能力的进一步成熟,一定会有更多能处理复杂任务的 Agent。

基于这个判断,4 月 17 日,字节跳动旗下的云和 AI 服务平台「火山引擎」面向企业市场发布了更强的模型——豆包 1.5・深度思考模型,这也是字节跳动旗下 AI 应用豆包 App 背后的推理模型首次亮相。一同推出的,还有豆包・文生图模型 3.0、以及升级版的视觉理解模型。

对于这次发布的模型,火山引擎总裁谭待认为,「深度思考模型是构建 Agent 的基础,模型要有能力做好思考、规划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent 才能更好地处理复杂任务。」

而当 AI 进化出端到端的自主决策和执行能力,走向核心生产环节,火山引擎也准备了让 Agent 操作数字世界和物理世界的架构和工具——OS Agent 解决方案及 AI 云原生推理套件,帮助企业更快、更省地构建和部署 Agent 应用。

在谭待看来,开发 Agent 就像开发一个网站或 APP 一样,仅有模型 API 无法完全解决问题,需要很多云上的 AI 云原生组件。过去,云原生有其核心定义,如容器、弹性等;现在,AI 云原生也会有类似的关键要素。通过在 AI 云原生方面的持续思考、探索与快速行动——比如围绕模型做各种中间件、评测、监控、可观察性、数据处理、安全保障以及相关组件如 Sandbox 等,火山引擎致力于成为 AI 时代基础设施的最优解。

01

豆包深度思考模型,像人一样边看边想边搜

年初 DeepSeek-R1 发布以来,不少 ToC 应用都接入了 R1 推理模型,豆包 App 除外。3 月初在豆包 App 上线的「深度思考」模式,背后是字节跳动自研的豆包深度思考模型。

现在,这一推理模型——豆包 1.5 · 深度思考模型正式发布,可以在火山方舟平台体验和调用。

点击联网模式,豆包就可以像人类思考问题时一样,想一想、搜一搜、再接着想……,最终以解决问题为目的。

这是在购物场景的一个例子,在给定预算、大小等限制条件后,让豆包推荐一套合适的露营装备。

在这个问题上,豆包首先拆解了注意事项,规划了需要的信息,接着判断出缺失的信息、并进行联网搜索。这里它搜索了 3 轮,先是搜索价格和性能,确保符合预算和需求;还考虑了儿童单独的需求,最后考虑到天气,搜索了相关的详细评测。边想边搜,直到获取了做决策所需的全部必要上下文,给出了推理答案。

除了边搜边想,豆包深度思考模型还具备视觉推理能力,像人一样,不光能基于文字思考,也能基于看到的画面来思考。

就拿点菜这个场景来说,五一黄金周马上到了,出国旅游的朋友们不用拍照上传给翻译软件翻译菜单了,豆包深度思考模型可以直接根据图片帮你点菜。

在下面这个例子中,豆包深度思考模型首先进行了汇率换算来控制预算,接着考虑到了老人、孩子的喜好,同时仔细避开了他们过敏的菜肴,直接给出了菜单方案。

联网、思考、推理、多模态,豆包 1.5・深度思考模型展现了综合推理能力,能够解决更加复杂的问题。

根据技术报告,豆包 1.5・深度思考模型在专业领域的推理任务中完成度较高,比如在数学推理 AIME 2024 测试得分追平 OpenAI o3-mini-high,编程竞赛和科学推理测试成绩也接近 o1。在创意写作、人文知识问答等通用任务上,模型也展示出优秀的泛化能力,能胜任更广泛的使用场景。

豆包深度思考模型还具备低延迟的特性,其技术报告显示,该模型采用了 MoE 架构,总参数为 200B,激活参数仅 20B,以较小参数实现媲美顶尖模型的效果。基于高效算法和高性能推理系统,豆包模型 API 服务在保障高并发的同时,延迟低至 20 毫秒。

同时,它也有多模态能力,可以把深度思考模型用于各种各样的场景,例如它可以看懂复杂的企业项目管理流程图表,快速定位到关键信息,并以强大的指令遵循能力,严格按照流程图,回答客户的问题;分析航拍图时,能结合地貌特征判断区域开发可行性。

除了推理模型,这次豆包大模型家族还带来了两个模型的更新。在文生图模型方面,豆包推出了最新的 3.0 升级版本,这个版本能够实现更好的文字排版表现、实拍级的图像生成效果,以及 2K 的高清图片生成方式。

新版模型不仅较好地解决了小字和长文本的生成难题,还改善了图片排版。比如最左边生成的「现形」和「丰收计划」两幅海报,细节生成比较精细,排版也比较自然,可以拿来即用。

另一个升级的是豆包 1.5 视觉理解模型。新版本有两个关键更新,视觉定位更精准,以及对视频的理解更智能。

在视觉定位方面,豆包 1.5 视觉理解模型支持多目标、小目标、通用目标的框定位和点定位,并支持定位计数,描述定位内容,以及 3D 定位等。视觉定位能力的提升,可以让模型进一步扩展应用场景,例如线下门店的巡检场景、GUI agent、机器人训练、自动驾驶训练等。

在视频理解能力上,该模型也有大幅提升,比如记忆能力、总结理解能力、速度感知能力、长视频理解等。企业可以基于视频理解打造更加有趣的商业化应用,比如在家庭场景,我们可以基于视频理解能力,加上向量搜索,对家中的监控视频进行语义搜索。

比如下面这个例子中,养猫的人希望了解猫每天的活动情况,现在直接搜索「今天小猫在家都干什么了?」就能够快速返回语义相关的视频片段,供用户查看。

借助带视觉理解的推理模型和较大的推理能力储备,以前很多做不了的事情现在都可以实现,可以解锁更多的场景,比如有这样功能的摄像头一定会更受欢迎,AI 眼镜、AI 玩具、智能摄像头、门锁等也会有新的发展空间。

02

云,进入 Agentic AI 时代

这两天,OpenAI 研究员姚顺雨(Deep Research、Operator 核心作者)在「AI 的下半场」一文中指出,随着强化学习终于找到了可以泛化的路径,不只是在特定领域奏效,比如打败人类棋手的 AlphaGo,而是可以做到在软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作等等各方面都做到接近人类竞赛的水平。这种情况下,比拼榜单分数、在更复杂的榜单上得更高的分数会更容易,但这种评价方式已经过时了。

现在比拼的是定义问题的能力。换句话说,AI 要在现实生活中解决什么问题?

2025 年,这个答案是生产力 Agent。当前,AI 的应用场景正在快速迈入 Agentic AI 时代,AI 逐渐能完成专业度较高、耗时较长的完整任务。在这种情况下,火山引擎也为企业「定义自己的通用 Agent」搭建了一系列基础设施。

其中最重要的是模型,能够自主规划、反思、端到端地自主决策和执行,走向核心生产环节。同时,也需要多模态推理能力,让其在真实世界可以通过耳朵、嘴巴和眼睛来共同完成任务。

模型之外,Infra 技术栈也需要不断进化。就比如随着 MoE 架构显示出更高效的优势,逐渐成为模型的主流架构,随之而来地,调度适配 MoE 模型需要更复杂、灵活的云计算架构和工具。

现在在企业通用 Agent 的场景下,火山引擎推出了更好的架构和工具——OS Agent 解决方案,支持大模型来操作数字和物理世界,比如由 Agent 操作浏览器,搜索商品页,实现 iPhone 比价的任务,甚至由 Agent 在远程计算机上用剪映进行视频编辑、配乐等等。

当前,火山引擎 OS Agent 解决方案包含豆包 UI-TARS 模型,以及 veFaaS 函数服务、云服务器、云手机等产品,实现对代码、浏览器、电脑、手机以及其他 Agent 的操作。其中,豆包 UI-TARS 模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起,突破传统自动化工具依赖预设规则的局限性,为 Agent 的智能交互提供了更接近人类操作的模型基础。

在通用型 Agent 场景里,火山引擎通过这套 OS Agent 解决方案让企业内部、个人或特定领域,根据需要进行 Agent 定义和探索。

在垂直类 Agent 上,火山引擎则会基于自身优势领域进行探索,比如之前推出「智能编程助手 Trae」以及数据产品「Data Agent」,后者通过构建数据飞轮,将数据处理能力发挥到极致。

另一方面,随着 Agent 的渗透,也会带来更大量的模型推理消耗。面对大规模推理需求,火山引擎专门打造了 AI 云原生 ServingKit 推理套件,让模型部署更快、推理成本更低,GPU 消耗相比传统方案降低 80%。

在谭待看来,为了满足 AI 时代的需求,火山引擎会在三个方面持续发力:持续优化模型,保持竞争力;不断降低成本,包括费用、延迟和提高吞吐率;让产品更易于落地,比如像扣子、HiAgent 面向开发者的工具,还有云原生组件 OS Agent 等。保持产品和技术领先,市场份额也会领先。此前 IDC 发布的《中国公有云大模型服务市场格局分析,1Q25》显示,火山引擎以 46.4% 的市场份额位居第一。

去年 12 月,豆包大模型的日均 tokens 调用量是 4 万亿。截至今年 3 月底,这个数字已经超过了 12.7 万亿,相比豆包大模型刚发布时,在短短不到一年的时间里,实现了超过 106 倍的高速增长。未来,随着深度思考模型、视觉推理的进一步成熟和 AI 云基础设施的优化,Agent 还会带动更大的 tokens 调用量。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待火山引擎 OS Agent 解决方案?

超会转笔的灵巧手!ORCA 机械手:17 个自由肌腱驱动。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
威尔士公开赛16强出炉附赛程,张安达vs希金斯,8强中国有望占4席

威尔士公开赛16强出炉附赛程,张安达vs希金斯,8强中国有望占4席

小火箭爱体育
2026-02-26 09:05:55
中方第五波反制,巴拿马以为接管港口就高枕无忧,结果自断后路!

中方第五波反制,巴拿马以为接管港口就高枕无忧,结果自断后路!

真的好爱你
2026-02-26 10:33:10
印军前总长亲手拆台:印军白死了!加勒万那夜,印度输的不是一点

印军前总长亲手拆台:印军白死了!加勒万那夜,印度输的不是一点

爱吃醋的猫咪
2026-02-26 13:49:14
000826,瞬间涨停!多股跟随大涨

000826,瞬间涨停!多股跟随大涨

数据宝
2026-02-26 15:01:45
解放台湾需要多久?解放军中将给出准确答案

解放台湾需要多久?解放军中将给出准确答案

阿七说体育
2026-02-25 13:19:06
川大导师威胁,敢管就报复,卖房带经费回日,校方:已启动调查

川大导师威胁,敢管就报复,卖房带经费回日,校方:已启动调查

梦录的西方史话
2026-02-23 17:53:25
登封中灵山失联女子坠亡后续,父亲悲痛发声,河南网友透露内情

登封中灵山失联女子坠亡后续,父亲悲痛发声,河南网友透露内情

离离言几许
2026-02-25 18:44:49
陈坤之子陈尊佑生母真相11年前就已大白天下

陈坤之子陈尊佑生母真相11年前就已大白天下

错过美好
2026-02-14 21:17:01
云南大关县准备整体搬迁,昭通市划出一个镇,作为大关未来新县城

云南大关县准备整体搬迁,昭通市划出一个镇,作为大关未来新县城

宝哥精彩赛事
2026-02-26 14:25:19
上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

上海这晚,57岁周涛秒了30岁李雪琴,不愧是央视严选的国泰民安脸

大铁猫娱乐
2026-02-08 00:10:03
WTT爆大冷!男单8强对阵出炉,莫雷加德强势零封,王楚钦压轴登场

WTT爆大冷!男单8强对阵出炉,莫雷加德强势零封,王楚钦压轴登场

不似少年游
2026-02-26 11:43:44
出大事了,特朗普不宣而战,美军在国际水域开火,多人当场身亡

出大事了,特朗普不宣而战,美军在国际水域开火,多人当场身亡

小小科普员
2026-02-26 14:12:17
WOC!哈登!麻了,骑士心碎了...

WOC!哈登!麻了,骑士心碎了...

技巧君侃球
2026-02-26 15:18:22
26岁全身溃烂不治而亡,被全家8口吸血多年

26岁全身溃烂不治而亡,被全家8口吸血多年

仙味少女心
2026-01-31 23:14:30
广东36岁妈妈,生7个孩子,交几百万社会抚养费,拒一千万生意

广东36岁妈妈,生7个孩子,交几百万社会抚养费,拒一千万生意

三农老历
2026-02-26 10:38:37
破冰失败,中国拒绝给立陶宛好脸色,前总理炮轰现政府“瞎操作”

破冰失败,中国拒绝给立陶宛好脸色,前总理炮轰现政府“瞎操作”

刘浶开挖机
2026-02-26 14:51:42
柯文哲怒呛卓荣泰:你若明着讲“陆配是外国人”,就直接让李贞秀下台

柯文哲怒呛卓荣泰:你若明着讲“陆配是外国人”,就直接让李贞秀下台

海峡导报社
2026-02-26 11:50:03
伊美第三轮谈判今启 美方硬性要求遭披露

伊美第三轮谈判今启 美方硬性要求遭披露

极目新闻
2026-02-26 06:34:28
3-1横扫!21岁陈垣宇全面升级,张本智和压力拉满

3-1横扫!21岁陈垣宇全面升级,张本智和压力拉满

罗纳尔说个球
2026-02-26 15:24:31
85岁大爷自述:去过养老院雇过保姆,才明白晚年最好的归宿在哪儿

85岁大爷自述:去过养老院雇过保姆,才明白晚年最好的归宿在哪儿

拾代谈生活
2026-02-26 11:09:38
2026-02-26 16:20:49
极客公园
极客公园
让最棒的创新成为头条
11826文章数 78809关注度
往期回顾 全部

科技要闻

单季营收681亿净利429亿!英伟达再次炸裂

头条要闻

德国总理参观宇树科技 王兴兴回应

头条要闻

德国总理参观宇树科技 王兴兴回应

体育要闻

从排球少女到冰壶女神,她在米兰冬奥练出6块腹肌

娱乐要闻

尼格买提撒贝宁滑雪被偶遇 17年老友情

财经要闻

人民币升破6.85,创3年新高

汽车要闻

第五代宏光MINIEV焕新 四门玩趣代步车来袭

态度原创

家居
旅游
健康
房产
数码

家居要闻

归隐于都市 慢享自由

旅游要闻

三代同堂 内蒙古旅游过大年

转头就晕的耳石症,能开车上班吗?

房产要闻

2.2万/m²起!三亚主城性价比标杆 海垦·桃花源实景现房春节被疯抢

数码要闻

达尔优推出TMR磁轴三模键盘GT87,配备一体式锻碳手托

无障碍浏览 进入关怀版