哈喽,大家好,今天小墨这篇科技解析,主要带大家看懂豆包大模型1.8发布背后的行业信号,通用 Agent 已成为 AI 下半场的核心叙事。
2025年的AI行业竞争,从年初DeepSeek R1和Manus开启的Agent热潮,到年底多款旗舰模型密集发布,最终清晰地回归到核心基座模型的能力比拼。
12月18日,火山引擎在上海FORCE原动力大会发布的豆包大模型1.8,正是这一行业趋势的典型印证,其以多模态Agent能力为核心的升级方向,以及同步推出的全新评估体系,为AI“下半场”的竞争划定了新赛道。
![]()
![]()
多模态Agent能力重构AI交互逻辑
豆包1.8的核心升级聚焦于通用Agent能力的系统性增强,其中最具颠覆性的是OS Agent场景的落地,让AI不仅能“思考”和“表达”,更能“看见”并直接操作数字世界。
这一突破的底层支撑,是模型从预训练阶段就采用的端到端多模态训练方案。
![]()
官方数据显示,其在ZeroBench视觉推理测试中斩获11.0的最高分,超越Gemini 3 Pro的10.0;在VLMsAreBiased基准测试中得分62.0,大幅领先同类模型。
这种原生多模态能力让OS Agent具备了全场景操作能力。在电脑、网页、移动端三大环境中,能精准执行GUI界面操作,在全球权威的BrowserComp-en测评中得分高达67.6,超越Gemini-3-Pro等顶级模型。
![]()
更重要的是,其突破了传统Agent对API接口的依赖,能直接通过视觉识别操作银行ERP、企业内网等无API系统,或绕过严格的API限制实现跨平台数据搬运,为企业自动化场景开辟了新可能。
在工具调用与思考能力上,豆包1.8进一步夯实了行业标配。
更关键的是其实现了思考模式下的工具调用,能在保留推理状态的同时完成多轮工具调用,利用历史思考内容提升长链路任务的完成质量,这一功能已在电商客服等场景落地,可自动调度商品库、计算器等工具,甚至通过高情商交互推动用户转化。
![]()
![]()
新评估体系定义AI“下半场”标准
随着行业竞争焦点转移,传统评测集的局限性日益凸显。
转向高经济价值的真实场景任务,摆脱合成任务的局限。在保障实用性的同时推进通用智能,设计高级推理、编码等新基准。
![]()
这一评估体系的落地,直指AI行业“定义问题比解决问题更重要,evaluation比training更重要”的核心趋势。
火山引擎技术人员透露,客服场景是其重点评测方向之一,这一场景因SOP获取难、验证复杂、准确性要求高而被低估,却能精准检验模型的现实适配能力。
当模型能高质量完成客服任务时,不仅能实现7×24小时高效响应,更能解锁“客服变销售”的增值价值,杭州银行基于豆包打造的“百业云”智能客服就已实现这一突破。
豆包1.8的发布也推动行业竞争进入“模型—平台—生态”的系统化阶段。
![]()
火山引擎同步推出AgentKit开发平台、HiAgent智能体工作站,以及最高可节省47%成本的“AI节省计划”,大幅降低企业Agent应用的开发门槛。
目前,其已在多行业落地标杆案例:近八成主流车企选择豆包升级智能座舱,浙江大学基于其打造的“浙大先生”智能体平台服务5万余名师生,教育机构利用其视频理解能力将课程审核效率提升83%。
截至12月,豆包大模型日均token使用量突破50万亿,超100家企业客户累计token使用量破万亿,印证了其生态号召力。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.