网易首页 > 网易号 > 正文 申请入驻

AI上层能力集体塌缩,豆包1.8视觉能力崛起,逆袭密码揭秘

0
分享至

哈喽,大家好,今天小墨这篇科技解析,主要带大家看懂豆包大模型1.8发布背后的行业信号,通用 Agent 已成为 AI 下半场的核心叙事。

2025年的AI行业竞争,从年初DeepSeek R1和Manus开启的Agent热潮,到年底多款旗舰模型密集发布,最终清晰地回归到核心基座模型的能力比拼。

12月18日,火山引擎在上海FORCE原动力大会发布的豆包大模型1.8,正是这一行业趋势的典型印证,其以多模态Agent能力为核心的升级方向,以及同步推出的全新评估体系,为AI“下半场”的竞争划定了新赛道。





多模态Agent能力重构AI交互逻辑

豆包1.8的核心升级聚焦于通用Agent能力的系统性增强,其中最具颠覆性的是OS Agent场景的落地,让AI不仅能“思考”和“表达”,更能“看见”并直接操作数字世界。

这一突破的底层支撑,是模型从预训练阶段就采用的端到端多模态训练方案。



官方数据显示,其在ZeroBench视觉推理测试中斩获11.0的最高分,超越Gemini 3 Pro的10.0;在VLMsAreBiased基准测试中得分62.0,大幅领先同类模型。

这种原生多模态能力让OS Agent具备了全场景操作能力。在电脑、网页、移动端三大环境中,能精准执行GUI界面操作,在全球权威的BrowserComp-en测评中得分高达67.6,超越Gemini-3-Pro等顶级模型。



更重要的是,其突破了传统Agent对API接口的依赖,能直接通过视觉识别操作银行ERP、企业内网等无API系统,或绕过严格的API限制实现跨平台数据搬运,为企业自动化场景开辟了新可能。

在工具调用与思考能力上,豆包1.8进一步夯实了行业标配。

更关键的是其实现了思考模式下的工具调用,能在保留推理状态的同时完成多轮工具调用,利用历史思考内容提升长链路任务的完成质量,这一功能已在电商客服等场景落地,可自动调度商品库、计算器等工具,甚至通过高情商交互推动用户转化。





新评估体系定义AI“下半场”标准

随着行业竞争焦点转移,传统评测集的局限性日益凸显。

转向高经济价值的真实场景任务,摆脱合成任务的局限。在保障实用性的同时推进通用智能,设计高级推理、编码等新基准。



这一评估体系的落地,直指AI行业“定义问题比解决问题更重要,evaluation比training更重要”的核心趋势。

火山引擎技术人员透露,客服场景是其重点评测方向之一,这一场景因SOP获取难、验证复杂、准确性要求高而被低估,却能精准检验模型的现实适配能力。

当模型能高质量完成客服任务时,不仅能实现7×24小时高效响应,更能解锁“客服变销售”的增值价值,杭州银行基于豆包打造的“百业云”智能客服就已实现这一突破。

豆包1.8的发布也推动行业竞争进入“模型—平台—生态”的系统化阶段。



火山引擎同步推出AgentKit开发平台、HiAgent智能体工作站,以及最高可节省47%成本的“AI节省计划”,大幅降低企业Agent应用的开发门槛。

目前,其已在多行业落地标杆案例:近八成主流车企选择豆包升级智能座舱,浙江大学基于其打造的“浙大先生”智能体平台服务5万余名师生,教育机构利用其视频理解能力将课程审核效率提升83%。

截至12月,豆包大模型日均token使用量突破50万亿,超100家企业客户累计token使用量破万亿,印证了其生态号召力。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
佛山楼市势如破竹,佛山待售二手房数量从94927套变成了95750套

佛山楼市势如破竹,佛山待售二手房数量从94927套变成了95750套

有事问彭叔
2026-01-02 17:07:38
2500亿!深圳的超级IPO来了

2500亿!深圳的超级IPO来了

深圳梦
2026-01-03 12:08:44
祝贺!中国男足21岁新星正式加盟英超,已签订合同,亚洲杯后官宣

祝贺!中国男足21岁新星正式加盟英超,已签订合同,亚洲杯后官宣

国足风云
2026-01-02 15:49:16
党员进寺庙烧炷香=违纪?权威解释来了!

党员进寺庙烧炷香=违纪?权威解释来了!

微甘孜
2026-01-03 12:13:56
中日情况有变,日本急电特朗普,美驻华大使离京,解放军开始算账

中日情况有变,日本急电特朗普,美驻华大使离京,解放军开始算账

时时有聊
2026-01-03 17:27:25
“刺杀普京”真相揭开了?不是乌克兰,也不是欧盟,而是一旁的它

“刺杀普京”真相揭开了?不是乌克兰,也不是欧盟,而是一旁的它

地球记
2026-01-01 17:39:05
8亿建冰雪大世界只开2个月?哈尔滨亏20年?真相扎心了

8亿建冰雪大世界只开2个月?哈尔滨亏20年?真相扎心了

枫行带你去旅行
2026-01-03 11:50:31
教育部扔下重磅炸弹:2026年开始,全国一律不准购买校外商业试卷

教育部扔下重磅炸弹:2026年开始,全国一律不准购买校外商业试卷

乐天闲聊
2026-01-03 14:31:40
2013年,江青拍摄的照片以34万元的高价拍出,毛泽东曾称赞并题词

2013年,江青拍摄的照片以34万元的高价拍出,毛泽东曾称赞并题词

历史甄有趣
2025-12-31 16:30:12
4.8℃,广州现今年最低温!歌手汪苏泷:在广州被冻哭了

4.8℃,广州现今年最低温!歌手汪苏泷:在广州被冻哭了

鲁中晨报
2026-01-03 13:09:03
不顾家人反对,执意要嫁撒贝宁的富二代李白,如今才知道她有多赚

不顾家人反对,执意要嫁撒贝宁的富二代李白,如今才知道她有多赚

素衣读史
2025-12-30 15:45:13
中国人均一个的“作弊神器”!老外崩溃了...

中国人均一个的“作弊神器”!老外崩溃了...

毛豆论道
2025-12-31 19:03:49
庞书令不是疯了,是在救命。她再不出声,庞家就被徐家一口吞了

庞书令不是疯了,是在救命。她再不出声,庞家就被徐家一口吞了

魔都姐姐杂谈
2025-12-29 06:29:51
汉语的同化能力太强了!加拿大华人发明的中式单词,竟火遍海外!

汉语的同化能力太强了!加拿大华人发明的中式单词,竟火遍海外!

今日美食分享
2026-01-03 12:18:14
蒋圣龙为何无缘邵佳一国足首期名单,背后原因找到了,引发热议

蒋圣龙为何无缘邵佳一国足首期名单,背后原因找到了,引发热议

懂个球
2026-01-03 14:55:20
德媒:中国技术最大的原罪,就是害德国人太上瘾了,想戒都戒不掉

德媒:中国技术最大的原罪,就是害德国人太上瘾了,想戒都戒不掉

历史有些冷
2026-01-02 18:05:03
再打下去可能灭国,三年前乌克兰还有4000多万人,如今还有多少?

再打下去可能灭国,三年前乌克兰还有4000多万人,如今还有多少?

顾史
2026-01-02 20:11:49
最新消息:河北停止供热通知

最新消息:河北停止供热通知

新牛城
2026-01-03 09:53:27
晚了!皇马内部承认一错误:当初真该听阿隆索的,买下那个中场

晚了!皇马内部承认一错误:当初真该听阿隆索的,买下那个中场

各生欢喜者
2026-01-03 08:43:05
孙中山预言,中国若是迁都到这3座城,则有望称霸亚洲,是哪三座

孙中山预言,中国若是迁都到这3座城,则有望称霸亚洲,是哪三座

抽象派大师
2025-12-23 01:27:51
2026-01-03 18:40:49
素颜为谁倾城人
素颜为谁倾城人
素颜为谁倾城人
151文章数 46关注度
往期回顾 全部

科技要闻

比亚迪销冠!特斯拉2025年交付量跌逾8%

头条要闻

美国突袭委内瑞拉抓获马杜罗 多国强烈谴责

头条要闻

美国突袭委内瑞拉抓获马杜罗 多国强烈谴责

体育要闻

快船似乎又行了

娱乐要闻

“国服嫂子”司晓迪,曝与多位男星私照

财经要闻

具身智能抢人大战:毕业一年 年薪300万

汽车要闻

奕派科技全年销量275,752辆 同比增长28.3

态度原创

游戏
时尚
教育
手机
军事航空

《女神异闻录》30周年首个官宣到来 但没有那么重磅

今年最时髦的穿法:长外套+长裤,太高级了!

教育要闻

华东师范大学亲子教育实践指导师研修班招生简章

手机要闻

1月新机盘点:五款“灭霸级”中端机扎堆发布,谁会脱颖而出?

军事要闻

特朗普称将干涉伊朗骚乱事件 伊朗政府发声明强烈谴责

无障碍浏览 进入关怀版