网易首页 > 网易号 > 正文 申请入驻

豆包视觉理解模型惊艳亮相:首次评测就排名全球第二

0
分享至

12 月 18 日-19 日,火山引擎 FORCE 原动力大会・冬正式在上海举行。本次大会最引人关注的看点,无疑就是豆包大模型家族的全线升级,以及全新豆包视觉理解模型的发布。

豆包视觉理解模型拥有业界领先的内容识别能力、理解和推理能力以及更细腻的视觉描述能力。它相当于是给大模型加入了一双眼睛,从而可以像人类一样认识现实世界、理解现实世界。这无疑拓展了人类与大模型交互的形式和应用场景。

就在火山引擎 Force 大会后,智源研究院发布最新一期大模型评测结果,在视觉语言模型评测中,豆包视觉理解模型排名全球第二,成绩仅次于 GPT-4o。特别是在中文的通用知识、文字识别中,豆包表现突出,相比国外模型有较大优势。

正如生物进化出眼睛,是物种爆发过程中的一个关键因素,为 AI 加上双眼的视觉理解大模型,也将为人工智能生态的丰富性和多样化发展奠定基础。

豆包视觉理解大模型,这些能力行业领先

分析了视觉理解对于大模型的重要性,我们再看这次火山引擎发布的豆包视觉理解模型,其在各方面的领先性,则又是为视觉理解模型的发展探索到了新的天花板。

比如,首先豆包视觉理解大模型拥有更强的内容识别能力,不仅可以识别图像中的物体、形状、类别,要素,还能理解物体之间的关系、空间布局、和场景的整体含义。

比如在发布会的演示中,豆包视觉理解模型可以根据影子的形状识别出这是什么动物的影子,还能根据画面中光线穿过薄雾的美丽景象判断出这是丁达尔效应,并且解释背后的原理。此外我们生活中不太了解的物品,也可以通过豆包视觉理解模型进行拍照识别,从而知道这是什么。

同时豆包视觉理解模型还拥有行业领先的 OCR 能力,可以实现图片文本信息的精确提取与理解,包括纯文本图像的文字抽取、日常图像的文字抽取以及表格图像的内容抽取等。

不仅如此,它还可以更好地基于指令进行视觉内容识别,并对中国传统文化信息有更强的理解。

对视觉内容的识别只是第一步,接下来,豆包视觉理解模型还具有更强的理解和推理能力。它可以轻松应对更复杂的图片推理任务,模型在表格图像、数学问题、代码图像等复杂推理场景下展示了更强大的性能,同时进行参考问答、总结摘要、以及进行数学、逻辑、代码等推理。

例如它支持多类型图表内容提取,快速精准地提取图表内容;同时能够准确理解 prompt,“随心百变”的格式化输出。实现轻松获取关键信息,提高图表分析效率。

再比如下面这个案例,豆包视觉理解模型可以识别一张食物图片和一张微波炉使用指南的表格,就能准确判断图片中的事务在微波炉中加热多长时间就可以食用。

不仅如此,豆包视觉理解模型还拥有更细腻的视觉描述能力。它可以可以基于图像信息,更细腻地描述图像呈现的内容,并可根据图像内容和状态进行产品介绍、宣传文章、视频脚本、故事诗歌等多种文体的创作。

例如有公司生产了一款文创产品,打算送给客户,就可以直接使用豆包视觉理解模型基于文创产品的图像来创作暖心的祝福语。

或者它还可以根据你的指令,对画面的细节进行描述,例如在一张女生夜晚放孔明灯的图像中,可以圈选画面中的孔明灯,询问豆包视觉理解模型“画圈的地方放的是什么灯?古代啥时候会放呢?”豆包就会给出确切的回答和科普。

再比如,它可以对多张美食图片进行多维度信息的提取,然后快速精准地剖析菜品特色,并细致入微洞察餐厅的环境格调、服务质量等要素,然后帮用户写一篇关于美食和餐厅的点评内容。

又或者它还可以帮我们写朋友圈文案,根据多张图片联合进行灵感提取,捕捉用户心中想要表达的核心情感和关键元素,理解用户对于朋友圈文案的风格、语气、字数等各种要求,然后写出各种风格的朋友圈文案。

豆包大模型家族全面升级,深入赋能千行百业发展

可以看到,目前豆包视觉理解模型所呈现出的技术成熟度、创新性以及实际使用的体验都达到了让人惊艳的水平,而之所以能够实现这样的行业领先,背后其实还是得益于字节跳动在基础模型方面全方位、大力度的坚决投入。

我们知道,字节跳动自研的豆包大模型是今年 5 月在火山引擎春季 Force 原动力大会上正式发布,而在此之前,它已经经过一年时间的迭代和市场验证,并通过火山引擎对外提供服务。此后豆包大模型快读迭代,目前已经构成了行业里能力最全面的大模型家族,包括通用模型 pro、通用模型 lite、语音识别模型、语音合成模型、文生图模型等,再加上这次的视觉理解模型,每一款模型都有其擅长的业务类型和应用场景,为用户提供了丰富的选择。

而在本次火山引擎冬季 FORCE 原动力大会上,豆包大模型家族也迎来了全面升级。豆包通用模型 pro 已全面对齐 GPT-4o,使用价格仅为后者的 1/8;音乐模型从生成 60 秒的简单结构,升级到生成 3 分钟的完整作品;文生图模型 2.1 版本,更是在业界首次实现精准生成汉字和一句话 P 图的产品化能力,该模型已接入即梦 AI 和豆包 App。

不仅如此,本次大会上,豆包 3D 生成模型也首次亮相。该模型与火山引擎数字孪生平台 veOmniverse 结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。

字节跳动在大会上还宣布,2025 年春季将推出具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也将很快上线,从而解锁多角色演绎、方言转换等新能力。

豆包大模型虽然发布较晚,但一直在快速迭代进化,目前已成为国内最全面、技术最领先的大模型之一。

火山引擎总裁谭待在会上如此说。

对于大模型产品来说,除了需要企业端大规模、高强度的技术和资源投入,在市场端也需要与之匹配的使用量。

就像谭待曾经所说的,“只有大的使用量,才能打磨出好模型。”毕竟只有大的使用量,才能真正打通商业上的闭环,同时也能为大模型的迭代升级提供源源不断的数据支撑。

而根据本次冬季 Force 原动力大会上公布的数据,截至 12 月中旬,豆包通用模型的日均 tokens 使用量已超过 4 万亿,较七个月前首次发布时增长了 33 倍。

这意味着豆包大模型的能力正在被 C 端市场充分验证,大模型应用正在向各行各业加速渗透。

而在大模型应用场景生态的建设上,豆包大模型也走在了行业前面。和众多行业客户共创,让豆包大模型赋能众多领域,包括智能终端、汽车、金融、消费和互联网等领域。

根据最新的消息,豆包大模型已经与八成主流汽车品牌合作,并接入到多家手机、PC 等智能终端,覆盖终端设备约 3 亿台,来自智能终端的豆包大模型调用量在半年时间内增长 100 倍。

与企业生产力相关的场景,豆包大模型也获得了众多企业客户青睐:最近 3 个月,豆包大模型在信息处理场景的调用量增长了 39 倍,客服与销售场景增长 16 倍,硬件终端场景增长 13 倍,AI 工具场景增长 9 倍,学习教育等场景也有大幅增长。

具体来看,小米的小爱语音助手于豆包大模型合作,提升了语音能力、知识储备和性能效率,华硕 a 豆系列笔记本则与豆包大模型合作,带来了为豆叮 AI 助手应用,招商银行基于扣子和豆包大模型搭建了可以推荐餐饮优惠门店的“掌上生活”bot,以及能汇总市场行情的“财富看点”bot……

相信随着豆包视觉理解模型的推出,未来豆包大模型将会开拓更加广泛的应用领域。

最后值得一提的是,本次大会上,火山引擎还升级了火山方舟、扣子和 HiAgent 三款平台产品,帮助企业构建好自身的 AI 能力中心,高效开发 AI 应用。

其中,火山方舟发布了大模型记忆方案,并推出 prefix cache 和 session cache API,降低延迟和成本。火山方舟还带来全域 AI 搜索,具备场景化搜索推荐一体化、企业私域信息整合等服务。

结语

据麦肯锡报告分析,大模型的价值创造潜力惊人,到 2030 年,有望在全球推动 49 万亿人民币的经济增量。而目前,从技术创新到商业落地,大模型已经在为我们的日常工作生活和各行业的 AI 转型提供了动能。

就像谭待所说的:

今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过 AI 云原生和豆包大模型家族,火山引擎希望帮助企业做好 AI 创新,驶向更美好的未来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
杨瀚森前队友生涯之夜!轰33+三双创8新高:21岁拿双向合同搏命

杨瀚森前队友生涯之夜!轰33+三双创8新高:21岁拿双向合同搏命

颜小白的篮球梦
2026-04-06 07:42:37
高210米,砸13亿!厦门“矿泉水瓶大楼”即将建成!

高210米,砸13亿!厦门“矿泉水瓶大楼”即将建成!

GA环球建筑
2026-04-05 23:51:33
日本摩圈集体破防!张雪夺冠后日媒评价撕开“中国制造”百年偏见

日本摩圈集体破防!张雪夺冠后日媒评价撕开“中国制造”百年偏见

行者聊官
2026-04-04 16:05:43
黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

黄晓明就“带9岁娃骑行”发文道歉:为自己的疏忽郑重道歉,已去交警部门接受处罚;相关骑行照片已删除

极目新闻
2026-04-05 18:19:57
拯救大兵——到伊朗腹地建个基地

拯救大兵——到伊朗腹地建个基地

熊飞白
2026-04-05 21:30:55
“麻豆传媒·关停”:黄色产业,居然也有寒冬!?

“麻豆传媒·关停”:黄色产业,居然也有寒冬!?

辰星杂谈
2026-04-04 13:38:22
真撤了!大批日企悄悄离开中国,中日制造格局,正在彻底改写

真撤了!大批日企悄悄离开中国,中日制造格局,正在彻底改写

别人都叫我阿腈
2026-04-05 17:06:55
别让腰痛毁掉你的下半生!每天10分钟,腰板直得像20岁

别让腰痛毁掉你的下半生!每天10分钟,腰板直得像20岁

徐孟医生说疼痛
2026-04-03 07:00:15
身材炸裂!NBA 场边的 “人间尤物”,个个颜值能打还不是花瓶

身材炸裂!NBA 场边的 “人间尤物”,个个颜值能打还不是花瓶

橙星文娱
2026-04-05 10:34:51
3签1裁达成!湖人双核赛季报销,1800万紧急补阵备战季后赛

3签1裁达成!湖人双核赛季报销,1800万紧急补阵备战季后赛

林子说事
2026-04-06 02:29:50
38万投北方稀土12年,北京地铁司机,守得 “工业黄金” 狂赚70万

38万投北方稀土12年,北京地铁司机,守得 “工业黄金” 狂赚70万

真实人物采访
2026-04-05 06:10:03
阿斯:皇马内部对输马略卡极度失望,同时不再信任西班牙裁判

阿斯:皇马内部对输马略卡极度失望,同时不再信任西班牙裁判

懂球帝
2026-04-06 06:22:05
这种动物理论上永远不会死,因为它可以在“老年”和“青年”间来回切换

这种动物理论上永远不会死,因为它可以在“老年”和“青年”间来回切换

万物杂志
2026-04-05 06:40:52
为何好多小国都莫名其妙反华?马斯克一语道破本质

为何好多小国都莫名其妙反华?马斯克一语道破本质

秋巷雨潇潇
2026-04-05 18:53:20
文章和女儿假期聚餐,17岁文君竹化淡妆好甜美,越长越像马伊琍

文章和女儿假期聚餐,17岁文君竹化淡妆好甜美,越长越像马伊琍

日落于西
2026-04-05 07:15:18
太可怕了!郭麒麟被聚会朋友偷拍发上网,网友:谁还敢交朋友?

太可怕了!郭麒麟被聚会朋友偷拍发上网,网友:谁还敢交朋友?

子芫伴你成长
2026-04-05 22:43:24
李亚鹏直播笑着回应助手否认收标哥豪车或捐款:这种鬼话你也信?

李亚鹏直播笑着回应助手否认收标哥豪车或捐款:这种鬼话你也信?

南方健哥
2026-04-05 10:43:49
史上最愚蠢营救行动,造成大量人员伤亡,事后拒不道歉……

史上最愚蠢营救行动,造成大量人员伤亡,事后拒不道歉……

极品小牛肉
2024-08-24 19:35:51
日本网民:日本声优林鼓子被中国宅男施压,丢掉了工作机会

日本网民:日本声优林鼓子被中国宅男施压,丢掉了工作机会

阿废冷眼观察所
2026-04-05 04:30:59
津门虎4轮不胜!-9分垫底,6战申花不胜,延续3大魔咒

津门虎4轮不胜!-9分垫底,6战申花不胜,延续3大魔咒

奥拜尔
2026-04-05 21:39:10
2026-04-06 07:56:49
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
337636文章数 607113关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

伊朗媒体:多名美士兵在营救行动中身亡 美军试图摧毁遗体

头条要闻

伊朗媒体:多名美士兵在营救行动中身亡 美军试图摧毁遗体

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

王灿兮否认婆媳不和 晒与杜淳妈合影

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

旅游
亲子
本地
数码
公开课

旅游要闻

大理花事 | 春日来大理赏茶花

亲子要闻

小英自曝给女儿剪短发原因!怕头发抢营养长不高,想剃光头太真实

本地新闻

跟着歌声游安徽,听古村回响

数码要闻

大胆复古美学,海盗船推出原子紫配色K65 PLUS WIRELESS机械键盘

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版