网易首页 > 网易号 > 正文 申请入驻

o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种

0
分享至

o3出圈玩法“看图猜位置”,豆包也安排上了!

而且不只是猜位置那么简单,玩法“更上了一层楼”,例如我们给出下面这张图:



醒目的东方明珠,一眼便知是上海。但现在的问题是:

你知道这是几几年吗?

对我们人类来说可能会有点难以判断,不过在豆包这里,现在可以精确回答:1999年左右



这就是豆包APP最新的一个功能——升级了视觉推理,图片也能深度思考!

具体而言,现在豆包的深度思考过程不再只是文字的处理,对图片也能进行分析。

操作上也非常简单,只需开启深度思考模式,然后拍照或上传图片即可:



而且细看豆包APP分析的整个深度思考的过程,也是有点意思在身上的。

例如它先会以图搜图,大致判断一下图片位置是上海;然后再调用图片分析工具(包括放大、裁剪和旋转等等),根据图片中的具体细节内容,进一步分析确定年份的证据。

总而言之,是属于边思考边搜边巧用工具的那种。

那么接下来,一波实测,走起!

实测豆包的带图推理

AI打假AI、看图找茬都难不倒

这第一关,咱先来点好玩的——让AI识别AI

左右两边的西红柿都非常逼真,仅凭肉眼实在难以区分。



而豆包一击即中,一番思索后得出了正确答案:右侧为AI生成



展开其推理过程,才发现它是通过“放大细节”得出结论的。

尤其是右图左下角的西红柿暴露了身份,其蒂部呈现出不自然的卷曲和分叉blabla。



既然它“眼力”不错,咱们接着整个大的——请找出下图中熊猫里的足球

人类 VS AI,计时开始……



很好,肉眼找了一圈又一圈,最后还是只能求助于AI。

豆包APP给的答案是酱婶儿的:



怕你还是找不到,所以在思考过程中特意“放大”了足球所在的区域。

注意看,这里同样涉及到豆包对图片分析工具的调用,整个过程如下:

  1. 初步识别→可疑区域锁定
  2. 放大区域→局部图案对比
  3. 空间定位→精准叙述



看来一些比较考眼力的小游戏,尤为适合请豆包APP这位外援。

还是个靠谱的生活搭子

此外,作为一款日常工具,平时看到任何不懂的东西也都可以随时丢给豆包APP。

例如网上冲浪时,看到有人分享一款小众乐器,这就第一时间问问豆包:



豆包老师直接开课,采用最直接的方法——相似图片检索,确认这是少数民族鄂温克族的口弦琴



又或者遇到云南这样的“新奇物种大省”,反手也是一个求助的动作。



原来这是云贵一带的小苦瓜,学名翅果藤,可以素炒、凉拌或晒干泡茶。



对于这种可能豆包自己都少见的东西,它会结合图片检索+文字检索来双重保障信息准确。



这下好了,以后人人都有一个7x24小时响应的生活助手了。

而且它的本事可不止帮忙搞定生活琐事,用来提升工作效率一样拿得出手。

辅导作业、提高生产力也不在话下

这不,让无数父母越来越头疼的作业辅导,现在也能全权交给豆包APP了。

为了加大难度,这里我们直接上今年IMO(国际数学奥林匹克竞赛)的第一题:



看不懂不要紧,直接交给豆包——在经过明显时间更长的思考后,它通过一步步推理最终给出了正确答案。



有一说一,答案是否正确我等凡人也看不太懂,所以交给了ChatGPT这个第三方裁判,让它来对比一下豆包APP和网上公开的人类选手给出的正确答案是否一致。

ChatGPT经过分析后认为,虽然解答方法不一样,但二者的结论是一致的





与此同时,豆包APP也能用于日常工作——比如将一份财报数据一键提取成表格

话不多说,直接丢一份苹果公司财报试试:



逐一检查后,豆包有效hold住了数据准确性的考验,而且还支持横向全屏查看。



识图准确性这个“拦路虎”搞定后,豆包APP能够发挥作用的空间也就更广泛了,包括但不限于:

  • 拍摄PPT、会议纪要或白板笔记中的表格内容,快速转换为结构化数据;
  • 提取合同截图或发票上的费用明细表;
  • 提取商品报价表、库存表、销售明细表截图;



豆包的边想边搜,有够灵活

从上面种种的实测中,我们不难发现豆包的思考链所具备的一个亮点——边想边搜

传统AI的思考过程,大多采用的是“先搜后想”模式,也就是先一次性抓取海量信息,然后基于已经搜到的这些信息进行推理,范围相对有限、灵活性不足。

而豆包APP的“边想边搜”更像是一个“动态推理+多轮搜索”的过程。

在这个模式下,AI会根据推理的需要,在深度思考的过程中多次调用搜索、图片分析等不同工具来获取和验证信息,从而提供更加全面、准确的结果。

这个完整的思考链条,会根据用户问题的具体情况,灵活地接入图片理解和信息搜索。

例如,在思考推理过程中,它既可能需要通过文字信息去检索和分析图片(文搜图),也可能需要根据图片内容去反向查找相关信息(图搜文、图搜图)。

为了更直观地展示这个过程,我们尝试用它来找一部记忆模糊的童年动画片



而就是这样寥寥几句,豆包APP通过多轮关键词检索和图片分析,帮忙成功找到了《Super Why》这部童年经典。



图搜图就和开头展示的例子类似,在此不再过多赘述。

至于在思考过程中展现图搜文,下面根据某张技术截图反向查找原始论文出处的例子就淋漓尽致地展现了这种能力。



豆包APP通过3轮搜索+调用图片分析工具,一步步锁定了这是OpenAI发表的论文《Training language models to follow instructions with human feedback》。

而经过实际对比,这张图也的确是该论文中的Figure 1。



Okk,林林总总体验下来,豆包APP现在确实属于边思考边搜边巧用工具的“六边形战士”了。

一句话,以后遇到啥问题都能随手一拍或截图丢给它。



事实上,不止豆包APP,如今几乎整个行业都在朝视觉推理这个方向狂飙突进。

今年以来,以OpenAI为代表推出的o3、o4-mini等推理模型,几乎凭一己之力将图像纳入推理链,开启了多模态深度理解的新范式。

随后,视觉推理能力迅速成为衡量大模型综合实力的新技术门槛,在国内外掀起了新一轮竞速热潮。

细究起来,这背后其实有两大核心驱动力:一曰技术,二曰需求

一方面,多模态技术的持续发展,为视觉推理提供了强有力的技术支撑。

由于主流大模型均采用Transformer架构,它具备天然的多模态融合能力,能够对文字、图像、音频等不同模态的信息进行统一编码和高效处理。

因此,带图推理在技术上实际并非遥不可及。

而且发展多模态目前已成为AI圈的共识之一,显而易见,作为多模态智能重要组成部分的视觉推理,也大概率将随之水涨船高,成为竞逐热点之一。

更不必提,视觉推理也确实存在真真切切的行业及用户需求

从行业角度来看,视觉推理是落地多种应用场景的关键能力。

比如在工业制造领域,视觉推理可用于无序分拣、晶圆缺陷检测、电池极片3D轮廓测量等复杂场景;在医疗领域,视觉推理能够助力手术导航、病理图像分析等应用……如此种种不胜枚举。

而对普通用户来说,鉴于现实中图文混合的信息越来越多,人们越来越需要的不只是“识图”,而是真正理解图中的逻辑与内容。

就像我们在实测环节看到的那样,在图像问答、文档解析等多个场景中,具备视觉推理能力的模型已经可以像人类一样识别细节、分析关系、做出判断,极大提升了信息获取和处理的效率。

综上所述,可以说技术的成熟与需求的涌现,在此时此刻实现了高度契合,从而带动了视觉推理能力迅速升温,成为新阶段的核心看点之一。

当然,大道理归大道理。对我们普通用户来说,最直接的变化是:o3、o4-mini等需要氪金才能用的功能,如今已经能在豆包APP里低门槛、免费用上

豆包这波,也算是真正把“带图推理”打下来了~

p.s. 豆包APP现已全量上线带图推理功能,不过需要更新至最新的9.5.0版本才能体验哦。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2-0!世界杯头号夺冠热门诞生:世预赛8连胜0丢球!改写71年历史

2-0!世界杯头号夺冠热门诞生:世预赛8连胜0丢球!改写71年历史

篮球看比赛
2025-11-17 11:40:56
日本航空自卫队参谋长称,中国不让中国人去日本,正中日本下怀

日本航空自卫队参谋长称,中国不让中国人去日本,正中日本下怀

我心纵横天地间
2025-11-17 12:59:24
俞敏洪在南极旅游发全员信引争议,有新东方员工称“无法共情”

俞敏洪在南极旅游发全员信引争议,有新东方员工称“无法共情”

界面新闻
2025-11-17 18:07:37
仅因“没证据证明死者带凶器”,申大爷竟被判防卫过当,全网怒了

仅因“没证据证明死者带凶器”,申大爷竟被判防卫过当,全网怒了

热点菌本君
2025-11-17 15:49:25
日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

日本议员:受降的是中华民国,新中国没资格说话!网友:那更好了

青青子衿
2025-11-15 15:51:35
单项第4金+总第5金!全运会男子1500米自由泳:张展硕再夺一冠

单项第4金+总第5金!全运会男子1500米自由泳:张展硕再夺一冠

全景体育V
2025-11-17 19:46:08
著名药物化学家李敏勇突发疾病逝世,年仅49岁

著名药物化学家李敏勇突发疾病逝世,年仅49岁

澎湃新闻
2025-11-17 22:10:27
员工在同事群,八卦领导“彩旗飘飘”被开除!员工委屈诉至法院

员工在同事群,八卦领导“彩旗飘飘”被开除!员工委屈诉至法院

极目新闻
2025-11-17 12:27:20
卓伟曝喻恩泰婚变,不给买房、转移茅台和财产,去年被拍约会美女

卓伟曝喻恩泰婚变,不给买房、转移茅台和财产,去年被拍约会美女

社会酱
2025-11-17 17:13:17
中央纪委国家监委网站:3人被查,3人被处分

中央纪委国家监委网站:3人被查,3人被处分

鲁中晨报
2025-11-17 23:10:03
防止规模性返乡滞乡,可以赋黄码红码治理

防止规模性返乡滞乡,可以赋黄码红码治理

上峰视点
2025-11-17 18:35:31
澳媒:恐华情绪正危及澳大利亚国家安全

澳媒:恐华情绪正危及澳大利亚国家安全

环球网资讯
2025-11-17 07:09:28
前TVB过气一姐北上夜场开工,唱到露膊近距离可摸手仔

前TVB过气一姐北上夜场开工,唱到露膊近距离可摸手仔

粤睇先生
2025-11-18 00:53:15
“雷军不懂结构,发的微博不算数……”遭SU7车主起诉,小米法务交出84页新证据

“雷军不懂结构,发的微博不算数……”遭SU7车主起诉,小米法务交出84页新证据

都市快报橙柿互动
2025-11-17 20:52:24
谁在抛弃小米汽车?19%退订率后,市值蒸发超2800亿

谁在抛弃小米汽车?19%退订率后,市值蒸发超2800亿

麦大人
2025-11-17 15:20:07
杀疯了!51分+44分!中国未来第一攻击后卫

杀疯了!51分+44分!中国未来第一攻击后卫

篮球实战宝典
2025-11-17 22:59:38
高校明星教授的惊天大瓜

高校明星教授的惊天大瓜

穿透
2025-11-17 23:07:50
16人被查,17人被处分

16人被查,17人被处分

极目新闻
2025-11-17 20:34:28
3-2,85分钟绝杀,波兰将踢世预赛附加赛,莱万惊艳头球+妙传

3-2,85分钟绝杀,波兰将踢世预赛附加赛,莱万惊艳头球+妙传

侧身凌空斩
2025-11-18 06:08:33
又走了一家外企

又走了一家外企

曹多鱼的财经世界
2025-11-17 15:03:31
2025-11-18 08:08:49
量子位 incentive-icons
量子位
追踪人工智能动态
11691文章数 176331关注度
往期回顾 全部

科技要闻

京东外卖要“独立” 刘强东还宣战“点评”

头条要闻

女子手机落在新疆乱石堆 3年后被人跨越5000公里送还

头条要闻

女子手机落在新疆乱石堆 3年后被人跨越5000公里送还

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

金鸡奖是“照妖镜”,揭露人情冷暖?

财经要闻

高市早苗的算计,将让日本割肉5000亿

汽车要闻

新增CDC后变化大吗? 试驾特斯拉model Y L

态度原创

手机
艺术
家居
房产
军事航空

手机要闻

首发麒麟9030!华为Mate 80/Pro/Pro Max/RS开启预订:全配色、存储方案公布

艺术要闻

Colin Fraser:蛋彩画的苏格兰大师

家居要闻

回廊通道 强化空间秩序

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

军事要闻

韩国提议举行朝韩军事会谈

无障碍浏览 进入关怀版