网易首页 > 网易号 > 正文 申请入驻

o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种

0
分享至

o3出圈玩法“看图猜位置”,豆包也安排上了!

而且不只是猜位置那么简单,玩法“更上了一层楼”,例如我们给出下面这张图:



醒目的东方明珠,一眼便知是上海。但现在的问题是:

你知道这是几几年吗?

对我们人类来说可能会有点难以判断,不过在豆包这里,现在可以精确回答:1999年左右



这就是豆包APP最新的一个功能——升级了视觉推理,图片也能深度思考!

具体而言,现在豆包的深度思考过程不再只是文字的处理,对图片也能进行分析。

操作上也非常简单,只需开启深度思考模式,然后拍照或上传图片即可:



而且细看豆包APP分析的整个深度思考的过程,也是有点意思在身上的。

例如它先会以图搜图,大致判断一下图片位置是上海;然后再调用图片分析工具(包括放大、裁剪和旋转等等),根据图片中的具体细节内容,进一步分析确定年份的证据。

总而言之,是属于边思考边搜边巧用工具的那种。

那么接下来,一波实测,走起!

实测豆包的带图推理

AI打假AI、看图找茬都难不倒

这第一关,咱先来点好玩的——让AI识别AI

左右两边的西红柿都非常逼真,仅凭肉眼实在难以区分。



而豆包一击即中,一番思索后得出了正确答案:右侧为AI生成



展开其推理过程,才发现它是通过“放大细节”得出结论的。

尤其是右图左下角的西红柿暴露了身份,其蒂部呈现出不自然的卷曲和分叉blabla。



既然它“眼力”不错,咱们接着整个大的——请找出下图中熊猫里的足球

人类 VS AI,计时开始……



很好,肉眼找了一圈又一圈,最后还是只能求助于AI。

豆包APP给的答案是酱婶儿的:



怕你还是找不到,所以在思考过程中特意“放大”了足球所在的区域。

注意看,这里同样涉及到豆包对图片分析工具的调用,整个过程如下:

  1. 初步识别→可疑区域锁定
  2. 放大区域→局部图案对比
  3. 空间定位→精准叙述



看来一些比较考眼力的小游戏,尤为适合请豆包APP这位外援。

还是个靠谱的生活搭子

此外,作为一款日常工具,平时看到任何不懂的东西也都可以随时丢给豆包APP。

例如网上冲浪时,看到有人分享一款小众乐器,这就第一时间问问豆包:



豆包老师直接开课,采用最直接的方法——相似图片检索,确认这是少数民族鄂温克族的口弦琴



又或者遇到云南这样的“新奇物种大省”,反手也是一个求助的动作。



原来这是云贵一带的小苦瓜,学名翅果藤,可以素炒、凉拌或晒干泡茶。



对于这种可能豆包自己都少见的东西,它会结合图片检索+文字检索来双重保障信息准确。



这下好了,以后人人都有一个7x24小时响应的生活助手了。

而且它的本事可不止帮忙搞定生活琐事,用来提升工作效率一样拿得出手。

辅导作业、提高生产力也不在话下

这不,让无数父母越来越头疼的作业辅导,现在也能全权交给豆包APP了。

为了加大难度,这里我们直接上今年IMO(国际数学奥林匹克竞赛)的第一题:



看不懂不要紧,直接交给豆包——在经过明显时间更长的思考后,它通过一步步推理最终给出了正确答案。



有一说一,答案是否正确我等凡人也看不太懂,所以交给了ChatGPT这个第三方裁判,让它来对比一下豆包APP和网上公开的人类选手给出的正确答案是否一致。

ChatGPT经过分析后认为,虽然解答方法不一样,但二者的结论是一致的





与此同时,豆包APP也能用于日常工作——比如将一份财报数据一键提取成表格

话不多说,直接丢一份苹果公司财报试试:



逐一检查后,豆包有效hold住了数据准确性的考验,而且还支持横向全屏查看。



识图准确性这个“拦路虎”搞定后,豆包APP能够发挥作用的空间也就更广泛了,包括但不限于:

  • 拍摄PPT、会议纪要或白板笔记中的表格内容,快速转换为结构化数据;
  • 提取合同截图或发票上的费用明细表;
  • 提取商品报价表、库存表、销售明细表截图;



豆包的边想边搜,有够灵活

从上面种种的实测中,我们不难发现豆包的思考链所具备的一个亮点——边想边搜

传统AI的思考过程,大多采用的是“先搜后想”模式,也就是先一次性抓取海量信息,然后基于已经搜到的这些信息进行推理,范围相对有限、灵活性不足。

而豆包APP的“边想边搜”更像是一个“动态推理+多轮搜索”的过程。

在这个模式下,AI会根据推理的需要,在深度思考的过程中多次调用搜索、图片分析等不同工具来获取和验证信息,从而提供更加全面、准确的结果。

这个完整的思考链条,会根据用户问题的具体情况,灵活地接入图片理解和信息搜索。

例如,在思考推理过程中,它既可能需要通过文字信息去检索和分析图片(文搜图),也可能需要根据图片内容去反向查找相关信息(图搜文、图搜图)。

为了更直观地展示这个过程,我们尝试用它来找一部记忆模糊的童年动画片



而就是这样寥寥几句,豆包APP通过多轮关键词检索和图片分析,帮忙成功找到了《Super Why》这部童年经典。



图搜图就和开头展示的例子类似,在此不再过多赘述。

至于在思考过程中展现图搜文,下面根据某张技术截图反向查找原始论文出处的例子就淋漓尽致地展现了这种能力。



豆包APP通过3轮搜索+调用图片分析工具,一步步锁定了这是OpenAI发表的论文《Training language models to follow instructions with human feedback》。

而经过实际对比,这张图也的确是该论文中的Figure 1。



Okk,林林总总体验下来,豆包APP现在确实属于边思考边搜边巧用工具的“六边形战士”了。

一句话,以后遇到啥问题都能随手一拍或截图丢给它。



事实上,不止豆包APP,如今几乎整个行业都在朝视觉推理这个方向狂飙突进。

今年以来,以OpenAI为代表推出的o3、o4-mini等推理模型,几乎凭一己之力将图像纳入推理链,开启了多模态深度理解的新范式。

随后,视觉推理能力迅速成为衡量大模型综合实力的新技术门槛,在国内外掀起了新一轮竞速热潮。

细究起来,这背后其实有两大核心驱动力:一曰技术,二曰需求

一方面,多模态技术的持续发展,为视觉推理提供了强有力的技术支撑。

由于主流大模型均采用Transformer架构,它具备天然的多模态融合能力,能够对文字、图像、音频等不同模态的信息进行统一编码和高效处理。

因此,带图推理在技术上实际并非遥不可及。

而且发展多模态目前已成为AI圈的共识之一,显而易见,作为多模态智能重要组成部分的视觉推理,也大概率将随之水涨船高,成为竞逐热点之一。

更不必提,视觉推理也确实存在真真切切的行业及用户需求

从行业角度来看,视觉推理是落地多种应用场景的关键能力。

比如在工业制造领域,视觉推理可用于无序分拣、晶圆缺陷检测、电池极片3D轮廓测量等复杂场景;在医疗领域,视觉推理能够助力手术导航、病理图像分析等应用……如此种种不胜枚举。

而对普通用户来说,鉴于现实中图文混合的信息越来越多,人们越来越需要的不只是“识图”,而是真正理解图中的逻辑与内容。

就像我们在实测环节看到的那样,在图像问答、文档解析等多个场景中,具备视觉推理能力的模型已经可以像人类一样识别细节、分析关系、做出判断,极大提升了信息获取和处理的效率。

综上所述,可以说技术的成熟与需求的涌现,在此时此刻实现了高度契合,从而带动了视觉推理能力迅速升温,成为新阶段的核心看点之一。

当然,大道理归大道理。对我们普通用户来说,最直接的变化是:o3、o4-mini等需要氪金才能用的功能,如今已经能在豆包APP里低门槛、免费用上

豆包这波,也算是真正把“带图推理”打下来了~

p.s. 豆包APP现已全量上线带图推理功能,不过需要更新至最新的9.5.0版本才能体验哦。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中方下达最后通牒,日本民众围堵首相官邸,高市早苗认输不远了?

中方下达最后通牒,日本民众围堵首相官邸,高市早苗认输不远了?

时时有聊
2025-11-16 16:23:45
毛新宇少将完爆蒋友柏!

毛新宇少将完爆蒋友柏!

沈述慢撩
2025-11-16 21:35:33
山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

山西摔狗反杀案,律师一句话问懵法官:天黑后你敢去案发现场吗?

慢半拍sir
2025-11-15 15:15:14
樊振东男单夺冠燃爆全网!干掉世界第一第二,却不能替国家队出战

樊振东男单夺冠燃爆全网!干掉世界第一第二,却不能替国家队出战

阿纂看事
2025-11-16 16:50:00
文昌阁火灾原因找到了,游客或面临天价赔偿,管理方也难逃追责

文昌阁火灾原因找到了,游客或面临天价赔偿,管理方也难逃追责

可爱的罗
2025-11-15 06:09:33
鲁尼:和特朗普打高尔夫时周围全是狙击手,还有防核逃生装置

鲁尼:和特朗普打高尔夫时周围全是狙击手,还有防核逃生装置

懂球帝
2025-11-16 17:30:09
曝知名港星赌博输光家产,欠下百亿巨债驾车逃跑!豪车豪宅被查封

曝知名港星赌博输光家产,欠下百亿巨债驾车逃跑!豪车豪宅被查封

娱乐团长
2025-11-16 20:32:28
大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,卖不动了

大跳水!暴跌40%,又土又贵还开遍机场,中产的标配,卖不动了

毒sir财经
2025-11-16 23:08:08
重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

重大风险警告!日本全境或变战场,中方14艘巨舰下水,反制将开始

云鹏叙事
2025-11-16 15:18:51
中国地铁,开始“断供”了!多地地铁申报被拒,债务风险亮红灯

中国地铁,开始“断供”了!多地地铁申报被拒,债务风险亮红灯

青梅侃史啊
2025-11-15 19:43:15
社评:中国公民需谨慎前往日本的四个原因

社评:中国公民需谨慎前往日本的四个原因

环球网资讯
2025-11-17 00:03:43
大基建高潮已退,农民工无工作,农业部:防止形成规模性返乡滞乡

大基建高潮已退,农民工无工作,农业部:防止形成规模性返乡滞乡

我心纵横天地间
2025-11-16 20:06:14
八路军和新四军那么厉害,为何不去打淞沪会战?

八路军和新四军那么厉害,为何不去打淞沪会战?

《中国国家历史》
2025-11-14 22:31:25
前室友之战!全运会乒乓女单:陈梦4-1完胜朱雨玲摘得铜牌

前室友之战!全运会乒乓女单:陈梦4-1完胜朱雨玲摘得铜牌

乒谈
2025-11-16 21:37:34
樊振东战胜林诗栋卫冕冠军,赛后没想到小石头这样做,不开心

樊振东战胜林诗栋卫冕冠军,赛后没想到小石头这样做,不开心

小染说台球
2025-11-16 15:36:47
排队2小时没进门!网友惊呆:有“一亿人”,挤爆了

排队2小时没进门!网友惊呆:有“一亿人”,挤爆了

河南交通广播1041
2025-11-16 17:19:21
中国发布旅行警告后,浦东机场赴日航班仍排起长龙

中国发布旅行警告后,浦东机场赴日航班仍排起长龙

随波荡漾的漂流瓶
2025-11-15 14:42:42
重磅:曝朝鲜对俄罗斯的炮弹供应量减少一半!凸显两大问题

重磅:曝朝鲜对俄罗斯的炮弹供应量减少一半!凸显两大问题

项鹏飞
2025-11-16 21:41:37
他们放假了,连着共5天!迪士尼、九寨沟门票售罄,旅游从业者:流量大到出乎预料

他们放假了,连着共5天!迪士尼、九寨沟门票售罄,旅游从业者:流量大到出乎预料

每日经济新闻
2025-11-16 20:35:12
中国队爆冷夺冠,王钰栋成焦点,32年纪录创辉煌

中国队爆冷夺冠,王钰栋成焦点,32年纪录创辉煌

无意争春
2025-11-16 15:54:31
2025-11-17 02:35:00
量子位 incentive-icons
量子位
追踪人工智能动态
11687文章数 176331关注度
往期回顾 全部

科技要闻

雷军,怒了!刚刚连发多条微博

头条要闻

中国公民需谨慎前往日本 四大原因披露

头条要闻

中国公民需谨慎前往日本 四大原因披露

体育要闻

最佳新秀候选!2028美国男篮有他一个位置

娱乐要闻

CEO爆料肖战《藏海传》狂赚几十亿!

财经要闻

房源暗中调价 央企举报广州国资房企

汽车要闻

"冰彩沙"全配齐 红旗HS6 PHEV预售17.88万起

态度原创

家居
教育
艺术
本地
房产

家居要闻

现代简逸 寻找生活的光

教育要闻

妈妈晒高二儿子吃宵夜,女网友眼睛看直了:这颜值,小姑娘遭殃了

艺术要闻

这些获奖摄影作品,简直让人目不暇接!

本地新闻

沈阳都市圈“冷资源”点燃“热联动” “组团”北上“圈粉”哈尔滨

房产要闻

首开狂卖6.68亿!海口这个顶级教育红盘,引爆海口楼市!

无障碍浏览 进入关怀版