网易首页 > 网易号 > 正文 申请入驻

Gemini 3「开眼」像素级操控!谷歌回应DeepSeek-OCR2

0
分享至


新智元报道

编辑:定慧

【新智元导读】谷歌Google DeepMind刚刚推出新能力,用代码赋予Gemini 3 Flash「法眼」。

没想到吧,Google DeepMind刚刚为Gemini 3 Flash推出了一个重量级新能力:Agentic Vision(智能体视觉)。(难道是被DeepSeek-OCR2给刺激到了?)

可以看到,这项技术彻底改变了大语言模型理解世界的方式:

从过去的「猜」变成了如今的「深度调查」。


该能力由Google DeepMind团队推出,核心产品经理Rohan Doshi表示,传统的AI模型在处理图片时,往往只是静态地看一眼。

如果图片里的细节太小,比如微处理芯片上的序列号或者远处模糊的路牌,模型往往只能靠「猜」。

而Agentic Vision引入了一个「思考-行动-观察」(Think-Act-Observe)的闭环:

模型不再是被动接收像素,而是会根据用户的需求,主动编写Python代码来操纵图像。


这一能力直接让Gemini 3 Flash在各类视觉基准测试中实现了5%到10%的性能跨越。


Agentic Vision:智能体视觉新前沿

DeepMind探索的方法概括起来就是:利用代码执行作为视觉推理的工具,将被动的视觉理解转化为主动的智能体过程。

什么意思呢?我们知道,目前的SOTA模型通常是一次性处理图像。

但Agentic Vision引入了一个循环:

1.思考(Think):模型分析用户查询和初始图像,制定多步计划。

2.行动(Act):模型生成并执行Python代码来主动操纵图像(如裁剪、旋转、标注)或分析图像(如运行计算、计数边界框等)。

3.观察(Observe):变换后的图像被追加到模型的上下文窗口中。这允许模型在生成最终响应之前,以更好的上下文检查新数据。


Agentic Vision实战

通过在API中启用代码执行,开发者可以解锁许多新行为。

Google AI Studio中的演示应用已经展示了这一点。

1. 缩放与检查(Zooming and inspecting)

Gemini 3 Flash被训练为在检测到细粒度细节时进行隐式缩放。

PlanCheckSolver.com是一个AI驱动的建筑计划验证平台,通过启用Gemini 3 Flash的代码执行功能来迭代检查高分辨率输入,将准确率提高了5%。

后台日志视频展示了这个智能体过程:Gemini 3 Flash生成Python代码来裁剪和分析特定的补丁(例如屋顶边缘或建筑部分)作为新图像。

通过将这些裁剪图追加回其上下文窗口,模型在视觉上确立其推理,以确认是否符合复杂的建筑规范。


2. 图像标注(Image annotation)

Agentic Vision允许模型通过标注图像与环境交互。

Gemini 3 Flash不仅仅是描述它看到的内容,还可以执行代码直接在画布上绘制以确立其推理。

在下面的例子中,模型被要求数Gemini应用中一只手上的数字。

为了避免计数错误,它使用Python在它识别的每个手指上绘制边界框和数字标签。

这种「视觉草稿纸」确保其最终答案是基于像素级的完美理解。


3. 视觉数学与绘图(Visual math and plotting)

Agentic Vision可以解析高密度表格并执行Python代码来可视化发现。

标准LLM在多步视觉算术中经常产生幻觉。

Gemini 3 Flash通过将计算放到到确定性的Python环境中来绕过这个问题。

在Google AI Studio的演示应用示例中,模型识别原始数据,编写代码将之前的SOTA归一化为1.0,并生成专业的Matplotlib条形图。这用可验证的执行取代了概率性猜测。


如何上手

Agentic Vision今天已通过Google AI Studio和Vertex AI中的Gemini API提供。

它也开始在Gemini应用中推出(通过从模型下拉菜单中选择Thinking访问)。


以下是一个简单的Python代码示例,展示了如何调用这一能力:

print(response.text)

未来展望

Google表示,Agentic Vision才刚刚开始。

目前,Gemini 3 Flash擅长隐式决定何时放大微小细节。虽然其他功能(如旋转图像或执行视觉数学)目前需要显式的提示引导来触发,但Google正在努力在未来的更新中使这些行为完全隐式化。

此外,Google还在探索如何为Gemini模型通过更多工具(包括网络和反向图像搜索)来进一步确立其对世界的理解,并计划将此功能扩展到Flash以外的其他模型尺寸。

彩蛋:难道是因为DeepSeek?

这就很有意思了。

DeepSeek前脚刚开源了堪称「OCR 2.0」的DeepSeek-OCR,谷歌后脚就发布了Gemini 3的Agentic Vision。

这真的是巧合吗?

我们不妨大胆猜测,谷歌这次的「深夜炸场」,极有可能是被DeepSeek逼出来的。

理由有三:

1.时间点的惊人巧合

1月27日,DeepSeek刚刚发布了DeepSeek-OCR2,搭载核心黑科技DeepEncoder V2。它抛弃了传统的机械扫描,让AI学会了像人类一样「按逻辑顺序阅读」,仅用几百个Token就实现了对复杂排版和图表的完美理解。

谷歌同一天立马拿出Agentic Vision,仿佛在这场「视觉军备竞赛」中隔空喊话:「你们让AI看懂逻辑,我们直接让AI上手操作」。

2.技术路线的巅峰对决

DeepSeek-OCR2走的是「内功流」,通过DeepEncoder V2模拟人类的视觉注意力机制,动态重组图像信息,把「看」这个动作做到了极致的轻量化和逻辑化。

而谷歌的Agentic Vision走的是「外设流」,也就是「不光要看清,还要能动手」。DeepSeek在教AI怎么「用心看」,谷歌在教AI怎么「用手算」。

3.争夺视觉AI定义的终局

DeepSeek-OCR2证明了即便是3B的小模型,只要「视觉逻辑」对路,也能吊打大模型。谷歌则试图用「代码执行」来降维打击:你视觉再好也是「看」,我能写代码验证才是「真懂」。

这场仗,本质上是谁能重新定义「机器视觉」——是极致的感知,还是全能的交互?

不管是不是「应激反应」,这场神仙打架,最后爽的还是我们程序员。

参考资料:

https://blog.google/innovation-and-ai/technology/developers-tools/agentic-vision-gemini-3-flash/?linkId=43682412


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑钦文已抵达赛场,即将复出!

郑钦文已抵达赛场,即将复出!

湖报体育
2026-01-28 16:13:03
50余家大企业高管随行,英国首相斯塔默即将访华

50余家大企业高管随行,英国首相斯塔默即将访华

界面新闻
2026-01-27 15:58:08
唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

唐嫣在国外很豪放!穿连体衣下面不系扣,难道不好好穿衣就时髦?

章眽八卦
2026-01-05 12:27:07
72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

72%烟草倒挂逼哭零售户!宁可不订也不赔钱,市场根基正在烂根

老特有话说
2026-01-07 00:40:03
巴西总统卢拉向安切洛蒂开玩笑:赢下世界杯,然后执教科林蒂安

巴西总统卢拉向安切洛蒂开玩笑:赢下世界杯,然后执教科林蒂安

懂球帝
2026-01-28 11:37:05
杨贵妃的乳房,毛驴的弟弟,与鲁迅手里的烟!

杨贵妃的乳房,毛驴的弟弟,与鲁迅手里的烟!

闲侃闲侃
2026-01-15 08:27:18
笑不活了!樊振东总算回国啦~

笑不活了!樊振东总算回国啦~

小光侃娱乐
2026-01-29 05:55:03
App死了八年,车贴文化反而越传越广

App死了八年,车贴文化反而越传越广

乱翻书
2026-01-27 19:42:22
火箭斗马刺!伤病情况:主队双核缺阵,3人出战成疑,马刺1人不打

火箭斗马刺!伤病情况:主队双核缺阵,3人出战成疑,马刺1人不打

熊哥爱篮球
2026-01-28 12:29:19
丧夫的翁帆面相都变了,字字不提杨振宁,却句句戳进自己的心窝里

丧夫的翁帆面相都变了,字字不提杨振宁,却句句戳进自己的心窝里

趣味萌宠的日常
2025-12-29 10:21:55
河北一餐厅女厕惊现毁三观标语,女顾客反映后老板才撤下,评论区炸锅

河北一餐厅女厕惊现毁三观标语,女顾客反映后老板才撤下,评论区炸锅

苗苗情感说
2026-01-28 17:31:48
美媒:民主党众议员在明尼阿波利斯演讲要求废除移民海关执法局时遭袭击

美媒:民主党众议员在明尼阿波利斯演讲要求废除移民海关执法局时遭袭击

环球网资讯
2026-01-28 11:48:05
别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

别想歪!这幅人体油画靠“光”就能让你呼吸放缓?答案藏在薄纱里

陈洪标写字说画
2026-01-27 22:31:02
丈夫炒股亏掉3644万,一家7口还债25年,还完发现卡里多了9455万

丈夫炒股亏掉3644万,一家7口还债25年,还完发现卡里多了9455万

程哥讲堂
2026-01-28 15:28:43
河北夫妻收留弱智流浪男,18年后男子大喊:我想起我是谁了

河北夫妻收留弱智流浪男,18年后男子大喊:我想起我是谁了

农村情感故事
2026-01-18 13:47:49
西方“对华终极战略”曝光!已经有人中招,太毒了...

西方“对华终极战略”曝光!已经有人中招,太毒了...

毛豆论道
2026-01-07 16:40:10
特朗普还是大意了,刚腾出手要干伊朗,回头发现委内瑞拉失控了?

特朗普还是大意了,刚腾出手要干伊朗,回头发现委内瑞拉失控了?

人生何尝不是酒
2026-01-29 04:27:40
当众失忆?79岁特朗普正说着话突然卡壳,忘了病名还要幕僚救场?

当众失忆?79岁特朗普正说着话突然卡壳,忘了病名还要幕僚救场?

阿伧说事
2026-01-28 15:23:56
半导体行业并购潮起,这3家被低估的设计公司或成巨头猎物!

半导体行业并购潮起,这3家被低估的设计公司或成巨头猎物!

小白鸽财经
2026-01-27 20:30:03
牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

牛鬼神蛇现原形!聂卫平去世仅一天,私生活被扒,王刚郎平被牵连

春露秋霜
2026-01-16 06:27:20
2026-01-29 06:32:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14431文章数 66546关注度
往期回顾 全部

科技要闻

它是神也是毒!Clawdbot改名卷入千万诈骗

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

头条要闻

中国代表:支持伊朗国家稳定 武力解决不了问题

体育要闻

没天赋的CBA第一小前锋,秘诀只有一个字

娱乐要闻

金子涵拉黑蔡徐坤,蔡徐坤工作室回应

财经要闻

从万科退休20天后,郁亮疑似失联

汽车要闻

新手必看!冰雪路面不敢开?记住这4点 关键时刻真能保命

态度原创

时尚
房产
游戏
亲子
军事航空

想年前用3周“刷新”好状态?做第一点就够

房产要闻

实景兑现在即!绿城,在海棠湾重新定义终极旅居想象!

《怪猎荒野》PC性能大提升!Steam掌机也终于能玩了

亲子要闻

学霸们都在用的考试技巧

军事要闻

伊朗竖起巨幅宣传画:一艘美军航母被炸

无障碍浏览 进入关怀版