品玩1月29日讯,谷歌近日在Gemini 3 Flash模型中正式上线“Agentic Vision”(智能体视觉)功能,将传统静态图像识别升级为主动调查式视觉理解。该技术通过“思考—行动—观察”闭环,结合视觉推理与Python代码执行,使模型能自主裁剪、旋转或标注图像,从而基于像素级证据生成答案。
在多项视觉基准测试中,启用代码执行后,Gemini 3 Flash的准确率稳定提升5%至10%。典型应用包括建筑图纸细节校验、图像标注计数及可视化数学计算等,有效缓解大模型在复杂视觉任务中的“幻觉”问题。
目前,Agentic Vision已通过Google AI Studio和Vertex AI开放API调用,并逐步集成至Gemini移动端“Thinking”模式,未来将扩展至更多模型尺寸及工具能力。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.