网易首页 > 网易号 > 正文 申请入驻

从幻觉到硬件:真实计算机视觉项目的经验教训

0
分享至

计算机视觉项目很少按计划进行,这个项目也不例外。最初的想法很简单:构建一个能够查看笔记本电脑照片并识别任何物理损坏的模型——比如屏幕破裂、按键缺失或铰链损坏。这看起来是图像模型和大语言模型(LLM)的直接应用场景,但很快就变得复杂起来。

在这个过程中,我们遇到了幻觉、输出不可靠以及图像甚至不是笔记本电脑等问题。为了解决这些问题,我们最终以一种非典型的方式应用了代理框架——不是用于任务自动化,而是为了提高模型性能。

在这篇文章中,我们将分享我们尝试的方法、失败的经验,以及多种方法的组合如何最终帮助我们构建了可靠的系统。

起点:单体式提示

我们最初的方法对于多模态模型来说相当标准。我们使用单一的大型提示将图像传递给具有图像处理能力的LLM,并要求它识别可见的损坏。这种单体式提示策略实现简单,对于清晰、定义明确的任务效果不错。但现实世界的数据很少配合。

我们早期遇到了三个主要问题:

幻觉:模型有时会虚构不存在的损坏或错误标记看到的内容。

垃圾图像检测:它没有可靠的方法来标记那些甚至不是笔记本电脑的图像,比如桌子、墙壁或人的照片偶尔会通过检测并收到荒谬的损坏报告。

准确性不一致:这些问题的组合使得模型在操作使用中过于不可靠。

此时我们意识到需要进行迭代改进。

第一次修复:混合图像分辨率

我们注意到图像质量对模型输出的影响很大。用户上传的图像质量参差不齐,从清晰高分辨率到模糊不清都有。这促使我们参考强调图像分辨率如何影响深度学习模型的研究。

我们使用高分辨率和低分辨率图像的混合来训练和测试模型。这个想法是让模型对实际应用中遇到的各种图像质量更有适应性。这有助于提高一致性,但幻觉和垃圾图像处理的核心问题仍然存在。

多模态尝试:纯文本LLM转向多模态

受到最近将图像描述与纯文本LLM结合实验的鼓舞——比如The Batch中介绍的技术,从图像生成描述然后由语言模型解释,我们决定尝试一下。

工作原理如下:

LLM首先为图像生成多个可能的描述。

另一个称为多模态嵌入模型检查每个描述与图像的匹配程度。在这个案例中,我们使用SigLIP来评分图像和文本之间的相似性。

系统基于这些评分保留排名靠前的几个描述。

LLM使用这些顶级描述来编写新的描述,试图更接近图像实际显示的内容。

重复这个过程直到描述停止改进或达到设定限制。

虽然理论上很聪明,但这种方法为我们的用例引入了新问题:

持续幻觉:描述本身有时包含虚构的损坏,LLM然后自信地报告这些损坏。

覆盖不完整:即使有多个描述,一些问题也完全被遗漏。

复杂性增加,收益微小:增加的步骤使系统更复杂,但没有可靠地超越之前的设置。

这是一个有趣的实验,但最终不是解决方案。

代理框架的创新应用

这是转折点。虽然代理框架通常用于编排任务流程(比如代理协调日历邀请或客户服务操作),我们想知道将图像解释任务分解为更小的专门代理是否有帮助。

我们构建了这样结构的代理框架:

编排代理:检查图像并识别哪些笔记本电脑组件是可见的(屏幕、键盘、机箱、端口)。

组件代理:专门的代理检查每个组件的特定损坏类型;例如,一个负责破裂屏幕,另一个负责缺失按键。

垃圾检测代理:单独的代理标记图像是否首先是笔记本电脑。

这种模块化、任务驱动的方法产生了更精确和可解释的结果。幻觉大幅减少,垃圾图像被可靠标记,每个代理的任务都足够简单和集中,能够很好地控制质量。

盲点:代理方法的权衡

尽管这很有效,但并不完美。出现了两个主要限制:

延迟增加:运行多个顺序代理增加了总推理时间。

覆盖差距:代理只能检测它们被明确编程寻找的问题。如果图像显示了意外的内容,而没有代理被指派识别,它就会被忽略。

我们需要一种平衡精确性和覆盖范围的方法。

混合解决方案:结合代理和单体方法

为了弥合差距,我们创建了一个混合系统:

代理框架首先运行,处理已知损坏类型和垃圾图像的精确检测。我们将代理数量限制在最关键的几个以改善延迟。

然后,单体图像LLM提示扫描图像寻找代理可能遗漏的任何其他内容。

最后,我们使用精选的图像集对高优先级用例进行微调,比如频繁报告的损坏场景,以进一步提高准确性和可靠性。

这种组合为我们提供了代理设置的精确性和可解释性、单体提示的广泛覆盖以及针对性微调的信心提升。

我们学到的经验

在完成这个项目时,几件事变得清晰:

代理框架比人们认为的更通用:虽然它们通常与工作流管理相关联,我们发现当以结构化、模块化的方式应用时,它们可以显著提升模型性能。

混合不同方法胜过依赖单一方法:基于代理的精确检测与LLM的广泛覆盖的结合,加上在最重要的地方进行一些微调,为我们提供了比任何单一方法都更可靠的结果。

视觉模型容易产生幻觉:即使是更先进的设置也可能跳到结论或看到不存在的东西。需要周到的系统设计来控制这些错误。

图像质量多样性很重要:使用清晰的高分辨率图像和日常较低质量图像进行训练和测试,帮助模型在面对不可预测的现实世界照片时保持适应性。

需要捕获垃圾图像的方法:对垃圾或无关图片的专门检查是我们做出的最简单改变之一,但对整体系统可靠性产生了巨大影响。

最终思考

最初作为简单想法开始的项目——使用LLM提示检测笔记本电脑图像中的物理损坏,很快变成了结合不同AI技术来解决不可预测的现实世界问题的更深入实验。在这个过程中,我们意识到一些最有用的工具原本并不是为这类工作设计的。

通常被视为工作流实用程序的代理框架,在重新用于结构化损坏检测和图像过滤等任务时被证明出人意料地有效。通过一些创造性思维,它们帮助我们构建了一个不仅更准确,而且在实践中更容易理解和管理的系统。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
1-2遭首败!他们仍创造历史:首次世界杯出线,为这一刻等了40年

1-2遭首败!他们仍创造历史:首次世界杯出线,为这一刻等了40年

侃球熊弟
2026-06-25 05:04:46
“欠下”10000亿!雷军做什么都是错的

“欠下”10000亿!雷军做什么都是错的

鸣金网
2026-06-24 20:20:42
阿里巴巴证实:已起诉美国防部

阿里巴巴证实:已起诉美国防部

财联社
2026-06-25 08:24:01
33岁孙兴慜迷茫呆立 世界杯连续7场0球 名嘴嘲讽:沦为亚洲一哥们

33岁孙兴慜迷茫呆立 世界杯连续7场0球 名嘴嘲讽:沦为亚洲一哥们

我爱英超
2026-06-25 11:31:16
特朗普:打赢委内瑞拉只用了48分钟,通过出售从那里运出的数百万桶石油赚了很多钱,完全收回战争成本,回报率28倍以上

特朗普:打赢委内瑞拉只用了48分钟,通过出售从那里运出的数百万桶石油赚了很多钱,完全收回战争成本,回报率28倍以上

极目新闻
2026-06-24 12:12:36
“副院长出轨眼科主任”最新进展:女方曾某已离职,男方祖某某恢复出诊

“副院长出轨眼科主任”最新进展:女方曾某已离职,男方祖某某恢复出诊

潇拾亿郎
2026-06-25 00:19:41
“桔子酒店”起诉“橘子宾馆”案延期开庭,原告称对方造成其损失500多万,商标侵权索赔10万

“桔子酒店”起诉“橘子宾馆”案延期开庭,原告称对方造成其损失500多万,商标侵权索赔10万

极目新闻
2026-06-25 00:03:33
广德车祸事件进展:知情人称3岁男孩“脑死亡”,36岁女司机曝光

广德车祸事件进展:知情人称3岁男孩“脑死亡”,36岁女司机曝光

老猫观点
2026-06-24 17:12:27
女子离婚当晚被前夫杀害案二审,两位女儿讲述最大的心愿

女子离婚当晚被前夫杀害案二审,两位女儿讲述最大的心愿

新民晚报
2026-06-24 14:23:05
安徽高考分数线发布

安徽高考分数线发布

界面新闻
2026-06-25 10:03:00
A股三大指数开盘涨跌不一,沪指跌0.18%,创业板指涨0.63%

A股三大指数开盘涨跌不一,沪指跌0.18%,创业板指涨0.63%

每日经济新闻
2026-06-25 09:29:11
日本队3-1战胜巴西,世界第1大逆转胜

日本队3-1战胜巴西,世界第1大逆转胜

陈錈爱体育
2026-06-25 06:18:11
1换3交易!活塞送“追打詹姆斯”斯图尔特去灰熊 换3个次轮签

1换3交易!活塞送“追打詹姆斯”斯图尔特去灰熊 换3个次轮签

醉卧浮生
2026-06-25 09:22:00
维尼修斯谈内马尔替补出场:我们的偶像回来了

维尼修斯谈内马尔替补出场:我们的偶像回来了

懂球帝
2026-06-25 09:55:31
梅西宣布2030年世界杯计划,阿根廷传奇想以圆满战绩结束职业生涯

梅西宣布2030年世界杯计划,阿根廷传奇想以圆满战绩结束职业生涯

夜白侃球
2026-06-25 09:50:36
不要垫!不要垫!不要垫!有人垫了一张纸,家差点没了……

不要垫!不要垫!不要垫!有人垫了一张纸,家差点没了……

泰有趣
2026-06-24 13:34:00
世界杯战报:再爆大冷预警世界第6苦战2-2第87,日本很难很难了

世界杯战报:再爆大冷预警世界第6苦战2-2第87,日本很难很难了

金风说
2026-06-25 07:37:09
江西高考分数线公布

江西高考分数线公布

界面新闻
2026-06-25 10:27:24
蒋方舟被清华教授举报!涉及论文造假、捏造出处、伪造文献……

蒋方舟被清华教授举报!涉及论文造假、捏造出处、伪造文献……

麦杰逊
2026-06-25 11:30:04
68岁冯小刚新片《抓特务》遇冷,业内发声鸣不平,评论区彻底翻车

68岁冯小刚新片《抓特务》遇冷,业内发声鸣不平,评论区彻底翻车

小徐讲八卦
2026-06-24 17:02:10
2026-06-25 12:03:00
至顶科技 incentive-icons
至顶科技
科技产业媒体与 AI 产业服务机构
19580文章数 49713关注度
往期回顾 全部

科技要闻

盘后大涨16%!AI存储需求带飞美光业绩

头条要闻

上海阿姨为儿子买了房却被赶出门 还被儿媳打三个耳光

头条要闻

上海阿姨为儿子买了房却被赶出门 还被儿媳打三个耳光

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

白玉兰颁奖预测,杨幂胜算大吗?

财经要闻

财报炸裂!美光让空头闭嘴

汽车要闻

少个轮子也能跑?方程豹豹8闪充版云辇P Ultra让新手越野不心慌

态度原创

家居
本地
时尚
游戏
公开课

家居要闻

绿意盎然 自然之境

本地新闻

2026世界杯全勤太难?这份保姆级攻略请收好

最高级的夏季配色,来了!

出师未捷身先死!《GTA6》未发售即遭一国全面封禁

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版