网易首页 > 网易号 > 正文 申请入驻

中科院自动化研究所团队破解多模态大模型的"夜视"难题

0
分享至


当夜幕降临或雾气弥漫时,我们的眼睛往往无能为力,但红外摄像头却能洞察一切。如今,人工智能也面临着同样的挑战——那些在自然光线下表现出色的多模态大模型,在面对红外图像时却变得"眼盲"。由中科院自动化研究所张涛、洪玉扬等研究人员组成的团队于2024年12月发表了一项突破性研究,他们不仅构建了世界首个专门评测红外图像理解能力的基准测试IF-Bench,还提出了一种巧妙的"生成式视觉提示"方法,让现有的AI模型瞬间获得了"夜视"能力。这项研究发表在计算机视觉顶级会议上,编号为arXiv:2512.09663v1,为红外图像理解领域开辟了新的研究方向。

红外成像技术就像给机器装上了一双能够感知热量的眼睛。当普通摄像头在黑暗中什么都看不见时,红外摄像头却能清晰地捕捉到物体散发的热量,这就是为什么夜视仪、医疗设备和军用监控系统都离不开红外技术。然而,现在最先进的多模态大语言模型——比如GPT-4o、Gemini-2.5-Flash这些"AI明星",虽然能够轻松理解自然光照下的彩色图片,但一旦面对红外图像,就像突然失明了一般无从下手。

这个问题的根源在于训练数据的局限性。就好比一个从小只在白天活动的孩子,当第一次在夜晚使用手电筒时会感到迷茫一样,这些AI模型从小到大都是用彩色照片"喂养"长大的,从未接受过红外图像的训练,自然无法理解这种全新的视觉信息。研究团队意识到,要让AI真正具备全方位的视觉理解能力,红外图像理解是一个绕不开的关键环节。

为了系统性地评估和改善这个问题,研究团队首先建立了一个名为IF-Bench的综合评测基准。这个基准就像是为AI设计的"红外视觉能力考试",包含了499张精心筛选的红外图像和680道精心设计的题目。这些图像来源于23个不同的红外数据集,涵盖了从城市监控、野生动物观察到工业检测等各种应用场景,确保了评测的全面性和实用性。

IF-Bench将红外图像理解能力分解为三个层次十个维度的任务,就像搭建了一个完整的能力评估体系。第一个层次是粗粒度感知,包括场景理解、图像主题识别和拍摄视角判断,这些相当于让AI回答"这是在什么地方拍的"、"这张图片是用来做什么的"、"摄像头是从什么角度拍摄的"这类基础问题。第二个层次是细粒度感知,涵盖目标定位、空间关系理解、物体计数、热特征理解和动作识别,要求AI能够精确识别图像中的具体细节,比如"图片中有多少个人"、"最热的地方在哪里"等更加精细的问题。第三个层次是图像推理,包括热特征推理和常识推理,这要求AI不仅要能看到图像内容,还要能分析原因和进行逻辑推理,比如"为什么这个区域温度较高"、"这个设施的作用是什么"等深层次问题。

研究团队对超过40个主流的多模态大模型进行了全面测试,结果令人担忧。即使是最先进的闭源模型,在红外图像理解方面的表现也远不如它们在自然图像上的出色表现。更令人意外的是,开源模型和闭源模型在这个任务上的差距并没有想象中那么大,这说明红外图像理解确实是一个普遍存在的技术挑战,而非某些模型的个别问题。

深入分析测试结果后,研究团队发现了几个有趣的规律。首先,模型规模对红外图像理解能力有显著影响,参数更多的模型通常表现更好,这符合我们对AI发展的一般认知。其次,混合专家架构(MoE)在性能和效率之间找到了更好的平衡点,就像用更精明的方式分配计算资源一样。第三,令人意外的是,"思维链"推理模式并没有显著提升整体性能,在某些精细感知任务上甚至出现了退化,这提示我们不同类型的任务可能需要不同的推理策略。

面对这些挑战,研究团队提出了一种创新的解决方案——生成式视觉提示(GenViP)方法。这个方法的核心思想非常巧妙:既然AI模型不擅长理解红外图像,那就用图像编辑技术将红外图像"翻译"成AI熟悉的彩色图像,然后同时向AI提供原始红外图像和翻译后的彩色图像,让它们相互补充,取长补短。

这种方法就像给AI配备了一个"翻译助手"。当AI看到一张红外图像时,翻译助手会快速生成一张在空间布局和语义内容上高度对应的彩色图像。AI可以通过彩色图像更容易地理解图像的整体结构和内容,同时还能从原始红外图像中获取热量分布等独特信息。这样一来,AI既能发挥它在彩色图像理解方面的优势,又不会丢失红外图像特有的热感应信息。

GenViP方法的另一个优势是它完全不需要重新训练模型。传统的解决方案往往需要收集大量的红外图像-文本配对数据,然后对模型进行专门的微调训练,这个过程不仅耗时耗力,还可能影响模型在其他任务上的表现。而GenViP就像是给现有的AI模型戴上了一副"红外眼镜",无需改动模型本身,就能立即提升它的红外图像理解能力。

在实际应用中,GenViP的效果非常显著。实验结果显示,使用这种方法后,各种规模的模型在IF-Bench上的表现都有了明显提升,最高可达7%的相对性能增益。更令人惊喜的是,一些原本性能一般的开源模型在使用GenViP后,甚至能够超越某些闭源商业模型的表现,这为实际应用提供了更多经济实惠的选择。

为了进一步优化GenViP的效果,研究团队还专门训练了一个更好的图像翻译模型。他们从超过37万对RGB-红外图像对中精心筛选出5万对高质量数据,对开源的图像编辑模型进行了专门优化。这个优化过程就像是为翻译助手提供了更专业的训练,让它能够更准确地将红外图像转换为对应的彩色图像,从而进一步提升了整个系统的性能。

研究团队还进行了详细的消融实验来验证方法的有效性。他们发现,单独使用翻译后的彩色图像虽然在某些任务上有帮助,但会丢失重要的热感应信息,导致在热特征相关任务上的性能下降。而同时提供原始红外图像和翻译图像的策略能够很好地平衡这两方面的需求,在几乎所有维度的任务上都取得了稳定的性能提升。

这项研究的意义远超出了技术层面的突破。随着自动驾驶、智能监控、医疗诊断等应用场景对全天候、全环境感知能力需求的日益增长,红外图像理解能力将成为未来AI系统的必备技能。IF-Bench为这个领域建立了标准化的评测框架,而GenViP方法则为现有模型快速获得这种能力提供了实用的解决方案。

值得注意的是,这项研究也反映了当前AI发展中的一个重要趋势:从单一模态向多模态、从理想环境向复杂环境的扩展。就像人类的感知系统能够整合视觉、听觉、触觉等多种信息源一样,未来的AI系统也需要具备处理各种不同类型输入的能力,红外图像理解只是其中的一个重要方面。

研究团队在论文中也诚恳地指出了当前工作的局限性。IF-Bench虽然已经相当全面,但仍然只包含了相对有限的图像数量和任务类型,未来还需要进一步扩展和完善。同时,GenViP方法虽然有效,但仍然依赖于图像翻译的质量,如何进一步提升翻译的准确性和泛化能力还有很大的改进空间。

这项研究的发布时机也非常恰当。当前正值多模态大模型快速发展的关键时期,各大科技公司都在竞相开发更强大的AI视觉理解系统。IF-Bench的出现为整个行业提供了一个新的评测维度和发展方向,而GenViP方法则证明了在不重新训练模型的情况下扩展AI能力的可能性,这对于资源有限的研究机构和创业公司来说具有重要的实用价值。

从更广阔的视角来看,这项研究体现了中国在AI基础研究领域的持续贡献。中科院自动化研究所作为国内人工智能研究的重要基地,在多模态理解、计算机视觉等前沿领域持续产出高质量的研究成果,为推动全球AI技术发展贡献了中国智慧。

说到底,这项研究解决的是一个看似技术性但实际上非常实用的问题。在我们日常生活中,红外技术已经无处不在,从手机的面部识别到汽车的夜间驾驶辅助,从医院的体温检测到工厂的设备监控。让AI具备理解红外图像的能力,实际上是让它们能够更好地融入我们的真实世界,在更多场景下为人类提供智能服务。

Q&A

Q1:IF-Bench是什么,为什么需要这样一个评测基准?

A:IF-Bench是世界首个专门评测AI模型红外图像理解能力的综合基准测试,包含499张红外图像和680道题目,覆盖从基础感知到深度推理的10个维度。之所以需要它,是因为现有的AI模型虽然在普通彩色图像理解方面表现出色,但在红外图像面前却几乎"失明",而红外技术在夜视、医疗、监控等领域应用广泛,急需标准化的评测工具来推动这个领域的发展。

Q2:生成式视觉提示方法GenViP是如何工作的?

A:GenViP就像给AI配备了一个"翻译助手",它使用图像编辑技术将红外图像转换为AI更熟悉的彩色图像,然后同时向AI提供原始红外图像和翻译后的彩色图像。这样AI既能通过彩色图像理解整体结构,又能从红外图像获取热量分布等独特信息,无需重新训练就能显著提升红外图像理解能力,最高可达7%的性能增益。

Q3:这项研究对普通人的生活会产生什么影响?

A:这项研究将推动红外图像理解技术在多个日常应用场景的改进,包括让自动驾驶汽车在夜间和恶劣天气下更安全,使智能安防系统更准确地识别异常情况,帮助医疗设备更精确地进行红外诊断,以及让工业监控系统更好地检测设备故障。从长远来看,这将让AI助手在更多环境条件下为我们提供可靠的智能服务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

独家:某运营商2025年营收几乎0增长! 好日子快到头了! 其实三大运营商日子都那样!

新浪财经
2026-03-24 22:43:29
悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

悲催!辽宁一200多斤男子饮酒时突发脑出血,8个月身孕妻子崩溃了

火山詩话
2026-03-26 13:34:59
郑晓龙执导白宇章若楠主演《冬去春来》首播8集,观众评价竟一致

郑晓龙执导白宇章若楠主演《冬去春来》首播8集,观众评价竟一致

亦暖追剧随笔
2026-03-25 18:01:42
第81波打击!以军司令部遭袭,美航母撤离,特朗普求助35国

第81波打击!以军司令部遭袭,美航母撤离,特朗普求助35国

命运自认幽默
2026-03-26 18:16:09
收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

收手吧!“资本家的丑孩子”,没颜值没本事,就别出来祸害观众了

晓徙娱乐
2026-03-23 16:35:39
外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

外交部:美方及其盟友不要把集团对抗、冲突战乱引入亚太

中国网
2026-03-26 17:29:03
你敢信吗?如今农村正在悄然发生四大变化,几乎村村都有,看你村占了几个!

你敢信吗?如今农村正在悄然发生四大变化,几乎村村都有,看你村占了几个!

农夫也疯狂
2026-03-26 19:50:43
长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

长护险制度全面推开!国家医保局:参保人无论来自农村还是城市,从同一个资金池报销费用

红星新闻
2026-03-26 11:28:05
北京年近八旬老太每天看直播,4000元退休金全网购,家中

北京年近八旬老太每天看直播,4000元退休金全网购,家中

大象新闻
2026-03-26 11:49:02
出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

出门六不捡,马路上这“6种东西”捡回家,否则会有大麻烦

巢客HOME
2026-03-24 06:30:03
2026年交警正式更名交管!不止换称呼,罚单、停车、换驾照全变了

2026年交警正式更名交管!不止换称呼,罚单、停车、换驾照全变了

混沌录
2026-03-20 21:00:04
四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

高博新视野
2026-03-25 08:00:28
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

中央定调,养老金调整方向明确,2026年若上涨,企退能多涨3%吗?

有范又有料
2026-03-26 14:35:52
戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

戏都没演明白还当评委,自己都没拿过奖,坐在评审团位置不心虚吗

娱乐圈笔娱君
2026-03-25 10:46:06
美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

美容院老板娘大实话:55岁后脸再光也没用,脱了衣服见真章!

距离距离
2026-03-25 16:53:55
女子空置房2个月被用水1961吨 水管封死水表仍走字 水务公司拒回应

女子空置房2个月被用水1961吨 水管封死水表仍走字 水务公司拒回应

闪电新闻
2026-03-26 14:06:10
是否有中国船只顺利通过霍尔木兹海峡?外交部回应

是否有中国船只顺利通过霍尔木兹海峡?外交部回应

财联社
2026-03-25 15:46:15
俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

俄罗斯人想不明白:为什么强大的中国,几千年都不要西伯利亚?

贱议你读史
2026-03-26 00:07:41
养出情绪稳定的孩子,就靠6句话!频繁说,孩子越来越懂事

养出情绪稳定的孩子,就靠6句话!频繁说,孩子越来越懂事

户外阿毽
2026-03-23 07:52:09
2026-03-26 20:24:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
时尚
手机
亲子

艺术要闻

哪一座桥不是风景?

教育要闻

2026人工智能时代下的教育课堂变革

皮衣+裙,高级到炸

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

亲子要闻

这就是引导型老师的厉害吗?

无障碍浏览 进入关怀版