网易首页 > 网易号 > 正文 申请入驻

NeurIPS 25开新坑:145万个图文对,覆盖八种主流水下理解任务

0
分享至


新智元报道

编辑:LRST

【新智元导读】华中科技大学团队推出首个水下多模态大模型NAUTILUS,支持8种水下场景理解任务,并开源145万图文对的NautData数据集。模型通过视觉特征增强模块解决水下图像模糊和颜色失真问题,性能超越现有模型,恶劣环境下表现更佳。

深邃的海洋覆盖地球表面的70%以上,其在资源勘探、环境保护和国家安全等领域的重要性,使自动化水下探索技术备受关注。

然而,想要像《海底两万里》中的「鹦鹉螺号(NAUTILUS)」那样自由地认知和探索水下世界,我们仍面临严峻的技术挑战。光线在水中的严重散射和吸收导致图像质量显著下降,这极大地削弱了通用大模型的性能,阻碍了水下场景理解的研究进展。


现有的水下视觉方法又大多为单一任务设计,缺乏多粒度的综合感知能力。大规模、多任务指令微调数据集的长期缺失,进一步制约了该领域的研究进展。


针对以上挑战,华中科技大学白翔教授团队提出了首个能够支持八项水下场景理解任务的水下多模态大模型NAUTILUS,旨在通过统一的框架实现对水下场景从图像、区域到物体的多粒度、多任务的全面理解。


论文地址:https://arxiv.org/abs/2510.27481

项目地址:https://h-embodvis.github.io/NAUTILUS

代码地址:https://github.com/H-EmbodVis/NAUTILUS

数据集地址:https://github.com/H-EmbodVis/NAUTILUS/tree/dataset

同时,团队还构建并开源了首个大规模水下多任务指令微调数据集NautData。

该工作的主要贡献如下:

  • 水下多任务指令跟随数据集构建了包含145万个图文对的NautData数据集,覆盖八种主流水下理解任务,为水下大模型的发展和评测奠定了坚实基础;

  • 多任务统一理解:NAUTILUS是首个能够同时处理粗粒度与细粒度目标分类、计数、视觉问答(VQA)、检测、指代定位、区域描述和图像描述八项任务的水下大模型,实现了对场景信息的层级化、综合性理解;

  • 性能优异且鲁棒:通过创新的「视觉特征增强」(VFE)模块,NAUTILUS能够有效克服水下图像降质问题,在多个基准测试中稳定超越包括LLaVA-1.5和Qwen2.5-VL在内的先进模型,尤其在低光、浑浊等恶劣条件下表现出色。


水下多任务指令跟随数据集NautData


该工作围绕八项任务进行数据构建,并为每项任务设计了定制化的数据生成流程。

整个流程通过三种模式构建数据,分别为基于规则的生成 (Rule-based generation),组合生成(Integration generation)与自由格式生成 (Free-form generation)。

其中,基于规则的生成利用预定义模板构造问答对,组合生成结合模板与大型语言模型(LMM)的输出以丰富数据,而自由格式生成则允许大型语言模型根据自主关注的内容灵活创建问题与答案。


数据集统计信息。外环显示了数据在八项任务上的分布,内环则显示了三种生成模式的构成比例。

NAUTILUS是如何实现的?


NAUTILUS 的框架主要由图像编码器、深度编码器、视觉特征增强(VFE)模块和大型语言模型组成。之前的研究通常将图像增强作为预处理步骤,这可能导致信息丢失。

此外,图像增强与模型训练的解耦会放大误差累积的风险,这一效应在处理采集自多变环境的大规模水下数据集时愈发明显。特征空间增强方法则通过实现端到端的优化,利用下游任务提供面向任务的监督,更适用于多任务模型设计。

因此,NAUTILUS通过在特征空间中进行增强,保留原始图像的完整信息,优化多任务场景理解表现。其核心在于即插即用的VFE模块,该模块的设计受到了水下成像物理模型的启发,旨在解决水下图像退化问题。


VFE模块的工作流程如下:

  1. 去除背景散射影响借鉴暗像素先验,模型通过定位图像中的「暗像素」区域来估计水体中的背景散射光强度,并在特征层面将其从视觉特征中剥离,消除环境光造成的模糊和「雾霾感」。

  2. 恢复光线吸收影响由于光在水中的传播会发生衰减,导致颜色失真,模型引入深度信息(由深度编码器提取)来估计光线的吸收程度,并据此对视觉特征进行补偿,恢复物体原始的色彩和细节。

通过这两个步骤,VFE模块输出增强后的视觉特征,与原始特征一同送入大型语言模型,使其既能感知真实的水下环境,又能基于恢复后的清晰信息进行可靠的分析和理解。

NAUTILUS的效果如何?

为验证模型性能,研究团队在 NautData 测试集上进行了全面的量化评估。

如下表所示,无论是基于LLaVA-1.5还是Qwen2.5-VL,NAUTILUS在分类、描述、定位、检测及视觉问答等多数核心任务上,其性能均显著优于现有的通用大模型及其他水下模型,展现了其卓越的综合理解能力。


物体计数任务为评估模型的群体感知能力提供了有效途径。

为此,研究团队在 IOCfish5k 数据集上对 NAUTILUS的水下群体计数表现进行了评测。

实验结果表明,该模型在平均绝对误差(MAE)和均方根误差(RMSE)上均优于其他大型多模态模型,且相较于 LLaVA-1.5 基线分别取得了8.0和15.9的显著提升,展现了卓越的群体感知性能。


为评估模型在真实水下环境中的鲁棒性,研究团队考察了其在光照、色偏及浑浊等降质条件下的定位(grounding)性能。

基于NautData测试子集的实验表明,相较于 LLaVA-1.5 基线,NAUTILUS在低光、偏绿和浑浊场景下的 PR@0.5 指标分别取得了7.5、8.3和8.1的大幅提升,展现出其在多变视觉条件下的强大适应能力与性能稳定性。


下图的可视化结果进一步直观地展示了NAUTILUS强大的多任务处理能力。


从对整个场景的宏观描述,到对特定鱼群的精确计数与定位,再到对单一对象的细粒度属性问答,NAUTILUS在图像、区域、物体三个层级上均展现出精准、连贯的理解能力,生动体现了其作为水下场景理解基础模型的巨大潜力。

总结

NAUTILUS作为首个支持八项水下场景理解任务的多模态大模型,为水下环境的综合感知提供了一个统一的解决方案。

以往的通用模型因水下图像降质而性能不佳,而现有的水下专用方法又大多为单一任务设计,限制了对场景的全面理解。

相比之下,NAUTILUS通过创新的视觉特征增强(VFE)模块在特征层面克服图像降质,并利用其多任务统一架构的优势,从而在多个基准测试中,尤其是在恶劣条件下,取得了超越先进模型的优异表现。

参考资料:

https://arxiv.org/abs/2510.27481

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
特朗普:美国不再资助乌克兰!北约前秘书长:北约不会为乌克兰问题与俄进行武装冲突

特朗普:美国不再资助乌克兰!北约前秘书长:北约不会为乌克兰问题与俄进行武装冲突

每日经济新闻
2025-11-11 20:50:40
再见黄仁勋!软银58亿清仓英伟达,All in OpenAI

再见黄仁勋!软银58亿清仓英伟达,All in OpenAI

新智元
2025-11-12 10:24:08
专家解读“阿坝红旗桥因边坡滑坡垮塌”:桥梁建设选址前会进行充分地质勘察,此类事故不常见

专家解读“阿坝红旗桥因边坡滑坡垮塌”:桥梁建设选址前会进行充分地质勘察,此类事故不常见

极目新闻
2025-11-11 21:46:04
钱志敏在卧室被抓捕时画面最新披露

钱志敏在卧室被抓捕时画面最新披露

每日经济新闻
2025-11-12 10:32:17
上海警方披露:退休人员王某被抓获!牵出一条“黑色产业链”

上海警方披露:退休人员王某被抓获!牵出一条“黑色产业链”

极目新闻
2025-11-12 08:10:39
正在被饿死的县医院们

正在被饿死的县医院们

医脉圈
2025-11-12 12:14:28
错,也许不仅在撞倒观众的骑警

错,也许不仅在撞倒观众的骑警

非典型佛教徒
2025-11-11 21:59:47
单局打出11-2!樊振东4-1淘汰薛飞,挺进全运会男单八强

单局打出11-2!樊振东4-1淘汰薛飞,挺进全运会男单八强

全景体育V
2025-11-12 13:14:42
朱婷再发威:带领河南女排多点开花轻取北京,豪夺全运会五连胜

朱婷再发威:带领河南女排多点开花轻取北京,豪夺全运会五连胜

金毛爱女排
2025-11-12 14:31:48
只有去过才知道:真正的美国,和新闻里说的根本不是一回事

只有去过才知道:真正的美国,和新闻里说的根本不是一回事

诗意世界
2025-11-11 22:33:55
撞倒3小孩后先扶车,苏州女骑警技能失误的背后更是责任意识的缺失

撞倒3小孩后先扶车,苏州女骑警技能失误的背后更是责任意识的缺失

少爷写春秋
2025-11-12 00:04:28
追梦:上赛季换来巴特勒后勇士所有人都想赢,这赛季不一样了

追梦:上赛季换来巴特勒后勇士所有人都想赢,这赛季不一样了

懂球帝
2025-11-12 12:23:04
美国公务员占总人口的0.9%,英国占0.8%,中国呢?

美国公务员占总人口的0.9%,英国占0.8%,中国呢?

男女那点事儿儿
2025-11-10 10:19:08
安世之乱结束,荷兰将归还控制权,但中方得答应他们“两个条件”

安世之乱结束,荷兰将归还控制权,但中方得答应他们“两个条件”

飞花逐月大帝
2025-11-12 07:45:29
突然爆雷!总部解散!曾在全国有300家门店

突然爆雷!总部解散!曾在全国有300家门店

深圳晚报
2025-11-12 10:32:41
浙江巡抚午睡后,与通房丫头一次偶然之欢,诞下名震民国的谭延闿

浙江巡抚午睡后,与通房丫头一次偶然之欢,诞下名震民国的谭延闿

历来纵横
2025-11-10 22:15:14
前DeepSeek研究员罗福莉已加入小米:全力奔赴心目中的AGI

前DeepSeek研究员罗福莉已加入小米:全力奔赴心目中的AGI

澎湃新闻
2025-11-12 13:06:27
110岁的年纪、80岁的骨龄!杭州最年长老人之一的他,每天必吃鸡蛋羹、维生素,如今还有两大爱好:看电视、聊八卦

110岁的年纪、80岁的骨龄!杭州最年长老人之一的他,每天必吃鸡蛋羹、维生素,如今还有两大爱好:看电视、聊八卦

都市快报橙柿互动
2025-11-12 15:35:43
真假?大批媒体曝吴亦凡狱中绝食去世?家人也失联,知情者发声

真假?大批媒体曝吴亦凡狱中绝食去世?家人也失联,知情者发声

180视角
2025-11-12 12:05:43
全运会00后“野球帝”国乒主力梁靖崑,其妻子赛前承诺,赢了就换带院房子

全运会00后“野球帝”国乒主力梁靖崑,其妻子赛前承诺,赢了就换带院房子

潇湘晨报
2025-11-12 15:17:10
2025-11-12 16:19:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13849文章数 66244关注度
往期回顾 全部

科技要闻

Meta"宫斗"持续,AI教父杨立昆被"气"走了

头条要闻

金饰以旧换新"蒸发"9克上海女子懵了 店员:跟我们无关

头条要闻

金饰以旧换新"蒸发"9克上海女子懵了 店员:跟我们无关

体育要闻

太阳三连胜&活塞东部第一 哪个更想不到

娱乐要闻

辛芷蕾配得上威尼斯影后吗?

财经要闻

专家建议设立5万亿房地产稳定基金

汽车要闻

能得到央视的肯定 长安马自达EZ-60可不简单

态度原创

健康
教育
手机
时尚
数码

血液科专家揭秘白血病七大误区

教育要闻

求三角形面积,根据比例模型求解

手机要闻

初代产品销量不佳,博主爆料明年没有iPhone Air 2 ​​​

“廓形穿衣法”太火了!掌握这5个法则让你美一整个冬天

数码要闻

AMD未来很稳健,Zen 6 2nm马上登场,Zen 7次世代架构整大活儿

无障碍浏览 进入关怀版