网易首页 > 网易号 > 正文 申请入驻

深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知

0
分享至

来源:市场资讯

(来源:机器之心)


操铄:中国科学技术大学与上海人工智能实验室联合培养博士生,专注多模态图像理解与生成。主导研发了 ArtiMuse、UniPercept 等成果,多篇工作发表于 ECCV、ICCV 等国际顶级会议。

李佳阳:北京大学硕士生,专注多模态图像理解及融合。作为核心作者参与了 ArtiMuse、UniPercept 等工作,多篇工作发表于 TIP、TPAMI 等国际顶级期刊。

尽管多模态大语言模型(MLLMs)在识别「图中有什么」这一语义层面上取得了巨大进步,但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

近日,来自上海人工智能实验室、中科大、北大、清华等机构的研究者联合发布了 UniPercept。这是首个统一了 美学(Aesthetics)、质量(Quality)、结构与纹理(Structure & Texture) 三个维度的感知级图像理解框架。


项目主页:https://thunderbolt215.github.io/Unipercept-project/

代码仓库:https://github.com/thunderbolt215/UniPercept

论文地址:https://arxiv.org/abs/2512.21675

模型权重:https://huggingface.co/collections/Thunderbolt215215/unipercept

相关工作 (ArtiMuse):https://github.com/thunderbolt215/ArtiMuse

引言:

从「识别物体」到「感知图像」

当前,多模态大语言模型在目标检测、图像描述和视觉推理等语义级任务中表现卓越。然而,人类视觉感知不仅限于物体识别,还包括对构图美感、画质损伤、材质纹理以及结构规律性的细腻捕捉。

语义级理解关注的是「场景中有哪些实体」,而感知级理解则需要评估精细的、低层级的视觉外观,例如美学和谐度、降质严重程度或表面肌理。这些属性往往是微妙且主观的,对内容创作、图像增强及生成模型对齐至关重要。

为了填补这一空白,研究团队提出了 UniPercept。该工作建立了层次化的感知属性定义系统,构建了大规模基准测试集 UniPercept-Bench,并开发了一个通过领域自适应预训练和任务对齐强化学习训练的强基准模型。此外,研究团队还给出了 UniPercept 的下游应用实例,包括作为生成模型的奖励模型(Reward Model),以及作为生成模型评估的指标(Metrics)等。


UniPercept-Bench:

三位一体的全域感知评价体系

UniPercept 将感知级图像理解拆解为三个核心领域,构建了「领域 - 类别 - 准则」的三级层次结构,旨在全面覆盖人类对图像的视觉评价维度。

核心评估维度

  • 图像美学评估(IAA):侧重于构图设计、视觉元素与结构、情感和整体视觉吸引力等。它关注的是图像是否「好看」,探讨艺术表达与视觉平衡。

  • 图像质量评估(IQA):侧重于感知保真度和降质因素,如噪声、模糊、压缩伪影。它回答的是图像是否「技术性达标」。

  • 图像结构与纹理评估(ISTA):这是 UniPercept 首次系统化提出的维度,强调局部特征、几何规律性、材质属性(如平滑度、粗糙度)和细节丰富度。它回答的是图像的「场景、结构、纹理和构成与复杂程度」。


UniPercept-Bench 的定义体系分为三级细分,包含 3 个领域、17 个类别和 44 个细分准则,给出了专家级的细致定义体系,其精细程度远远超过此前的图像评估 Benchmark。

在具体定义上,它实现了从领域到准则的精密解构:例如从美学(IAA)领域,到「构图与设计(Composition & Design)」类别,深入到对「视觉平衡(Visual Balance)」这一微观准则的量化;或从场景解析(ISTA)领域,到「几何构成(Geometric Composition)」类别,细化到对「3D 体积(3D Volume)」隐含信息的提取。这种三级联动的体系,确保了模型能够从宏观的「整体感知」跨越到微观的「渲染精度」进行全方位、多维度的专家级评估。




任务形式与数据流水线

该基准支持 视觉评分(Visual Rating, VR) 和 视觉问答(Visual Question Answering, VQA) 两种互补的任务形式。


为了确保数据质量,研究团队设计了三阶段自动化流水线:

  • 初始生成:利用先进多模态模型结合专业准则库生成候选问答对。

  • 拒绝采样:由异构判别模型对问题的有效性、答案的准确性及逻辑一致性进行五分制打分,剔除约 40% 的不合格样本。

  • 人工精修:组织专业志愿者进行手动核验,特别是对边界案例进行修改,确保最终结果与人类专家感知高度对齐。


UniPercept 模型:

领域自适应与任务对齐强化学习

为了使模型具备真正的感知能力,研究者采用两阶段框架对基础多模态模型进行持续演进。

领域自适应预训练(Domain-Adaptive Pre-Training)

研究团队整合了约 80 万个样本的大规模语料库,涵盖文本描述、结构化标注和数值评分。通过这一阶段,模型习得了跨领域的底层视觉特征,为其后续的精准判断打下了相应的感知基础。

任务对齐强化学习(Task-Aligned RL for VR & VQA)

这是提升模型感知一致性的关键。研究者采用了 GRPO 算法进行策略优化,并针对感知任务设计了特定的奖励函数:

  • 视觉问答(VQA)任务:采用二元奖励,鼓励模型输出准确的离散答案。

  • 视觉评分(VR)任务:创新性地设计了 自适应高斯软奖励(Adaptive Gaussian Soft Reward)。该函数根据模型预测值与参考分数的偏差动态调整平滑系数。

这种软奖励机制提供了更平滑的梯度,避免了传统阈值奖励导致的优化不连续性。此外,模型引入了评分 Token 策略,直接从预测概率分布中导出数值,大幅缓解了模型生成数字时的幻觉倾向。


性能:

全面超越现有顶尖模型

研究团队在 UniPercept-Bench 上评估了包括商用闭源模型系列、领先开源系列以及针对美学和质量优化的专用模型在内的 18 个模型,UniPercept 在其中取得了显著优秀的表现。

视觉评分(VR)表现

在持续分数的回归任务中,大多数通用模型在没有针对性训练的情况下表现较差。相比之下,UniPercept 在所有三个领域(美学、质量、结构)中均取得了最高的斯皮尔曼相关系数(SRCC)和皮尔逊相关系数(PLCC)。尤其是在 ISTA 领域,UniPercept 填补了现有模型对细节纹理判断的空白。


视觉问答(VQA)表现

实验显示,即使是目前最顶尖的商业模型在处理精细感知问题时也显得吃力:

  • 在 图像美学评估(IAA) 领域,UniPercept 的准确率超越了 GPT-4o 约 16 个百分点。

  • 在 图像质量评估(IQA) 领域,UniPercept 在识别特定物体上的细微损伤(如运动模糊、压缩畸变)方面展现出极强的定位与判断能力。

  • 在 图像结构与纹理复杂度评估(ISTA) 领域,模型能够准确分辨不同材质的表面特性(如镜面反射、亚光纹理),准确率突破 80%。




应用:

作为奖励模型/评估指标

UniPercept 展示了作为生成模型优化信号的巨大潜力。研究者将其作为奖励模型,整合进文生图模型的微调流水线中。UniPercept 主要从以下三个方面对生成模型进行优化:

  • 美学引导:显著改善生成图像的构图平衡和光影和谐度。

  • 质量引导:增强图像细节的锐度和清晰度,减少常见的伪影干扰。

  • 结构纹理引导:丰富了场景的复杂程度、结构的丰富度、物体的表面肌理,使画面表现更丰富。

不同奖励信号有着不同的优化侧重点,当三个维度的奖励信号协同作用时,生成的图像在视觉吸引力和技术保真度上均达到最优。



此外,UniPercept 天然可以作为从美学、质量、纹理与结构三方面对于图像进行评估的 评估指标(Metrics),可以准确反映不同模型输出图像的各方面表现。


生成图像的全方位「感知档案」

UniPercept 还能为图像生成全方位的「感知档案」,不仅给出评分,还能从美学、质量、纹理与结构三个方面针对构图、执行精度、损伤位置等具体维度给出详细的文字解析与结构化输出。


结语

UniPercept 的提出,是多模态大模型的研究重心正在从单纯的语义识别,向更具挑战性的「感知图像」转化的重要一环。通过建立统一的评价基准、高效的数据生产线以及新颖的任务对齐学习策略,UniPercept 为未来的视觉内容评价与可控生成提供了一个强大的底座。它不仅是研究感知的有力工具,更是构建「感知闭环」系统的重要一步。

随着感知级理解能力的不断提升,人工智能将能够像人类艺术家一样,不仅能看懂画面中的故事,更能体会并创造出具备极致美感与精湛质感的视觉作品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
38岁港姐分手后搬出月租10万豪宅,住46平方米旧居,生活回归朴素

38岁港姐分手后搬出月租10万豪宅,住46平方米旧居,生活回归朴素

树娃
2026-01-09 17:46:33
尹锡悦和旧部当庭对峙,突然在现场狂笑不止,大骂这帮人拖他后腿

尹锡悦和旧部当庭对峙,突然在现场狂笑不止,大骂这帮人拖他后腿

奇思妙想生活家
2026-01-09 15:16:08
女生体毛旺盛的真实感受,网友反应超乎想象!

女生体毛旺盛的真实感受,网友反应超乎想象!

特约前排观众
2025-11-19 00:15:03
亚运冠军王莉举报领导索15万奖金!调查24天没结果?最新后续曝光

亚运冠军王莉举报领导索15万奖金!调查24天没结果?最新后续曝光

眼光很亮
2026-01-09 01:21:47
俄专家终于说出大实话,一旦爆发海战,全世界仅有一国能击败美军

俄专家终于说出大实话,一旦爆发海战,全世界仅有一国能击败美军

慕名而来只为你
2026-01-07 20:09:43
4年5500万!场均轰26+7+7,NBA最失望球队,把重建基石便宜卖掉了

4年5500万!场均轰26+7+7,NBA最失望球队,把重建基石便宜卖掉了

巴叔GO聊体育
2026-01-09 12:09:18
陈志被捕后,柬埔寨宣布:对旗下太子银行启动清算程序!

陈志被捕后,柬埔寨宣布:对旗下太子银行启动清算程序!

王爷说图表
2026-01-08 22:36:40
医生从濒死患者动脉掏血栓如同掏碎肉,因为严重的肺动脉栓塞,导致血氧极低无法自主呼吸

医生从濒死患者动脉掏血栓如同掏碎肉,因为严重的肺动脉栓塞,导致血氧极低无法自主呼吸

观威海
2026-01-06 10:46:23
德转列冬窗历史最贵交易榜:库鸟居首,塞门约7200万欧第七

德转列冬窗历史最贵交易榜:库鸟居首,塞门约7200万欧第七

懂球帝
2026-01-09 17:58:04
人生10大忌,切忌切忌

人生10大忌,切忌切忌

尚曦读史
2025-12-06 09:19:09
哇噻!陈晓这是在模仿谢霆锋吗?第一张也太像了,再胖点就更帅了

哇噻!陈晓这是在模仿谢霆锋吗?第一张也太像了,再胖点就更帅了

TVB的四小花
2026-01-09 08:01:44
胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

胡宗南明知熊向晖是中共卧底却不抓他,沈醉晚年回忆说出背后原因

饭小妹说历史
2026-01-07 09:30:45
利物浦0-0阿森纳热议焦点:斯洛特迈出关键一步?谁打脸质疑者?

利物浦0-0阿森纳热议焦点:斯洛特迈出关键一步?谁打脸质疑者?

桥看世界
2026-01-09 07:43:50
4年2.75亿,浓眉哥目标明确!美媒建议老鹰4换1交易割爱状元郎

4年2.75亿,浓眉哥目标明确!美媒建议老鹰4换1交易割爱状元郎

锅子篮球
2026-01-09 15:53:36
TVB红毯:佘诗曼风韵犹存,黄宗泽真老了,高海宁、陈自瑤太敢穿

TVB红毯:佘诗曼风韵犹存,黄宗泽真老了,高海宁、陈自瑤太敢穿

糊咖娱乐
2026-01-05 11:39:41
华为Mate80突然官降:1月7日,惊喜大反转

华为Mate80突然官降:1月7日,惊喜大反转

科技堡垒
2026-01-07 12:46:59
再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

再抠门,也不要在网上买这6样东西,会致癌,看完真会后怕的!

古事寻踪记
2026-01-07 07:18:22
不败就出线?U23国足迎来生死战,第二场价值千金,伊拉克队拼了

不败就出线?U23国足迎来生死战,第二场价值千金,伊拉克队拼了

祥谈体育
2026-01-09 12:49:54
建文帝下落之谜被解开?后世争议600余年,其实朱棣早就找到答案

建文帝下落之谜被解开?后世争议600余年,其实朱棣早就找到答案

铭记历史呀
2026-01-09 08:47:01
刘芸15岁儿子近照曝光!鼻梁塌眼睛小但睫毛长,网友:像东南亚人

刘芸15岁儿子近照曝光!鼻梁塌眼睛小但睫毛长,网友:像东南亚人

庭小娱
2026-01-09 14:02:44
2026-01-09 18:27:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
1972577文章数 5198关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

10岁抗癌"小王子"病情加重:用药都已无效 不能吃饭

头条要闻

10岁抗癌"小王子"病情加重:用药都已无效 不能吃饭

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

檀健次恋爱风波越演越烈 上学经历被扒

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

英伟达的野心:做一套自动驾驶的“安卓系统”

态度原创

教育
手机
本地
旅游
公开课

教育要闻

大学生简历优化指南:如何写一份高质量的求职简历

手机要闻

消息称奇鋐科技、安费诺供应苹果折叠屏iPhone铰链,两家各占50%

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

旅游要闻

冬日入川,踏雪寻暖,赴一场冰与火的诗意邀约|长图

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版