网易首页 > 网易号 > 正文 申请入驻

UniPercept 统一图像美学、质量与结构纹理感知

0
分享至



操铄:中国科学技术大学与上海人工智能实验室联合培养博士生,专注多模态图像理解与生成。主导研发了 ArtiMuse、UniPercept 等成果,多篇工作发表于 ECCV、ICCV 等国际顶级会议。

李佳阳:北京大学硕士生,专注多模态图像理解及融合。作为核心作者参与了 ArtiMuse、UniPercept 等工作,多篇工作发表于 TIP、TPAMI 等国际顶级期刊。

尽管多模态大语言模型(MLLMs)在识别「图中有什么」这一语义层面上取得了巨大进步,但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

近日,来自上海人工智能实验室、中科大、北大、清华等机构的研究者联合发布了UniPercept。这是首个统一了美学(Aesthetics)质量(Quality)结构与纹理(Structure & Texture)三个维度的感知级图像理解框架。



项目主页:https://thunderbolt215.github.io/Unipercept-project/

代码仓库:

https://github.com/thunderbolt215/UniPercept

论文地址:

https://arxiv.org/abs/2512.21675

模型权重:https://huggingface.co/collections/Thunderbolt215215/unipercept

相关工作 (ArtiMuse):

https://github.com/thunderbolt215/ArtiMuse

引言:

从「识别物体」到「感知图像」

当前,多模态大语言模型在目标检测、图像描述和视觉推理等语义级任务中表现卓越。然而,人类视觉感知不仅限于物体识别,还包括对构图美感、画质损伤、材质纹理以及结构规律性的细腻捕捉。

语义级理解关注的是「场景中有哪些实体」,而感知级理解则需要评估精细的、低层级的视觉外观,例如美学和谐度、降质严重程度或表面肌理。这些属性往往是微妙且主观的,对内容创作、图像增强及生成模型对齐至关重要。

为了填补这一空白,研究团队提出了UniPercept。该工作建立了层次化的感知属性定义系统,构建了大规模基准测试集UniPercept-Bench,并开发了一个通过领域自适应预训练和任务对齐强化学习训练的强基准模型。此外,研究团队还给出了UniPercept的下游应用实例,包括作为生成模型的奖励模型(Reward Model),以及作为生成模型评估的指标(Metrics)等。



UniPercept-Bench:

三位一体的全域感知评价体系


UniPercept 将感知级图像理解拆解为三个核心领域,构建了「领域 - 类别 - 准则」的三级层次结构,旨在全面覆盖人类对图像的视觉评价维度。

核心评估维度

  • 图像美学评估(IAA):侧重于构图设计、视觉元素与结构、情感和整体视觉吸引力等。它关注的是图像是否「好看」,探讨艺术表达与视觉平衡。

  • 图像质量评估(IQA):侧重于感知保真度和降质因素,如噪声、模糊、压缩伪影。它回答的是图像是否「技术性达标」。

  • 图像结构与纹理评估(ISTA):这是 UniPercept 首次系统化提出的维度,强调局部特征、几何规律性、材质属性(如平滑度、粗糙度)和细节丰富度。它回答的是图像的「场景、结构、纹理和构成与复杂程度」。



UniPercept-Bench 的定义体系分为三级细分,包含 3 个领域、17 个类别和 44 个细分准则,给出了专家级的细致定义体系,其精细程度远远超过此前的图像评估 Benchmark。

在具体定义上,它实现了从领域到准则的精密解构:例如从美学(IAA)领域,到「构图与设计(Composition & Design)」类别,深入到对「视觉平衡(Visual Balance)」这一微观准则的量化;或从场景解析(ISTA)领域,到「几何构成(Geometric Composition)」类别,细化到对「3D 体积(3D Volume)」隐含信息的提取。这种三级联动的体系,确保了模型能够从宏观的「整体感知」跨越到微观的「渲染精度」进行全方位、多维度的专家级评估。







任务形式与数据流水线


该基准支持视觉评分(Visual Rating, VR)视觉问答(Visual Question Answering, VQA)两种互补的任务形式。



为了确保数据质量,研究团队设计了三阶段自动化流水线:

  • 初始生成:利用先进多模态模型结合专业准则库生成候选问答对。
  • 拒绝采样:由异构判别模型对问题的有效性、答案的准确性及逻辑一致性进行五分制打分,剔除约 40% 的不合格样本。
  • 人工精修:组织专业志愿者进行手动核验,特别是对边界案例进行修改,确保最终结果与人类专家感知高度对齐。



UniPercept 模型:

领域自适应与任务对齐强化学习


为了使模型具备真正的感知能力,研究者采用两阶段框架对基础多模态模型进行持续演进。

领域自适应预训练(Domain-Adaptive Pre-Training)

研究团队整合了约 80 万个样本的大规模语料库,涵盖文本描述、结构化标注和数值评分。通过这一阶段,模型习得了跨领域的底层视觉特征,为其后续的精准判断打下了相应的感知基础。

任务对齐强化学习(Task-Aligned RL for VR & VQA)

这是提升模型感知一致性的关键。研究者采用了 GRPO 算法进行策略优化,并针对感知任务设计了特定的奖励函数:

  • 视觉问答(VQA)任务:采用二元奖励,鼓励模型输出准确的离散答案。
  • 视觉评分(VR)任务:创新性地设计了自适应高斯软奖励(Adaptive Gaussian Soft Reward)。该函数根据模型预测值与参考分数的偏差动态调整平滑系数。

这种软奖励机制提供了更平滑的梯度,避免了传统阈值奖励导致的优化不连续性。此外,模型引入了评分 Token 策略,直接从预测概率分布中导出数值,大幅缓解了模型生成数字时的幻觉倾向。



性能:

全面超越现有顶尖模型


研究团队在 UniPercept-Bench 上评估了包括商用闭源模型系列、领先开源系列以及针对美学和质量优化的专用模型在内的 18 个模型,UniPercept 在其中取得了显著优秀的表现。

视觉评分(VR)表现

在持续分数的回归任务中,大多数通用模型在没有针对性训练的情况下表现较差。相比之下,UniPercept 在所有三个领域(美学、质量、结构)中均取得了最高的斯皮尔曼相关系数(SRCC)和皮尔逊相关系数(PLCC)。尤其是在 ISTA 领域,UniPercept 填补了现有模型对细节纹理判断的空白。



视觉问答(VQA)表现

实验显示,即使是目前最顶尖的商业模型在处理精细感知问题时也显得吃力:

  • 图像美学评估(IAA)领域,UniPercept 的准确率超越了 GPT-4o 约 16 个百分点。
  • 图像质量评估(IQA)领域,UniPercept 在识别特定物体上的细微损伤(如运动模糊、压缩畸变)方面展现出极强的定位与判断能力。
  • 图像结构与纹理复杂度评估(ISTA)领域,模型能够准确分辨不同材质的表面特性(如镜面反射、亚光纹理),准确率突破 80%。







应用:

作为奖励模型/评估指标


UniPercept 展示了作为生成模型优化信号的巨大潜力。研究者将其作为奖励模型,整合进文生图模型的微调流水线中。UniPercept 主要从以下三个方面对生成模型进行优化:

  • 美学引导:显著改善生成图像的构图平衡和光影和谐度。
  • 质量引导:增强图像细节的锐度和清晰度,减少常见的伪影干扰。
  • 结构纹理引导:丰富了场景的复杂程度、结构的丰富度、物体的表面肌理,使画面表现更丰富。

不同奖励信号有着不同的优化侧重点,当三个维度的奖励信号协同作用时,生成的图像在视觉吸引力和技术保真度上均达到最优。





此外,UniPercept 天然可以作为从美学、质量、纹理与结构三方面对于图像进行评估的评估指标(Metrics),可以准确反映不同模型输出图像的各方面表现。



生成图像的全方位「感知档案」

UniPercept 还能为图像生成全方位的「感知档案」,不仅给出评分,还能从美学、质量、纹理与结构三个方面针对构图、执行精度、损伤位置等具体维度给出详细的文字解析与结构化输出。



结语


UniPercept 的提出,是多模态大模型的研究重心正在从单纯的语义识别,向更具挑战性的「感知图像」转化的重要一环。通过建立统一的评价基准、高效的数据生产线以及新颖的任务对齐学习策略,UniPercept 为未来的视觉内容评价与可控生成提供了一个强大的底座。它不仅是研究感知的有力工具,更是构建「感知闭环」系统的重要一步。

随着感知级理解能力的不断提升,人工智能将能够像人类艺术家一样,不仅能看懂画面中的故事,更能体会并创造出具备极致美感与精湛质感的视觉作品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
小菲透露箖玥动态,没回北京上学!姥姥和姥爷在带!兰姐感恩亲家

小菲透露箖玥动态,没回北京上学!姥姥和姥爷在带!兰姐感恩亲家

80后房车生活
2026-02-27 19:58:04
美媒称自由式滑雪女王谷爱凌“浮现新谜团” ,出生记录父亲栏为空白

美媒称自由式滑雪女王谷爱凌“浮现新谜团” ,出生记录父亲栏为空白

阿废冷眼观察所
2026-02-28 16:14:52
彻底决裂!沙特强势警告伊朗,阿拉伯阵营集体摊牌

彻底决裂!沙特强势警告伊朗,阿拉伯阵营集体摊牌

老马拉车莫少装
2026-02-28 20:35:31
张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

张艺谋:第一次见她,我对她说,你等着我们来找你,不要乱演电影

秀语千寻
2026-02-22 19:28:42
消灭大陆泽:华北水乡变旱地的悲催缩影

消灭大陆泽:华北水乡变旱地的悲催缩影

冷炮历史
2026-02-27 09:00:04
59岁叶子楣高调现身商场,黄发绿裙吸睛,身材瘦得比例失衡

59岁叶子楣高调现身商场,黄发绿裙吸睛,身材瘦得比例失衡

科学发掘
2026-02-28 01:07:25
2026年春季开学重磅调整!中小学取消强制早自习推迟到校

2026年春季开学重磅调整!中小学取消强制早自习推迟到校

老特有话说
2026-02-25 22:44:45
港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

港中大校长段崇智,默许港独学生暴行,被英国颁奖,如今怎么样?

鬼菜生活
2026-02-03 18:35:49
暴涨88%!成都楼市,正式回暖!?

暴涨88%!成都楼市,正式回暖!?

楼市灭霸
2026-03-01 00:22:18
悲催!网传河南一女子恶心呕吐没当回事,结果抢救1个多小时去世

悲催!网传河南一女子恶心呕吐没当回事,结果抢救1个多小时去世

火山詩话
2026-02-28 14:15:06
中方奉陪到底!访华迟迟没回复,特朗普掀桌了,要废除中国一地位

中方奉陪到底!访华迟迟没回复,特朗普掀桌了,要废除中国一地位

爱下厨的阿酾
2026-02-28 17:26:01
脸在江山在?事实证明,失去黄晓明的杨颖,又回到了她的“怪圈”

脸在江山在?事实证明,失去黄晓明的杨颖,又回到了她的“怪圈”

观察鉴娱
2026-02-28 10:07:44
王曼昱赢了球,却用一句话让对手红了眼眶!这才是大将风范!

王曼昱赢了球,却用一句话让对手红了眼眶!这才是大将风范!

眼界纵横
2026-02-28 20:58:39
晚饭七分饱被推翻了?医生调查:过了71岁,吃饭尽量要做到这3点

晚饭七分饱被推翻了?医生调查:过了71岁,吃饭尽量要做到这3点

健康科普365
2026-02-28 19:40:03
中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

中国驻符拉迪沃斯托克总领馆:18-65岁在俄长期居留男性 须同意在俄军事单位等至少服役1年

闪电新闻
2026-02-26 12:56:09
完全体广东来了!崔永熙首秀,徐杰正式复出,杜锋打响争冠第一枪

完全体广东来了!崔永熙首秀,徐杰正式复出,杜锋打响争冠第一枪

多特体育说
2026-02-28 21:59:57
她什么都没做,只是站在那里,整个日本的男人都坐不住了

她什么都没做,只是站在那里,整个日本的男人都坐不住了

东方不败然多多
2026-02-28 15:36:56
美国企业对包括智能电视、显示器及其组件的视频功能电子设备提起337调查申请

美国企业对包括智能电视、显示器及其组件的视频功能电子设备提起337调查申请

财联社
2026-02-28 16:19:17
中俄边境传来好消息,俄罗斯终于想通了,废弃25年的铁路重新开通

中俄边境传来好消息,俄罗斯终于想通了,废弃25年的铁路重新开通

芭比衣橱
2026-02-28 07:02:51
老人与十五级台阶的距离

老人与十五级台阶的距离

澎湃新闻
2026-02-28 07:38:31
2026-03-01 08:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12382文章数 142573关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普:对伊朗的不间断打击将持续一周甚至更长时间

头条要闻

特朗普:对伊朗的不间断打击将持续一周甚至更长时间

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

教育
房产
手机
旅游
时尚

教育要闻

一年学费仅3800美金的语言学校,适合你吗?

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

手机要闻

小米17/17 Ultra国际版发布:售价过万 国行版用户看完直呼赚了

旅游要闻

北京颐和园蜡梅刷屏,70年古株盛放,藏着早春最动人的中国式浪漫

这6款发色居然这么火?50张图可以直接给tony

无障碍浏览 进入关怀版