网易首页 > 网易号 > 正文 申请入驻

UniPercept 统一图像美学、质量与结构纹理感知

0
分享至



操铄:中国科学技术大学与上海人工智能实验室联合培养博士生,专注多模态图像理解与生成。主导研发了 ArtiMuse、UniPercept 等成果,多篇工作发表于 ECCV、ICCV 等国际顶级会议。

李佳阳:北京大学硕士生,专注多模态图像理解及融合。作为核心作者参与了 ArtiMuse、UniPercept 等工作,多篇工作发表于 TIP、TPAMI 等国际顶级期刊。

尽管多模态大语言模型(MLLMs)在识别「图中有什么」这一语义层面上取得了巨大进步,但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

近日,来自上海人工智能实验室、中科大、北大、清华等机构的研究者联合发布了UniPercept。这是首个统一了美学(Aesthetics)质量(Quality)结构与纹理(Structure & Texture)三个维度的感知级图像理解框架。



项目主页:https://thunderbolt215.github.io/Unipercept-project/

代码仓库:

https://github.com/thunderbolt215/UniPercept

论文地址:

https://arxiv.org/abs/2512.21675

模型权重:https://huggingface.co/collections/Thunderbolt215215/unipercept

相关工作 (ArtiMuse):

https://github.com/thunderbolt215/ArtiMuse

引言:

从「识别物体」到「感知图像」

当前,多模态大语言模型在目标检测、图像描述和视觉推理等语义级任务中表现卓越。然而,人类视觉感知不仅限于物体识别,还包括对构图美感、画质损伤、材质纹理以及结构规律性的细腻捕捉。

语义级理解关注的是「场景中有哪些实体」,而感知级理解则需要评估精细的、低层级的视觉外观,例如美学和谐度、降质严重程度或表面肌理。这些属性往往是微妙且主观的,对内容创作、图像增强及生成模型对齐至关重要。

为了填补这一空白,研究团队提出了UniPercept。该工作建立了层次化的感知属性定义系统,构建了大规模基准测试集UniPercept-Bench,并开发了一个通过领域自适应预训练和任务对齐强化学习训练的强基准模型。此外,研究团队还给出了UniPercept的下游应用实例,包括作为生成模型的奖励模型(Reward Model),以及作为生成模型评估的指标(Metrics)等。



UniPercept-Bench:

三位一体的全域感知评价体系


UniPercept 将感知级图像理解拆解为三个核心领域,构建了「领域 - 类别 - 准则」的三级层次结构,旨在全面覆盖人类对图像的视觉评价维度。

核心评估维度

  • 图像美学评估(IAA):侧重于构图设计、视觉元素与结构、情感和整体视觉吸引力等。它关注的是图像是否「好看」,探讨艺术表达与视觉平衡。

  • 图像质量评估(IQA):侧重于感知保真度和降质因素,如噪声、模糊、压缩伪影。它回答的是图像是否「技术性达标」。

  • 图像结构与纹理评估(ISTA):这是 UniPercept 首次系统化提出的维度,强调局部特征、几何规律性、材质属性(如平滑度、粗糙度)和细节丰富度。它回答的是图像的「场景、结构、纹理和构成与复杂程度」。



UniPercept-Bench 的定义体系分为三级细分,包含 3 个领域、17 个类别和 44 个细分准则,给出了专家级的细致定义体系,其精细程度远远超过此前的图像评估 Benchmark。

在具体定义上,它实现了从领域到准则的精密解构:例如从美学(IAA)领域,到「构图与设计(Composition & Design)」类别,深入到对「视觉平衡(Visual Balance)」这一微观准则的量化;或从场景解析(ISTA)领域,到「几何构成(Geometric Composition)」类别,细化到对「3D 体积(3D Volume)」隐含信息的提取。这种三级联动的体系,确保了模型能够从宏观的「整体感知」跨越到微观的「渲染精度」进行全方位、多维度的专家级评估。







任务形式与数据流水线


该基准支持视觉评分(Visual Rating, VR)视觉问答(Visual Question Answering, VQA)两种互补的任务形式。



为了确保数据质量,研究团队设计了三阶段自动化流水线:

  • 初始生成:利用先进多模态模型结合专业准则库生成候选问答对。
  • 拒绝采样:由异构判别模型对问题的有效性、答案的准确性及逻辑一致性进行五分制打分,剔除约 40% 的不合格样本。
  • 人工精修:组织专业志愿者进行手动核验,特别是对边界案例进行修改,确保最终结果与人类专家感知高度对齐。



UniPercept 模型:

领域自适应与任务对齐强化学习


为了使模型具备真正的感知能力,研究者采用两阶段框架对基础多模态模型进行持续演进。

领域自适应预训练(Domain-Adaptive Pre-Training)

研究团队整合了约 80 万个样本的大规模语料库,涵盖文本描述、结构化标注和数值评分。通过这一阶段,模型习得了跨领域的底层视觉特征,为其后续的精准判断打下了相应的感知基础。

任务对齐强化学习(Task-Aligned RL for VR & VQA)

这是提升模型感知一致性的关键。研究者采用了 GRPO 算法进行策略优化,并针对感知任务设计了特定的奖励函数:

  • 视觉问答(VQA)任务:采用二元奖励,鼓励模型输出准确的离散答案。
  • 视觉评分(VR)任务:创新性地设计了自适应高斯软奖励(Adaptive Gaussian Soft Reward)。该函数根据模型预测值与参考分数的偏差动态调整平滑系数。

这种软奖励机制提供了更平滑的梯度,避免了传统阈值奖励导致的优化不连续性。此外,模型引入了评分 Token 策略,直接从预测概率分布中导出数值,大幅缓解了模型生成数字时的幻觉倾向。



性能:

全面超越现有顶尖模型


研究团队在 UniPercept-Bench 上评估了包括商用闭源模型系列、领先开源系列以及针对美学和质量优化的专用模型在内的 18 个模型,UniPercept 在其中取得了显著优秀的表现。

视觉评分(VR)表现

在持续分数的回归任务中,大多数通用模型在没有针对性训练的情况下表现较差。相比之下,UniPercept 在所有三个领域(美学、质量、结构)中均取得了最高的斯皮尔曼相关系数(SRCC)和皮尔逊相关系数(PLCC)。尤其是在 ISTA 领域,UniPercept 填补了现有模型对细节纹理判断的空白。



视觉问答(VQA)表现

实验显示,即使是目前最顶尖的商业模型在处理精细感知问题时也显得吃力:

  • 图像美学评估(IAA)领域,UniPercept 的准确率超越了 GPT-4o 约 16 个百分点。
  • 图像质量评估(IQA)领域,UniPercept 在识别特定物体上的细微损伤(如运动模糊、压缩畸变)方面展现出极强的定位与判断能力。
  • 图像结构与纹理复杂度评估(ISTA)领域,模型能够准确分辨不同材质的表面特性(如镜面反射、亚光纹理),准确率突破 80%。







应用:

作为奖励模型/评估指标


UniPercept 展示了作为生成模型优化信号的巨大潜力。研究者将其作为奖励模型,整合进文生图模型的微调流水线中。UniPercept 主要从以下三个方面对生成模型进行优化:

  • 美学引导:显著改善生成图像的构图平衡和光影和谐度。
  • 质量引导:增强图像细节的锐度和清晰度,减少常见的伪影干扰。
  • 结构纹理引导:丰富了场景的复杂程度、结构的丰富度、物体的表面肌理,使画面表现更丰富。

不同奖励信号有着不同的优化侧重点,当三个维度的奖励信号协同作用时,生成的图像在视觉吸引力和技术保真度上均达到最优。





此外,UniPercept 天然可以作为从美学、质量、纹理与结构三方面对于图像进行评估的评估指标(Metrics),可以准确反映不同模型输出图像的各方面表现。



生成图像的全方位「感知档案」

UniPercept 还能为图像生成全方位的「感知档案」,不仅给出评分,还能从美学、质量、纹理与结构三个方面针对构图、执行精度、损伤位置等具体维度给出详细的文字解析与结构化输出。



结语


UniPercept 的提出,是多模态大模型的研究重心正在从单纯的语义识别,向更具挑战性的「感知图像」转化的重要一环。通过建立统一的评价基准、高效的数据生产线以及新颖的任务对齐学习策略,UniPercept 为未来的视觉内容评价与可控生成提供了一个强大的底座。它不仅是研究感知的有力工具,更是构建「感知闭环」系统的重要一步。

随着感知级理解能力的不断提升,人工智能将能够像人类艺术家一样,不仅能看懂画面中的故事,更能体会并创造出具备极致美感与精湛质感的视觉作品。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
郑丽文给足排场!赖清德或顾及影响放过蔡正元?想翻盘得看国民党

郑丽文给足排场!赖清德或顾及影响放过蔡正元?想翻盘得看国民党

乐天闲聊
2026-01-08 13:47:52
喜讯!黑龙江率先公布2026年退休人员养老金计发基数,涨多少?

喜讯!黑龙江率先公布2026年退休人员养老金计发基数,涨多少?

小彬说事
2026-01-09 11:42:58
赌诈头目陈志被押解回国!哥哥是同谋,他的妻子、父母也应被追责

赌诈头目陈志被押解回国!哥哥是同谋,他的妻子、父母也应被追责

王二哥老搞笑
2026-01-09 11:43:14
这下麻烦大了!不到48小时,闫学晶再迎2大噩耗,何庆魁也被牵连

这下麻烦大了!不到48小时,闫学晶再迎2大噩耗,何庆魁也被牵连

阿纂看事
2026-01-07 12:16:27
于正怕是比吃苍蝇还难受!被他弃用的两个好苗子,如今红的发烫

于正怕是比吃苍蝇还难受!被他弃用的两个好苗子,如今红的发烫

银河史记
2026-01-09 16:12:58
美媒:美企进军委内瑞拉面临多重风险

美媒:美企进军委内瑞拉面临多重风险

新华社
2026-01-09 15:13:02
U23国足0-0伊拉克!球员评分:1人满分,3人不及格,王钰栋非MVP

U23国足0-0伊拉克!球员评分:1人满分,3人不及格,王钰栋非MVP

侃球熊弟
2026-01-08 23:52:13
许晴一看就老了,竟然还没张凯丽显年轻!

许晴一看就老了,竟然还没张凯丽显年轻!

草莓解说体育
2026-01-07 09:12:50
韧带撕裂!欧文恐将赛季报销!三状元解体倒计时

韧带撕裂!欧文恐将赛季报销!三状元解体倒计时

篮球教学论坛
2026-01-09 12:28:37
曼城官宣塞梅尼奥:瓜迪奥拉为何需要强力新边锋?

曼城官宣塞梅尼奥:瓜迪奥拉为何需要强力新边锋?

体坛周报
2026-01-09 17:10:12
中国赚钱美国花?老戏骨祖孙3代在美奢华享乐过上“人上人”生活

中国赚钱美国花?老戏骨祖孙3代在美奢华享乐过上“人上人”生活

最美的巧合
2026-01-09 15:59:08
女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

女人染上“性瘾”是一种怎样的体验?可能和你想象得不同

纸上的心语
2025-11-23 11:36:00
胡明轩要交易?现身基地,曝胡明轩爸爸帮搬行李,谁注意杜锋表态

胡明轩要交易?现身基地,曝胡明轩爸爸帮搬行李,谁注意杜锋表态

乐聊球
2026-01-09 13:32:22
马杜罗被捕24小时之内,特朗普对华作出表态:中美不会有矛盾

马杜罗被捕24小时之内,特朗普对华作出表态:中美不会有矛盾

兵说
2026-01-08 16:02:00
谁把大闸蟹扔进了波特兰的河里?这只在桥底“散步”的美味,为什么吓坏了美国人?

谁把大闸蟹扔进了波特兰的河里?这只在桥底“散步”的美味,为什么吓坏了美国人?

万物杂志
2026-01-09 06:06:03
报应到!李在明登机离沪前中方禁令生效,菲日火速抱团对华

报应到!李在明登机离沪前中方禁令生效,菲日火速抱团对华

历史有些冷
2026-01-08 16:30:07
林强涉案989亿被抓!生活奢华超过中东富豪,妻子、父母也有责任

林强涉案989亿被抓!生活奢华超过中东富豪,妻子、父母也有责任

细品名人
2025-12-31 07:34:46
日本反扑了!宣布将派出30名议员窜访台湾,再度公然挑衅中国主权

日本反扑了!宣布将派出30名议员窜访台湾,再度公然挑衅中国主权

百态人间
2026-01-09 17:15:07
国安急需补强锋线!留洋中锋或成球队引援目标,曾攻破马竞大门

国安急需补强锋线!留洋中锋或成球队引援目标,曾攻破马竞大门

体坛鉴春秋
2026-01-09 16:28:22
泽连斯基:卡塔尔驻乌克兰使馆的建筑在俄袭击中受损

泽连斯基:卡塔尔驻乌克兰使馆的建筑在俄袭击中受损

鲁中晨报
2026-01-09 17:12:06
2026-01-09 18:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12088文章数 142532关注度
往期回顾 全部

科技要闻

市场偏爱MiniMax:开盘涨42%,市值超700亿

头条要闻

10岁抗癌"小王子"病情加重:用药都已无效 不能吃饭

头条要闻

10岁抗癌"小王子"病情加重:用药都已无效 不能吃饭

体育要闻

金元时代最后的外援,来中国8年了

娱乐要闻

檀健次恋爱风波越演越烈 上学经历被扒

财经要闻

投资必看!瑞银李萌给出3大核心配置建议

汽车要闻

英伟达的野心:做一套自动驾驶的“安卓系统”

态度原创

游戏
旅游
手机
数码
公开课

每天白赚10块钱!上KK官方对战平台免费玩DotA OMG4+2

旅游要闻

冬日入川,踏雪寻暖,赴一场冰与火的诗意邀约|长图

手机要闻

消息称奇鋐科技、安费诺供应苹果折叠屏iPhone铰链,两家各占50%

数码要闻

从清洁出发,走向智能生活:CES 2026上的MOVA全景式布局

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版