网易首页 > 网易号 > 正文 申请入驻

CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA

0
分享至

文章转载于量子位

今年,CVPR共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.1%。

录用论文上来看,多模态相关内容仍是关注重点。

上海交通大学-美团计算与智能联合实验室发布的论文也被录用,论文提出了Q-Eval-100K数据集与Q-Eval-Score评估框架。

论文致力于解决以下问题:

  • 现有的文本到视觉评估数据集存在关键评估维度缺乏系统性、无法区分视觉质量和文本一致性,以及规模不足等问题;

  • 评估过程复杂、结果模糊,难以满足特定评估需求,限制了基于大模型的评估模型在实际场景中的应用

相关实验也表明数据集和方法在评估结论和泛化性方面都做到的当前业界的领先水准。

在下表中可以看到数据集Q-Eval-100K的实例数量和人工标注数量远超其他数据集,可以说Q-Eval-100K是当前最大的AIGC评估数据集。

同时跨数据集验证显示,在Q-Eval-100K上训练的模型在GenAI-Bench数据集上表现出色,远超当前先进方法,充分证明了Q-Eval-100K数据集的泛化价值。

数据集Q-Eval-100K开启了文本到视觉内容评估的新时代,同时Q-Eval-Score提供一个开源的较为准确客观的AIGC打分框架,可用于对AIGC图片视频生成类模型的评估。

Q-Eval-100K数据集共计包含了100K的AIGC生成数据(其中包含60k的AIGC图片以及40k的AIGC视频)。

接下来,将对Q-Eval-100K数据集与Q-Eval-Score评估框架进行详细介绍。

1

数据集构建

在数据集构建上,团队确保遵循三个原则:

1)保证数据多样性。为了收集到接近真实场景下多样性的数据集,团队从三个大的维度出发构建了对应的prompt集,这三个大的维度可以被划分为实体生成(people,objects,animals,etc.),实体属性生成(clothing,color,material,etc.),交叉能力项(backrgound,spatialrelationship,etc.),通过对于不同维度数据的比例控制,确保了prompt数据的多样性。同时,团队还使用了当前SOTA开源或者API的AIGC模型进行数据生成,从而确保了生成数据的高质量。这些AIGC模型包括FLUX,Lumina-T2X,PixArt,StableDiffusion 3,CogVideoX,Runway GEN-3,Kling等。

2)高质量的数据标注。团队招募了200多名经过培训的人员进行人工打分标注,从这些人员手中收集了超过960k条相关数据的打分信息。经过人工严格的筛选和过滤后,最终得到了这100k AIGC数据以及其对应的一致性/质量标注数据。通过这样的方式,可以确保标注数据与人类偏好的高度一致性,从而提升了Q-Eval-Score评估框架的一致性与泛化能力。

3)视觉质量和文本一致性解耦标注。团队观察到当前对于AIGC模型质量的研判主要聚焦于视觉质量和文本一致性两个方面,因此,在数据集构建的过程当中将两个维度拆分开标注,以确保Q-Eval-Score可以同时对这两个维度进行评估。如下图所示,在统计了多个AIGC模型的视觉质量和文本一致性mos分后,团队发现两个维度上模型的表现存在一定的差异性,因此也说明了将两个维度解耦的必要性。

以上数据集已在AGI-Eval社区评测集专区上线。

1

统一评估框架

在Q-Eval-100k的基础上,团队训练得到了Q-Eval-Score评估框架,该框架将数据集转换为监督微调(SFT)数据集,以特定上下文prompt格式训练大语言模型(LMM),使其能够独立评估视觉质量和文本一致性。

模型训练

首先,团队构建一个上下文prompt数据集用于大模型的SFT过程,模版如下:

再将人工标注打分按照1-5分分别映射到5个档位{Bad,Poor,Fair,Good,Excellent}上,以确保数据可用于大模型SFT,人工标注打分映射的过程如下所示。

通过将五档得分的logits概率与权重加权得到最终得分,权重1-0分别表示从Excellent到Bad的得分映射。

在模型上,团队选择了当前在图像视频理解上性能较为优异的Qwen2-VL-7B-Instruct模型进行SFT微调,在微调时同时启用CE Loss和MSELoss,用于监督模型打分能力的提升。

长prompt对齐问题

在文本一致性上,团队发现在处理长prompt(超过25个词长)的场景时,常会低估对应的分数,这通常是由于训练集当中出现的较长提示词占比较少导致。

因此,针对长提示词对齐评估难题,团队创新性地提出“Vague-to-Specific”策略,将长提示词拆分为模糊提示词和多个具体提示词分别评估,再综合计算最终得分。

对于模糊提示词,团队按照常规方式计算对齐度得分。

然而,对于特定提示词来说这个策略并不合适,因为每个特定提示词只涉及视觉内容的一部分。

受VQAScore方法的启发,团队将问题修改为更温和的形式,例如“Doestheimage/videoshow[prompt]?”,以此来评估每个特定提示词的对齐度。

最后,团队使用加权方法结合模糊提示词和特定提示词的结果,计算最终的对齐分数:

1

实验结论

在视觉质量评估方面,Q-Eval-Score在图像和视频的测试中均表现优异,其预测得分与人工打分的斯皮尔曼等级相关系数(SRCC)和皮尔逊线性相关系数(PLCC)超越了当前所有的SOTA模型。

在文本一致性上,Q-Eval-Score同样优势显著,在图像和视频的测试中,其Instance-level的SRCC分别领先其他的sota模型6%和12%。

消融实验表明,研究中提出的各项策略和损失函数对模型性能提升贡献显著。

在长提示词子集测试中,“Vague-to-Specific”策略有效提高了评估性能;

Q-Eval-100K和Q-Eval-Score的出现意义重大。它们为文本到视觉模型的评估提供了更可靠、全面的方案,有助于推动生成式模型的进一步发展和实际应用。未来,这一研究成果有望为相关领域的发展奠定坚实基础,助力文本到视觉技术迈向新高度。

AGI-Eval评测社区也一直致力于共创如“Q-Eval-100k数据集”这样优秀的数据集,在模型评测领域深耕,旨在打造公正、可信、科学、全面的评测生态以“评测助力,让AI成为人类更好的伙伴”为使命。

在评测集社区板块有行业公开学术评测集,支持用户下载使用;官方自建评测集,涉及多领域的模型评测;以及用户自建评测集,平台支持用户上传个人评测集,共建开源社区。

论文链接:
https://arxiv.org/abs/2503.02357
AGI-Eval评测集专区:https://agi-eval.cn/evaluation/Q-Eval-100K?id=55

点个“爱心”,再走吧

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
霸权还没崩,青楼先崩了:拉千万欧美女孩下海的大佬暴毙

霸权还没崩,青楼先崩了:拉千万欧美女孩下海的大佬暴毙

美第奇效应
2026-03-24 16:51:33
国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

国足VS库拉索:留洋小将坐镇中场,韦世豪王钰栋领衔,张玉宁冲锋

零度眼看球
2026-03-26 07:23:48
张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

张雪峰离世1天后,才发现女儿名字取得暗藏深意,字字都有来头

阿纂看事
2026-03-25 16:29:49
大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

大意了!张雪峰不同时段坐姿,证明他越来越疲惫了,可惜错过了

魔都姐姐杂谈
2026-03-26 10:53:11
溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

溥仪晚年见老宫女乞讨,问她为何不嫁人?宫女:我们这些人怎么嫁

千秋文化
2026-01-29 21:22:16
张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

张雪峰去世后续!办公室内景曝光,门口堆满鲜花,写真照前放香炉

潮鹿逐梦
2026-03-26 11:53:28
“只要决心够大,诺贝尔奖不在话下!”

“只要决心够大,诺贝尔奖不在话下!”

槽逻辑
2026-03-24 18:46:27
坎宁安无缘评奖!65场限制引众怒!NBA官方正式回应

坎宁安无缘评奖!65场限制引众怒!NBA官方正式回应

篮球教学论坛
2026-03-26 15:29:08
Anthropic版“龙虾”来了:直接操控用户电脑,但每一步都会请求许可

Anthropic版“龙虾”来了:直接操控用户电脑,但每一步都会请求许可

澎湃新闻
2026-03-25 14:18:26
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

“写作业就头痛,睡一觉又好了”,江苏一家长以为孩子装病逃避学习,为探究竟带往医院,结果孩子突发脑出血,被送ICU,家属:正在恢复中

潇湘晨报
2026-03-26 11:49:57
吃饺子没蘸酱油进监狱了,这是真的

吃饺子没蘸酱油进监狱了,这是真的

深度报
2026-03-25 22:55:01
小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

小伙领证5小时后失踪,新婚妻子继承全部遗产,真相让人不寒而栗

碎碎纪实
2026-03-26 11:07:33
火车站“老师儿!出租车在这乘坐”标语引热议,网友称一看就是山东济南,车站工作人员:在当地这是尊称

火车站“老师儿!出租车在这乘坐”标语引热议,网友称一看就是山东济南,车站工作人员:在当地这是尊称

极目新闻
2026-03-26 12:06:40
过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

过分!一大V讽刺张雪峰:称少一个鼓吹战争的疯子,对世界更美好

谈史论天地
2026-03-26 07:56:52
见证历史,中国让Open AI绝望了!

见证历史,中国让Open AI绝望了!

君临财富
2026-03-25 23:36:26
重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

重返广东!李春江有了新工作,亮相篮球场,岗位曝光,杜锋期待

萌兰聊个球
2026-03-26 13:02:53
全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

红星新闻
2026-03-25 23:19:21
油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

油价反转!95号汽油破9元后迎下调,4月7日调价最新预测

复转这些年
2026-03-26 09:40:14
传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

传张雪峰二婚妻子清纯甜美:去年已生子,11岁女儿遗传继承恐生变

博士观察
2026-03-25 21:33:04
2026-03-26 15:39:00
硅星人 incentive-icons
硅星人
硅(Si)是创造未来的基础,欢迎来到这个星球。
2959文章数 10472关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

头条要闻

上海妈妈寻亲27年悬赏市区一套房:不用尽孝 要个拥抱

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
教育
旅游
公开课
军事航空

艺术要闻

哪一座桥不是风景?

教育要闻

教育部部署开展2026年全国中小学生安全教育周活动

旅游要闻

济南动物园“花朝荟”系列活动浪漫上演

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版