网易首页 > 网易号 > 正文 申请入驻

你的模型评测搭子上线:Evaluation Agent懂你更懂AI

0
分享至

本文作者来自于上海人工智能实验室与新加坡南洋理工大学,分别是张凡、田淑琳、黄子琪,指导老师是乔宇老师与刘子纬老师。

怎么快速判断一个生成模型好不好?

最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。

但问题是:

  • 朋友太忙,没法一条条帮你看;
  • 你问题太多,不只是想知道「好不好」,还想知道「哪里不好」「为啥好」「适不适合我」。

你需要一位专业、耐心、随叫随到的评估顾问。

于是,来自上海人工智能实验室 & 南洋理工大学 S-Lab 的研究者合作研发了一个AI 版本的「懂行朋友」——Evaluation Agent。

它不仅评测,还能听你提问、为你定制测试、写出人类专家一样的分析报告。

  • 你问「它拍古风视频怎么样?」,它就给你规划方案;
  • 你问「懂光圈焦距吗?」,它就设计针对测试;
  • 你想知道适不适合你,它还真能给出解释。

这就是视觉生成模型评估的新范式:

Evaluation Agent 入选 ACL 2025 主会 Oral 论文。

  • 论文:https://arxiv.org/abs/2412.09645
  • 代码:https://github.com/Vchitect/Evaluation-Agent
  • 网页:https://vchitect.github.io/Evaluation-Agent-project/
  • 论文标题:Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models

为什么选择 Evaluation Agent?

1. 可定制:你说关注点,它来定方案。

不同人对生成模型有不同期待 —— 风格?多样性?一致性?

只需用自然语言说出你的关注点,Evaluation Agent 就能:

  • 自动规划合适的评估流程
  • 根据中间结果灵活调整评估方向
  • 针对性地深入分析你关心的能力维度

真正实现「按需评估」,服务你的具体任务。

2. 高效率:更少样本,评得更快

传统评估动辄需要几千张样本,Evaluation Agent 通过多轮交互式评估与智能采样策略,大幅减少样本数量。整体评估过程的耗时可以压缩到传统方法的 10% 左右,尤其适合在迭代开发中快速反馈。

3. 可解释:让评估结果说人话

结果不仅是表格和数字,Evaluation Agent 会以自然语言生成分析报告,不仅涵盖模型能力的全面总结,还能指出模型的局限性和改进方向。

4. 可扩展:支持不同任务、工具、指标的集成

Evaluation Agent 是一个开放框架,支持集成新评估工具和指标,适用于不同的视觉生成任务(如图片生成和视频生成)。

框架工作原理

Evaluation Agent 框架主要由两个阶段组成:

1. 提案阶段(Proposal Stage)

  • Plan Agent:分析用户需求,动态规划评估路径。
  • PromptGen Agent:为每个子任务生成专属的评估提示(prompt)。

这一阶段的目标是:根据你的关注点,量身定制评估方案。

2. 执行阶段(Execution Stage)

框架利用视觉生成模型生成内容,并通过相应评估工具进行质量分析。

  • 视觉生成模型:根据上阶段设计的 prompt 生成样本
  • 评估工具包:根据提案阶段的规划选用合适的工具对采样内容进行评估

3. 动态多轮交互

评估不是一次性完成的。Execution 阶段的每一轮评估结果,都会反馈给 Proposal 阶段,用于优化后续 prompt 和任务设置。通过这种多轮协同,Evaluation Agent 实现了对模型能力的动态、深入评估。

结果展示

1. 对比传统评测框架

视频生成模型评测效率上与 VBench 评测框架的对比

图片生成模型评测效率上与 T2I-CompBench 评测框架的对比

研究团队在图片生成任务(T2I)和视频生成任务(T2V)上对 Evaluation Agent 进行了全面验证。结果表明,其评估效率显著高于现有基准框架(如 VBench、T2I-CompBench),相较于传统的评测框架节省了 90% 以上的时间,且评估结果具有较高一致性。

2. 用户开放式评估场景

对用户开放问题评估的部分样例

Evaluation Agent 不仅能够高效评估模型的表现,还能灵活处理用户提出的个性化评估需求,例如:

  • 模型能否生成特定历史场景的高质量视频?
  • 模型是否理解并能应用焦距、光圈、ISO 等摄影概念?

在处理用户的开放式查询时,Evaluation Agent 展现了卓越的灵活性和深度。它能够根据用户的定制需求,系统地探索模型在特定领域的能力,从基本问题开始,逐步动态深入,最终通过自然语言详细分析和总结评估结果。

例如,对于问题「模型是否能够在保持原始风格的同时生成现有艺术作品的变体?」,下面展示了完整的评估过程。

在 Evaluation Agent 工作中,开放式用户评估问题数据集(Open-Ended User Query Dataset) 是检验框架开放式评估能力的重要组成部分。该数据集为系统提供了多样化的评估场景,特别是在面临复杂的、用户特定的评估需求时,能够展现出系统的灵活性和动态评估能力。

开放式用户评估问题数据集首先通过用户调研收集了来自用户的一系列针对模型能力的开放问题。随后,经过数据清洗、过滤、扩展以及标签打标等处理,最终完成了数据集的构建。该数据集涵盖了广泛的评估维度,能够全面评估模型的各项能力。下图展示了该数据集在不同类别下的统计分布。

开放式用户评估问题数据集统计分布

前景与进一步计划

Evaluation Agent 的初步研究已经证明其在视觉生成模型评估中的高效性和灵活性。未来,该方向可能在以下领域进一步拓展和深入研究:

1. 扩展评估能力,涵盖更多视觉任务

  • 目前 Evaluation Agent 已适用于图像和视频生成模型,未来将扩展到3D 内容生成、AIGC 视频编辑等更复杂的生成任务。
  • 增加对多模态 AI(如结合文本、音频、视频的生成模型)的评估能力,探索不同 AI 模型在跨模态任务中的表现。

2. 优化开放式评估机制

  • 进一步完善开放式用户评估问题数据集,提升 Evaluation Agent 对复杂、抽象概念(如风格迁移、艺术融合、情感表达等)的理解和评估能力。
  • 引入强化学习机制,使 Evaluation Agent 能够利用基于用户反馈的数据实现自我优化,提高评估的精准性和适应性。

3. 从自动评测迈向智能推荐

  • 未来,该框架可拓展用于视觉生成模型的个性化推荐,依据用户的具体需求自动匹配最合适的生成模型,并生成详尽的评估报告。
  • 研究如何利用众包数据,收集不同领域的专业人士(如设计师、摄影师、影视制片人)对 AI 生成内容的反馈,以提升评估框架在多领域场景下的适应性和泛化能力。

总结

Evaluation Agent 提出了一种高效、灵活、可解释的视觉生成模型评估新范式。它突破了传统评估方式的限制,能够根据用户需求动态分析模型表现,为生成式 AI 的理解与优化提供支持。无论关注的是准确性、多样性,还是风格与创意,这一框架都能给出清晰、有针对性的评估结果。

研究团队希望这一方法能为视觉生成模型的评估带来新的思路,推动更智能、更灵活的评估体系发展。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
山东省青岛市委常委、副市长王波接受审查调查

山东省青岛市委常委、副市长王波接受审查调查

上观新闻
2026-04-20 11:38:04
买对了!4200万抢下“新德布劳内”,助瓜迪奥拉击败阿森纳

买对了!4200万抢下“新德布劳内”,助瓜迪奥拉击败阿森纳

里芃芃体育
2026-04-20 11:15:21
60岁大爷:每天早起以晨跑为由和情人约会,被老婆发现后遭报应

60岁大爷:每天早起以晨跑为由和情人约会,被老婆发现后遭报应

热心柚子姐姐
2026-04-19 11:56:40
炸穿台湾政坛!蒋友松强行迁走两蒋悬棺,半世纪漂泊终要归乡

炸穿台湾政坛!蒋友松强行迁走两蒋悬棺,半世纪漂泊终要归乡

陈漎侃故事
2026-04-14 17:28:18
超百万兵力集结,美伊总决战在即?中国态度已明确,和美奉陪到底

超百万兵力集结,美伊总决战在即?中国态度已明确,和美奉陪到底

无情有思ss
2026-04-17 01:20:47
为啥全世界都容不下犹太人?黑格尔一针见血:犹太教与世界对立

为啥全世界都容不下犹太人?黑格尔一针见血:犹太教与世界对立

通文知史
2026-04-18 17:15:03
拿伊朗没辙,美国转向马六甲,强行要印尼领空特权,中国底牌亮出

拿伊朗没辙,美国转向马六甲,强行要印尼领空特权,中国底牌亮出

流史岁月
2026-04-19 19:30:03
倒计时1天,赖清德将离台,蔡英文出山!解放军第一时间按住日本

倒计时1天,赖清德将离台,蔡英文出山!解放军第一时间按住日本

马浵在解说
2026-04-20 11:11:53
明天谷雨,牢记:1不晒、2要躲、3不坐、4要吃,寓意五谷丰登!

明天谷雨,牢记:1不晒、2要躲、3不坐、4要吃,寓意五谷丰登!

阿龙美食记
2026-04-19 11:50:47
笑得肚疼!你们都开始显老到什么程度了?网友:我开始吃桃酥了!

笑得肚疼!你们都开始显老到什么程度了?网友:我开始吃桃酥了!

夜深爱杂谈
2026-04-18 19:25:24
彻底撕破脸?《乘风2026》萧蔷当场罢录,一句身体不适,藏着对节目组的不满

彻底撕破脸?《乘风2026》萧蔷当场罢录,一句身体不适,藏着对节目组的不满

老吴教育课堂
2026-04-19 14:19:36
章泽天洛杉矶外媒生图美到发光!刘强东的脸盲,果然是顶级凡尔赛

章泽天洛杉矶外媒生图美到发光!刘强东的脸盲,果然是顶级凡尔赛

观鱼听雨
2026-04-17 22:15:44
三太陈婉珍昔日绝版照片,看得叫人心动,这才叫“倾国倾城”

三太陈婉珍昔日绝版照片,看得叫人心动,这才叫“倾国倾城”

汪巗的创业之路
2026-04-19 17:35:07
魏建军痛批魏牌团队不会营销、没有BBA的品位调性,魏牌CEO赵永坡致歉

魏建军痛批魏牌团队不会营销、没有BBA的品位调性,魏牌CEO赵永坡致歉

新浪财经
2026-04-19 11:41:20
“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

妍妍教育日记
2026-04-15 09:30:09
间谍就在我们身边!4月16日,央视报道了一个让人后背发凉的新闻

间谍就在我们身边!4月16日,央视报道了一个让人后背发凉的新闻

闻香阁
2026-04-20 11:20:59
许昕打球是不是厉害不敢说,他挑老婆这眼光,绝对属于天花板级别

许昕打球是不是厉害不敢说,他挑老婆这眼光,绝对属于天花板级别

眼界纵横
2026-04-19 19:23:11
爆料!全红婵网暴案真正的目的,原来是这个!

爆料!全红婵网暴案真正的目的,原来是这个!

艺利森
2026-04-18 09:19:15
92年我晋升副营长,选择嫁给乡下农民,大婚日发现丈夫的真正身份

92年我晋升副营长,选择嫁给乡下农民,大婚日发现丈夫的真正身份

红豆讲堂
2025-03-10 09:41:08
华为Pura 90 Pro Max将搭载麒麟9030 Pro:九核心架构设计 华为史上最强芯片

华为Pura 90 Pro Max将搭载麒麟9030 Pro:九核心架构设计 华为史上最强芯片

TechWeb
2026-04-20 12:11:03
2026-04-20 13:36:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12806文章数 142632关注度
往期回顾 全部

科技要闻

蓝色起源一级火箭完美回收 客户卫星未入轨

头条要闻

媒体:伊朗刚说不谈 美国立即开打

头条要闻

媒体:伊朗刚说不谈 美国立即开打

体育要闻

七大奖项候选官宣!文班或全票DPOY

娱乐要闻

鹿晗生日上热搜,被关晓彤撕下体面

财经要闻

月之暗面IPO迷局

汽车要闻

把天门山搬进厂?开仰望U8冲上45度坡的那刻 我腿软了

态度原创

数码
亲子
房产
旅游
公开课

数码要闻

EPOMAKER推出全配列磁轴键盘HE108,10000mAh电池续航500hr

亲子要闻

怀二胎的日子里,被五哈治愈的每一个笑点

房产要闻

官宣签约最强城更!海口楼市,突然杀入神秘房企!

旅游要闻

800年紫藤花开如瀑 最美宁阳四月天

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版