网易首页 > 网易号 > 正文 申请入驻

JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?

0
分享至



在迈向通用人工智能的道路上,我们一直在思考一个问题:现有的 Image Editing Agent,真的「懂」修图吗?

大多数基于 LLM/VLM 的智能体,本质上更像是一个「盲目的指挥官」。它们能流利地写出修图代码或调用 API,但在按下回车键之前,它们看不见画布上的变化,也无法像人类设计师那样,盯着屏幕皱眉说:「这张对比度拉太高了,得往回收到一点。」这种感知与决策的割裂,直接导致了「指令幻觉」,或者说模型在进行盲目的「脑补」。由于缺乏视觉反馈,模型往往凭空想象下一步操作,导致结果与用户的初衷南辕北辙。

此外,在传统强化学习中经常依赖于静态的奖励模型。随着模型的不断训练,它很容易学会如何「讨好」这个固定的打分器,导致Reward Hacking——即分数很高,但审美并没有真正提升。

为了打破这一僵局,JarvisEvo应运而生。它不仅仅是一个连接 Adobe Lightroom 的自动化工具使用者,更是一次大胆的探索:探索 Agent 如何通过「内省」,真正实现自我进化。



  • 论文标题:JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
  • 论文地址:https://www.arxiv.org/pdf/2511.23002
  • 项目主页:https://jarvisevo.vercel.app/
  • Github:https://github.com/LYL1015/JarvisEvo
  • Huggingface Daily Paper:https://huggingface.co/papers/2511.23002
  • 作者团队来自腾讯混元和厦门大学:Yunlong Lin*, Linqing Wang*, Kunjie Lin*, Zixu Lin*, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding♣, Chunyu Wang†, Qinglin Lu†

核心范式转移:

从「执行者」到「思考者」



JarvisEvo 的核心哲学在于模仿人类专家的慢思考模式。一个资深修图师的工作流永远是闭环的:观察原图 -> 构思 -> 尝试调整 -> 观察结果 -> 评估/反思 -> 再调整。我们将这一直觉转化为三大技术支柱:

iMCoT:让思维链「长出眼睛」

传统的思维链 (CoT) 是纯文本的独角戏。JarvisEvo 引入了iMCoT (Interleaved Multimodal Chain-of-Thought),将视觉反馈强行插入推理循环。

  • 打破黑盒:每执行一步工具(例如调整色温),系统立刻生成中间渲染图。
  • 动态规划:模型不再是一次性生成所有步骤,而是基于当前的视觉状态来决定下一步。它能「看到」上一具体操作带来的过曝或偏色,并即时修正。



SEPO:左手画图,右手打分

这是 JarvisEvo 最「性感」的设计。既然外部奖励模型容易被 Hack,那为什么不让 Agent 自己训练自己的审美?我们提出了SEPO (Synergistic Editor-Evaluator Policy Optimization),让模型在训练中分饰两角:

  • 编辑者 (Editor):负责干活,目标是修出好图。
  • 评估者 (Evaluator):负责挑刺,目标是精准打分。

这就形成了一种类似 GAN 但更复杂的协同进化:编辑者为了拿高分,必须提升修图质量;评估者为了不被人类专家「打脸」,必须提升鉴赏能力。为了防止模型「作弊」(即模型发现只要生成「100 分」的文本就能降低 Loss),我们设计了SLM (Selective Loss Masking)机制。这相当于老师在改卷时,遮住了学生自己写的「我给自己打满分」那一行,迫使学生只能靠前面的解题过程(推理和工具使用)来真正赢得高分。

On-Policy Reflection:从错误中提炼智慧

JarvisEvo 的第三个杀手锏是它的反思机制。

在 Stage 2 的训练中,我们构建了一个自动化流水线:当模型偶然修出了一张好图(高分轨迹),而之前某次尝试失败了(低分轨迹),系统会立刻捕捉这组对比。

通过引入「导师模型」(如 Gemini/GPT-4),我们让系统分析:「刚才那次为什么失败?是因为白平衡参数太激进了吗?」

这种生成的反思数据 (Reflection Data)被用于第三阶段的微调。最终,JarvisEvo 习得的不仅是「如何修图」,更是「当修坏了时如何自救」。



硬核工程:ArtEdit 数据集与训练流水线

为了支撑这套逻辑,我们没有使用通用的微调数据,而是从零构建了 ArtEdit:

  • 170K 专业样本:覆盖从风光到人像的 10 大类摄影场景。
  • 全工具链覆盖:完美映射 Adobe Lightroom 的 200+ 个参数。
  • 双视角数据:既有修图轨迹 (ArtEdit-Lr),也有人类专家的审美评分 (ArtEdit-Eval)。

我们的训练并非一蹴而就,而是采用了类似人类学习的三阶段课程 (Curriculum Learning):

  • 冷启动 (SFT):先学会工具怎么用,语法怎么写。
  • 协同进化 (RL/SEPO):扔掉标准答案,在自我探索中通过「左右互搏」提升上限。
  • 反思微调 (Reflection):针对易错点进行特训,学会自我纠错。



实验结果


ArtEdit-Bench 评测结果







在严苛的ArtEdit-Bench评测中,JarvisEvo 展现了统治力:

  • 内容保真度:相比商业模型 Nano-Banana,L1/L2 误差降低了44.96%。这意味着它在修图时不会破坏原图的画质细节。
  • 人类偏好:在盲测中,JarvisEvo 取得了49%的胜率,远超 Nano-Banana 的28%。
  • 审美对齐:更有趣的是,作为「裁判」,JarvisEvo 对图片质量的打分与人类专家的相关性 (SRCC 0.7243) 甚至超过了 Gemini-2.5-Flash。

视觉效果



在视觉效果上,JarvisEvo 专为细粒度专业调色而生。得益于其深度的意图理解、多模态推理以及独特的自我反思闭环,JarvisEvo 在处理复杂修图需求时,展现出了超越当前所有商业及开源 AIGC 模型的显著优势。

JarvisEvo vs. OpenAI X Adobe PhotoShop



出于好奇跑了一下 OpenAI 的新功能,虽然能调 PS,但感觉更像是 Workflow 的搭建,缺乏垂直数据的 Training。在我们的 Benchmark 上,论指令遵循和修图审美,目前的 JarvisEvo 表现明显还是要更好很多。

结语:

不仅是修图

JarvisEvo 的意义远超图像编辑本身。 它验证了一种「Actor-Critic 协同进化」的通用范式。这种让模型在内部建立「自我批评家」,并通过多模态反馈不断修正行动路径的方法,完全可以复用到复杂代码生成、数学推理、机器人控制等需要长程规划的领域。

我们正在见证 Agent 从「听话的执行者」向「会反思的创作者」的惊险一跃。而 JarvisEvo,刚刚迈出了这一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
2026年4月1日开始,粮食圈里要变天了,三项铁律同步落地

2026年4月1日开始,粮食圈里要变天了,三项铁律同步落地

小怪吃美食
2026-02-23 22:33:52
伊朗五大库尔德武装正式结盟,公开喊出推翻政权,地区风暴将至

伊朗五大库尔德武装正式结盟,公开喊出推翻政权,地区风暴将至

老马拉车莫少装
2026-02-23 22:26:24
以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

以色列已经告诉世界:日本若敢拥有核武器,美国并不会第一个翻脸

八斗小先生
2025-12-26 09:33:27
中国50后还有多少人?多少人能活到80岁?权威数据告诉你

中国50后还有多少人?多少人能活到80岁?权威数据告诉你

芭比衣橱
2026-02-19 21:00:42
你闻过最难闻的味道是什么?网友:从此对美女有阴影了!

你闻过最难闻的味道是什么?网友:从此对美女有阴影了!

另子维爱读史
2026-02-23 22:07:38
医生遇到过哪些“这居然都没死”的病人?网友:医生都惊呆了吧

医生遇到过哪些“这居然都没死”的病人?网友:医生都惊呆了吧

另子维爱读史
2026-02-23 20:50:11
特朗普访华泡汤?今年必须做个了断,中方红线已划,美国听懂信号

特朗普访华泡汤?今年必须做个了断,中方红线已划,美国听懂信号

晓肂爱八卦
2026-02-23 12:30:30
高速堵车照出真相:油车真没那么容易被淘汰!

高速堵车照出真相:油车真没那么容易被淘汰!

趣味萌宠的日常
2026-02-23 22:16:49
大批F16出动,美重兵逼近黄海,不到1天,特朗普:中方实力太强大

大批F16出动,美重兵逼近黄海,不到1天,特朗普:中方实力太强大

通文知史
2026-02-22 22:57:13
明天尾号限行恢复!本周六需要上班、不限行,北京迎降温可能有雪

明天尾号限行恢复!本周六需要上班、不限行,北京迎降温可能有雪

环球网资讯
2026-02-23 18:23:39
卡莱尔:哈利伯顿患上带状疱疹 将暂时离队数周!

卡莱尔:哈利伯顿患上带状疱疹 将暂时离队数周!

体坛周报
2026-02-23 10:30:13
破5.71亿,谢霆锋接住了吴京的戏,越剧小花一出场令全场惊艳

破5.71亿,谢霆锋接住了吴京的戏,越剧小花一出场令全场惊艳

电影烂番茄
2026-02-22 00:46:46
李健:不生孩子,不买房,不用微信,讨厌早睡早起,一天吃一顿饭

李健:不生孩子,不买房,不用微信,讨厌早睡早起,一天吃一顿饭

章眽八卦
2026-01-30 12:52:04
莱利:希望主教练的着装能回到西装加领带的时代

莱利:希望主教练的着装能回到西装加领带的时代

北青网-北京青年报
2026-02-23 19:34:04
火药味拉满!塔利班内政部长放狠话:巴基斯坦或将不复存在

火药味拉满!塔利班内政部长放狠话:巴基斯坦或将不复存在

老马拉车莫少装
2026-02-23 18:53:33
别再自欺欺人了,护工说出实话:进养老院的老人,很少能再回家

别再自欺欺人了,护工说出实话:进养老院的老人,很少能再回家

文青大叔说
2026-02-23 09:22:42
张学良最后的儿子走了:替美国造了一辈子火箭,却帮他爹还了愿

张学良最后的儿子走了:替美国造了一辈子火箭,却帮他爹还了愿

寒士之言本尊
2026-01-14 17:24:33
女生主动起来有多黏人?网友:这些女的太开放了

女生主动起来有多黏人?网友:这些女的太开放了

带你感受人间冷暖
2026-01-27 00:20:06
斯诺克无缝对接!中国16人上阵,丁俊晖不打,12冠王预定大红包!

斯诺克无缝对接!中国16人上阵,丁俊晖不打,12冠王预定大红包!

刘姚尧的文字城堡
2026-02-23 09:52:41
女人默许你“得手”从不主动靠近:这三种默许,已是最明确的信号

女人默许你“得手”从不主动靠近:这三种默许,已是最明确的信号

青苹果sht
2026-02-22 06:58:10
2026-02-23 23:55:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12330文章数 142569关注度
往期回顾 全部

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

头条要闻

外交部回应"中国只需打一个电话就能结束俄乌冲突"

头条要闻

外交部回应"中国只需打一个电话就能结束俄乌冲突"

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

家居
房产
手机
艺术
数码

家居要闻

本真栖居 爱暖伴流年

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

手机要闻

iPhone 18 Pro进入量产测试阶段 今年秋季发布

艺术要闻

十大名家画春,送给春天的你!

数码要闻

PC鲜辣报:显卡显存回归8GB配置,微星推芙丽莲联名显卡

无障碍浏览 进入关怀版