网易首页 > 网易号 > 正文 申请入驻

JarvisEvo 如何让 Agent 像人类一样拥有「视觉反思」能力?

0
分享至



在迈向通用人工智能的道路上,我们一直在思考一个问题:现有的 Image Editing Agent,真的「懂」修图吗?

大多数基于 LLM/VLM 的智能体,本质上更像是一个「盲目的指挥官」。它们能流利地写出修图代码或调用 API,但在按下回车键之前,它们看不见画布上的变化,也无法像人类设计师那样,盯着屏幕皱眉说:「这张对比度拉太高了,得往回收到一点。」这种感知与决策的割裂,直接导致了「指令幻觉」,或者说模型在进行盲目的「脑补」。由于缺乏视觉反馈,模型往往凭空想象下一步操作,导致结果与用户的初衷南辕北辙。

此外,在传统强化学习中经常依赖于静态的奖励模型。随着模型的不断训练,它很容易学会如何「讨好」这个固定的打分器,导致Reward Hacking——即分数很高,但审美并没有真正提升。

为了打破这一僵局,JarvisEvo应运而生。它不仅仅是一个连接 Adobe Lightroom 的自动化工具使用者,更是一次大胆的探索:探索 Agent 如何通过「内省」,真正实现自我进化。



  • 论文标题:JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
  • 论文地址:https://www.arxiv.org/pdf/2511.23002
  • 项目主页:https://jarvisevo.vercel.app/
  • Github:https://github.com/LYL1015/JarvisEvo
  • Huggingface Daily Paper:https://huggingface.co/papers/2511.23002
  • 作者团队来自腾讯混元和厦门大学:Yunlong Lin*, Linqing Wang*, Kunjie Lin*, Zixu Lin*, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding♣, Chunyu Wang†, Qinglin Lu†

核心范式转移:

从「执行者」到「思考者」



JarvisEvo 的核心哲学在于模仿人类专家的慢思考模式。一个资深修图师的工作流永远是闭环的:观察原图 -> 构思 -> 尝试调整 -> 观察结果 -> 评估/反思 -> 再调整。我们将这一直觉转化为三大技术支柱:

iMCoT:让思维链「长出眼睛」

传统的思维链 (CoT) 是纯文本的独角戏。JarvisEvo 引入了iMCoT (Interleaved Multimodal Chain-of-Thought),将视觉反馈强行插入推理循环。

  • 打破黑盒:每执行一步工具(例如调整色温),系统立刻生成中间渲染图。
  • 动态规划:模型不再是一次性生成所有步骤,而是基于当前的视觉状态来决定下一步。它能「看到」上一具体操作带来的过曝或偏色,并即时修正。



SEPO:左手画图,右手打分

这是 JarvisEvo 最「性感」的设计。既然外部奖励模型容易被 Hack,那为什么不让 Agent 自己训练自己的审美?我们提出了SEPO (Synergistic Editor-Evaluator Policy Optimization),让模型在训练中分饰两角:

  • 编辑者 (Editor):负责干活,目标是修出好图。
  • 评估者 (Evaluator):负责挑刺,目标是精准打分。

这就形成了一种类似 GAN 但更复杂的协同进化:编辑者为了拿高分,必须提升修图质量;评估者为了不被人类专家「打脸」,必须提升鉴赏能力。为了防止模型「作弊」(即模型发现只要生成「100 分」的文本就能降低 Loss),我们设计了SLM (Selective Loss Masking)机制。这相当于老师在改卷时,遮住了学生自己写的「我给自己打满分」那一行,迫使学生只能靠前面的解题过程(推理和工具使用)来真正赢得高分。

On-Policy Reflection:从错误中提炼智慧

JarvisEvo 的第三个杀手锏是它的反思机制。

在 Stage 2 的训练中,我们构建了一个自动化流水线:当模型偶然修出了一张好图(高分轨迹),而之前某次尝试失败了(低分轨迹),系统会立刻捕捉这组对比。

通过引入「导师模型」(如 Gemini/GPT-4),我们让系统分析:「刚才那次为什么失败?是因为白平衡参数太激进了吗?」

这种生成的反思数据 (Reflection Data)被用于第三阶段的微调。最终,JarvisEvo 习得的不仅是「如何修图」,更是「当修坏了时如何自救」。



硬核工程:ArtEdit 数据集与训练流水线

为了支撑这套逻辑,我们没有使用通用的微调数据,而是从零构建了 ArtEdit:

  • 170K 专业样本:覆盖从风光到人像的 10 大类摄影场景。
  • 全工具链覆盖:完美映射 Adobe Lightroom 的 200+ 个参数。
  • 双视角数据:既有修图轨迹 (ArtEdit-Lr),也有人类专家的审美评分 (ArtEdit-Eval)。

我们的训练并非一蹴而就,而是采用了类似人类学习的三阶段课程 (Curriculum Learning):

  • 冷启动 (SFT):先学会工具怎么用,语法怎么写。
  • 协同进化 (RL/SEPO):扔掉标准答案,在自我探索中通过「左右互搏」提升上限。
  • 反思微调 (Reflection):针对易错点进行特训,学会自我纠错。



实验结果


ArtEdit-Bench 评测结果







在严苛的ArtEdit-Bench评测中,JarvisEvo 展现了统治力:

  • 内容保真度:相比商业模型 Nano-Banana,L1/L2 误差降低了44.96%。这意味着它在修图时不会破坏原图的画质细节。
  • 人类偏好:在盲测中,JarvisEvo 取得了49%的胜率,远超 Nano-Banana 的28%。
  • 审美对齐:更有趣的是,作为「裁判」,JarvisEvo 对图片质量的打分与人类专家的相关性 (SRCC 0.7243) 甚至超过了 Gemini-2.5-Flash。

视觉效果



在视觉效果上,JarvisEvo 专为细粒度专业调色而生。得益于其深度的意图理解、多模态推理以及独特的自我反思闭环,JarvisEvo 在处理复杂修图需求时,展现出了超越当前所有商业及开源 AIGC 模型的显著优势。

JarvisEvo vs. OpenAI X Adobe PhotoShop



出于好奇跑了一下 OpenAI 的新功能,虽然能调 PS,但感觉更像是 Workflow 的搭建,缺乏垂直数据的 Training。在我们的 Benchmark 上,论指令遵循和修图审美,目前的 JarvisEvo 表现明显还是要更好很多。

结语:

不仅是修图

JarvisEvo 的意义远超图像编辑本身。 它验证了一种「Actor-Critic 协同进化」的通用范式。这种让模型在内部建立「自我批评家」,并通过多模态反馈不断修正行动路径的方法,完全可以复用到复杂代码生成、数学推理、机器人控制等需要长程规划的领域。

我们正在见证 Agent 从「听话的执行者」向「会反思的创作者」的惊险一跃。而 JarvisEvo,刚刚迈出了这一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
一城双超!深圳有望再添中超球队,签国安主帅,引梅州玉昆3外援

一城双超!深圳有望再添中超球队,签国安主帅,引梅州玉昆3外援

体坛鉴春秋
2025-12-24 12:09:45
入狱2年刑满释放!秦升:我不会8国语言 啥也不会 和老外各骂各的

入狱2年刑满释放!秦升:我不会8国语言 啥也不会 和老外各骂各的

念洲
2025-12-24 10:58:46
13年前,被父亲逼迫零下13度裸跑的4岁小男孩,如今过得怎么样?

13年前,被父亲逼迫零下13度裸跑的4岁小男孩,如今过得怎么样?

趣文说娱
2025-11-21 16:06:59
疯狂!范曾题字“湖平如镜”:照出徐家“产学研一体化”文物掠夺

疯狂!范曾题字“湖平如镜”:照出徐家“产学研一体化”文物掠夺

大江看潮
2025-12-23 09:45:16
妈妈偷偷给外公存了47万养老钱,春节返乡发现老家盖了别墅

妈妈偷偷给外公存了47万养老钱,春节返乡发现老家盖了别墅

小秋情感说
2025-12-24 14:29:53
重磅,胡明轩伤情出炉,新疆队更换外援,高诗岩疯狂删除球迷评论

重磅,胡明轩伤情出炉,新疆队更换外援,高诗岩疯狂删除球迷评论

体坛小快灵
2025-12-24 15:28:03
这会要了美国命!IMF要求人民币升值:美国第一个反对,中国说再等等

这会要了美国命!IMF要求人民币升值:美国第一个反对,中国说再等等

通鉴史智
2025-12-24 07:18:24
陈豪一家搬入半山豪宅,月租16万与蔡卓妍为邻,一人负担全家开销

陈豪一家搬入半山豪宅,月租16万与蔡卓妍为邻,一人负担全家开销

动物奇奇怪怪
2025-12-24 10:06:16
中方拒不接受!美方索赔1700亿,美法院:考虑没收中方在美资产

中方拒不接受!美方索赔1700亿,美法院:考虑没收中方在美资产

知法而形
2025-12-23 21:29:02
欧盟不断给乌克兰贷款的真相,被匈牙利当场揭发,真相震惊世界!

欧盟不断给乌克兰贷款的真相,被匈牙利当场揭发,真相震惊世界!

青青子衿
2025-12-23 23:41:14
失业的人越来越多了

失业的人越来越多了

曹多鱼的财经世界
2025-12-24 14:56:20
憋尿看完阿凡达3,我连连感慨:留给好莱坞的时间,真的不多了

憋尿看完阿凡达3,我连连感慨:留给好莱坞的时间,真的不多了

糊咖娱乐
2025-12-22 17:14:59
故事:山东一男子救下5只黄鼠狼后,身上频发怪事,至今都难以解释

故事:山东一男子救下5只黄鼠狼后,身上频发怪事,至今都难以解释

清茶浅谈
2024-12-04 14:29:09
三千年完好 一朝受损——南京博物院一级文物西周玉鹿受损记

三千年完好 一朝受损——南京博物院一级文物西周玉鹿受损记

老鹰哥
2025-12-22 11:51:40
王毅一锤定音,泰国开出停火条件,洪森倒向美国,最大输家已定

王毅一锤定音,泰国开出停火条件,洪森倒向美国,最大输家已定

策前论
2025-12-19 20:01:58
俄被曝或正研发新式反卫星武器,目标SpaceX“星链”

俄被曝或正研发新式反卫星武器,目标SpaceX“星链”

凤凰卫视
2025-12-24 10:59:07
杨澜母女合照首曝光!让人惊掉下巴,这女儿浪费了老妈的颜值基因

杨澜母女合照首曝光!让人惊掉下巴,这女儿浪费了老妈的颜值基因

娱圈小愚
2025-12-23 10:29:58
剧终!南京博物院 剧本只能写到省委调查组进驻西康宾馆

剧终!南京博物院 剧本只能写到省委调查组进驻西康宾馆

八斗小先生
2025-12-24 09:47:17
婚变传闻后,罗晋携任素汐与母亲去祈福,撕碎了唐嫣最后一丝体面

婚变传闻后,罗晋携任素汐与母亲去祈福,撕碎了唐嫣最后一丝体面

姩姩有娱
2025-12-22 18:32:13
国足新集训名单浮现!邵佳一清洗30岁老将 40名中国球员效力欧洲

国足新集训名单浮现!邵佳一清洗30岁老将 40名中国球员效力欧洲

侃球熊弟
2025-12-24 00:05:03
2025-12-24 18:08:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11988文章数 142517关注度
往期回顾 全部

科技要闻

智谱和MiniMax拿出了“血淋淋”的账本

头条要闻

韩国财阀千金在柬埔寨被捕 被指涉嫌参与性交易和贩毒

头条要闻

韩国财阀千金在柬埔寨被捕 被指涉嫌参与性交易和贩毒

体育要闻

26岁广西球王,在质疑声中成为本土得分王

娱乐要闻

曝阚清子女儿早产但没保住

财经要闻

重磅!北京市优化调整住房限购政策

汽车要闻

“运动版库里南”一月份亮相   或命名极氪9S

态度原创

数码
健康
教育
房产
军事航空

数码要闻

售价超10万元的顶级笔记本!Eurocom新品用上256GB DDR5、RTX 5090

这些新疗法,让化疗不再那么痛苦

教育要闻

家校共育大课堂 | 运动享健康,家校护成长

房产要闻

硬核!央企海口一线江景顶流红盘,上演超预期交付!

军事要闻

"九三"受阅女民兵:96米需踢出128个正步 每步75厘米

无障碍浏览 进入关怀版