网易首页 > 网易号 > 正文 申请入驻

Meta J1系列模型:破解判断模型难题的新利器

0
分享至

IT之家 5 月 22 日消息,科技媒体 marktechpost 昨日(5 月 21 日)发布博文,报道称 Meta 公司推出 J1 系列模型,通过强化学习和合成数据训练,显著提升判断模型准确性和公平性。

项目背景

大型语言模型(LLM)正在突破传统角色,逐步承担起评估与判断的重任。这种“LLM-as-a-Judge”的模式,让 AI 模型能够审查其他语言模型的输出,成为强化学习、基准测试和系统对齐的重要工具。

不同于传统的奖励模型直接打分,判断模型通过内部链式推理(chain-of-thought reasoning)模拟人类思考,特别适合数学解题、伦理推理和用户意图解读等复杂任务,还能跨语言和领域验证回应,推动语言模型开发的自动化和扩展性。

不过“LLM-as-a-Judge”模式目前面临的挑战是一致性差和推理深度不足,许多系统依赖基本指标或静态标注,无法有效评估主观或开放性问题;另一个问题就是位置偏见(position bias)答案顺序常影响最终判断,损害公平性。

此外,大规模收集人工标注数据成本高昂且耗时,限制了模型的泛化能力。EvalPlanner 和 DeepSeek-GRM 等现有解决方案依赖人工标注或僵化训练模式,适应性有限。

J1 模型的创新突破

为解决上述问题,Meta 的 GenAI 和 FAIR 团队研发了 J1 模型。J1 通过强化学习框架训练,采用可验证的奖励信号学习,使用 22000 个合成偏好对(包括 17000 个 WildChat 语料和 5000 个数学查询)构建数据集,训练出 J1-Llama-8B 和 J1-Llama-70B 两款模型。

团队还引入 Group Relative Policy Optimization(GRPO)算法,简化训练过程,并通过位置无关学习(position-agnostic learning)和一致性奖励机制消除位置偏见。

J1 支持多种判断格式,包括成对判断、评分和单项评分,展现出极高的灵活性和通用性。

测试结果显示,J1 模型性能大幅领先。在 PPE 基准测试中,J1-Llama-70B 准确率达 69.6%,超越 DeepSeek-GRM-27B(67.2%)和 EvalPlanner-Llama-70B(65.6%);即便是较小的 J1-Llama-8B,也以 62.2% 的成绩击败 EvalPlanner-Llama-8B(55.5%)。

J1 还在 RewardBench、JudgeBench 等多个基准测试中展现出顶级表现,证明其在可验证和主观任务上的强大泛化能力,表明推理质量而非数据量,是判断模型精准的关键。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

巴蒂:马拉多纳离世时身边没有人,最后走得像条狗一样

懂球帝
2026-03-26 06:43:02
养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

养肥了再宰?蒙古对西方巨头下手了,这一刀也给中国提了个醒

财经保探长
2026-03-19 19:39:45
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
国防部:菲方侵权挑衅只会遭到更加坚决应对

国防部:菲方侵权挑衅只会遭到更加坚决应对

界面新闻
2026-03-26 16:00:27
朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

朝鲜战场缴获美军火箭筒,拆解惊觉技术差距改写陆军征程

唠叨说历史
2026-03-18 13:40:57
TVB宣布拟改名!以后要叫你...

TVB宣布拟改名!以后要叫你...

东莞潮事儿
2026-03-26 12:32:15
美以军事打击已致伊朗243名师生丧生

美以军事打击已致伊朗243名师生丧生

新京报
2026-03-25 15:05:13
全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

全国禁赛5年!凉山队一球员不满判罚赛后飞踹拳击裁判,此前已被四川省内禁赛5年

红星新闻
2026-03-25 23:19:21
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
姐弟失散33年终团圆:认亲第二天闹掰,弟弟撂狠话,直播片段曝光

姐弟失散33年终团圆:认亲第二天闹掰,弟弟撂狠话,直播片段曝光

刘哥谈体育
2026-03-26 11:47:19
自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

自作自受!欧尔班硬刚欧盟阻援乌,160亿欧元信贷被直接冻结

老马拉车莫少装
2026-03-26 10:24:28
老板娘的丝袜都破了,我要不要告诉她买一双?

老板娘的丝袜都破了,我要不要告诉她买一双?

太急张三疯
2026-03-26 12:50:15
沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

沙特实战封神!中国“天盾”21发21中,美方2亿美元系统差距在哪

霁寒飘雪
2026-03-26 14:51:57
14.99万!“史上最便宜”特斯拉来了

14.99万!“史上最便宜”特斯拉来了

首席品牌观察
2026-03-24 16:18:39
一名重大经济犯罪嫌疑人被押解回国

一名重大经济犯罪嫌疑人被押解回国

新华社
2026-03-26 15:00:03
深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳多处出现,一大批人都在偶遇!网友:“我都舍不得踩!”

深圳晚报
2026-03-26 10:20:44
女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

女孩当小姐,一晚要提供4到5次上门服务,被亲人点到不赴约

情感艺术家
2026-02-26 10:48:00
海关总署署长孙梅君到广东调研

海关总署署长孙梅君到广东调研

证券时报
2026-03-26 13:26:01
朝鲜国运来了!中东大战,又是朝鲜闷声发大财?

朝鲜国运来了!中东大战,又是朝鲜闷声发大财?

北向财经
2026-03-24 22:17:38
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
2026-03-26 17:11:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336056文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

头条要闻

国防部:日本侵略过所有周边国家 至今都没有真正反省

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
健康
旅游
亲子
公开课

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

转头就晕的耳石症,能开车上班吗?

旅游要闻

德阳绵竹:赏花、览文旅精品......沿山旅游“火”起来

亲子要闻

妈妈是时尚小达人爸爸是朴素老模范!我要当爸爸的专属赞助人

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版