网易首页 > 网易号 > 正文 申请入驻

告别复杂提示词!蚂蚁新方式让AI自动理解你的个性化需求

0
分享至

AntResearchNLP团队 投稿
量子位 | 公众号 QbitAI

相信大家都有这样一个体验。

跟AI无论什么对话,感觉都是说空话套话。





有时候为了让AI懂自己,许多用户甚至不得不学习复杂的“提示词技巧”,手动编写长长的指令,像是在给AI做“岗前培训”。



那么如何实现高情商AI?蚂蚁通用人工智能研究中心自然语言处理实验室提出了一个叫AlignXplore的方法——

通过强化学习,AlignXplore能够通过深度思考从用户行为中归纳出他/她的偏好,并且这种对人类偏好的洞察可以随着用户行为的变化而动态更新。

更有趣的是,当把归纳好的偏好描述迁移到一个下游对齐模型时,能够让这个模型的个性化对齐能力得到显著提升。



如何让AI真正懂你?

如何让AI真正“懂”你?我们需要让AI从一个“规则执行者”进化成一个“模式发现者”。

这意味着,它要掌握一种被认为是人类智慧核心的能力——归纳推理(Inductive Reasoning)。


△“千人一面”的对齐方式无法满足用户多样的个性化需求,红字蓝

事实上,AI早已对演绎推理(Deductive Reasoning)驾轻就熟,具备令人惊叹的数学解题和代码编写能力。

你给它一个确定的前提(如“求解二次方程 ax²+bx+c=0”)和一套不变的规则(求根公式),它就能通过一步步严密的逻辑推演,给出一个唯一、可验证的正确答案。这是一个典型的“自上而下”(Top-Down)的过程:从普适的公理或规则出发,推导出一个具体的、必然的结论。 在这个世界里,没有模糊地带,只有对与错。

而归纳推理则完全相反,它是一个自下而上(Bottom-Up)的过程:它没有预设的“个人说明书”。它的“线索”就是你的每一个行为: 你追问了什么问题,说明你关心什么;你跳过了哪个回答,说明你不喜欢什么风格;你对哪个笑话点了赞,暴露了你的幽默感。它的“任务”就是从这些海量的、碎片化的行为数据中,提炼出专属于你的互动模式与偏好规律。通过归纳推理,AI有潜力成为你的“知心姐姐”,主动拼凑出一个完整的你。

举个例子,让我们来扮演一次AI知心姐姐,看看它是如何通过两次看似无关的对话,就精准捕捉到你的“潜台词”的:

  • 第一次交互:你问“什么是人工智能?它在商业和生活中是怎么用的?”。AI会立刻开始在幕后推理你的偏好:“你可能对AI技术有特别的兴趣,但似乎更关心实际应用,也许是商业导向”。
  • 第二次交互:你想学习冥想,在两个候选回答中,你选择了提供具体步骤的那个,而不是阐述冥想哲学的回答。AI会立刻更新它对你偏好的理解:“你的偏好是获取能解决眼前需求的、务实的指导,而不是理论探讨。”

这种渐进式的学习和优化,让AI的“记忆”不再短暂。随着一次次的交互,它会不断收集新的线索,验证并修正之前的假设,对你的“人物画像”进行一次又一次的精修。最终,它不再是被动回答问题的机器,而是在主动地、持续地学习和理解你是谁。

这,就是我们通向真正个性化AI的第一步。

AlignXplore

AlignXplore的训练包括两个阶段。



第一阶段:冷启动训练(Cold-start Training)——拜师学艺

研究团队首先引入一个更强大的AI作为“导师模型”



。这个导师会生成大量高质量的“教学案例”。对于每个用户的行为信号集合





会生成多组候选的推理链r和相应的偏好描述d利用奖励函数R(r,d)进行筛选来获取高质量数据



。通过在



上进行SFT,实现偏好归纳模型的冷启动。



其中



代表可能存在的历史偏好,而G是为每个实例生成的候选样本数量。这里奖励函数定义为:



其中,



是下游大语言模型R对回复的偏好打分函数。这个通用的奖励框架可以被实例化为两种具体的奖励函数,用于模型的训练与评估:

1、



(基于偏好判断的奖励)

R作为一个偏好判断模型,直接评估在给定推断出的偏好d后 “





更好”的概率,最大化与用户真实偏好的一致性:





提供了更稳定和有效的训练信号,是AlignXplore在训练和评估中采用的核心奖励函数。

2、



(基于生成概率的奖励)

R作为一个回复生成模型,衡量在加入偏好描述d前后,模型生成较优回复



与生成较差回复



间的对数概率差值是否有提升:



第二阶段:强化学习(Reinforcement Learning)——实战修行

在这一阶段,采用GRPO算法训练,模型会针对用户的行为,尝试生成多种不同的推理路径和偏好结论



。随后,系统会根据这些结论的准确性给予“奖励”或“惩罚”。通过这种不断的试错和优化,模型学会了如何将初步的分析提炼成更精准、更具指导性的判断。

优化策略定义如下:



流式偏好推断机制

AlignXplore模型支持流式偏好推断机制,即不再需要反复回看用户冗长的历史记录,而是像处理一条源源不断的数据流一样,实时、增量地更新对用户的理解——就像它在之前的例子中发现用户“务实导向”的风格一样。

这种“流式”设计带来的好处是显而易见的:

首先,它大大提高了生成效率;

其次,它极为灵活,当用户从休闲模式切换到工作状态时,它能迅速迭代出一个新的“工作版”偏好,而不是固执地用旧眼光看用户。这才是真正能跟上用户节奏的动态进化系统。

实验结果

在域内测试集AlignX_test和域外测试集P-Soups上,AlignXplore模型在个性化对齐任务上取得了显著的成功,相较于基座模型DeepSeek-R1-Distill-Qwen-7B平均提升了15.49%。


△AlignXplore与各种推理/非推理模型在域内外数据集上的表现

更重要的是,它展现了强大的综合能力:

高效性: 即使互动历史变得非常长,流式推理机制也能保持稳定的响应速度和准确率,不会像传统方法那样需要每次编码所有行为信号致使越来越慢。


△随着互动的进行,流式推理机制下的响应速度和准确率都保持稳定

泛化能力:它不仅能处理特定的反馈数据,还能从用户发布的帖子user-generated content (UGC)等不同形式的内容中学习,并且其推断出的偏好也能成功地应用于与训练时不同的下游模型,包括QwQ-32B、DeepSeek-R1-671B等。


△泛化性实验

鲁棒性:即使用户的偏好发生改变甚至反转,AlignXplore也能灵活适应,不会产生剧烈的效果波动。


△即便反转初始行为信号的偏好,流式推理机制也能让模型灵活调整

总结

该工作第一作者为人大高瓴一年级博士生李嘉楠,目前在蚂蚁实习;蚂蚁通用人工智能研究中心自然语言处理实验室关健、武威为共同第一作者、通讯作者。

AlignXplore是大模型个性化路上的一个全新的尝试。在SOTA结果的背后,这项研究其实有很多思考:

  • 在智力上限被一波又一波推高的当下,如何规模化训练大模型“情商”是一个没有得到足够关注却又十分重要的问题。毕竟谁会拒绝一个既聪明又有温度的AI呢?
  • 深度思考下的长思维链是大模型智能能力的主要推动力。深度思考本身消耗巨大,那么如果只用来刷分,是不是有点浪费呢?相比于结果,推理过程中产生的知识是不是更有价值呢?AlignXplore可以看作是推理知识在用户理解领域进行迁移应用的一个尝试。毕竟相对于艰深的数学知识,用户理解知识更容易被看懂,也更容易落地。
  • 如果客观问题都很快会被AI解决,那么主观问题该怎么办呢?这个世界上到底是客观问题多还是主观问题多呢?无论如何,研究团队认为个性化是通往主观世界的一条重要通道,而AlignXplore是在这条通道上的一次大胆尝试。期待未来有更多相关研究能够涌现。

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
随着火箭加时117-113险胜魔术,看看数据,谁是赢球最大功臣!

随着火箭加时117-113险胜魔术,看看数据,谁是赢球最大功臣!

田先生篮球
2025-11-17 12:44:07
“中国人滚出蒙古!”为何外蒙古对中国人充满敌意

“中国人滚出蒙古!”为何外蒙古对中国人充满敌意

南权先生
2025-09-16 10:02:18
蔡崇信的“第一把火”——“阿里版顺丰”,静悄悄地撤退了

蔡崇信的“第一把火”——“阿里版顺丰”,静悄悄地撤退了

新商业派
2025-11-17 11:21:45
西部要变天,雷霆慌了!特雷杨有望加盟火箭,四巨头要来了?

西部要变天,雷霆慌了!特雷杨有望加盟火箭,四巨头要来了?

林子说事
2025-11-17 10:15:27
悲剧!山西狗咬人事件,尸检结果上郭某刚9处刀伤,无一处致命

悲剧!山西狗咬人事件,尸检结果上郭某刚9处刀伤,无一处致命

魔都姐姐杂谈
2025-11-14 15:40:05
女生穿成这样去健身房,真的合适吗??

女生穿成这样去健身房,真的合适吗??

健身厨屋
2025-10-20 12:22:34
娶30多个老婆,生94个孩子,一家近200人住在有100间房屋的洋房中

娶30多个老婆,生94个孩子,一家近200人住在有100间房屋的洋房中

百态人间
2025-11-07 05:45:03
毛主席的机要秘书“小谢”有多美?清纯可爱,曾任北京市委书记

毛主席的机要秘书“小谢”有多美?清纯可爱,曾任北京市委书记

万物知识圈
2025-11-16 09:23:42
中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

中国准备打一场反侵略战争,解放军发文,不会保证日本本土的安全

健身狂人
2025-11-17 11:08:47
内塔尼亚胡呛声特朗普,欧洲何时才能竭尽全力援助乌克兰?

内塔尼亚胡呛声特朗普,欧洲何时才能竭尽全力援助乌克兰?

山河路口
2025-11-17 12:21:56
俄军果然留了后手,俄军9个旅投入战斗,扑向乌军扎波罗热防线

俄军果然留了后手,俄军9个旅投入战斗,扑向乌军扎波罗热防线

大国纪录
2025-11-17 12:47:18
特鲁姆普:我没有借口 用这样的球杆 压根赢不了塞尔比

特鲁姆普:我没有借口 用这样的球杆 压根赢不了塞尔比

罗克
2025-11-17 12:30:06
涉嫌严重违纪违法!重庆夔门生态产业发展集团有限公司原副总经理余翔接受审查调查

涉嫌严重违纪违法!重庆夔门生态产业发展集团有限公司原副总经理余翔接受审查调查

极目新闻
2025-11-16 17:10:06
11月17日全运会羽毛球,石宇奇对阵翁泓阳直播

11月17日全运会羽毛球,石宇奇对阵翁泓阳直播

王嚾晓
2025-11-17 12:36:57
高市早苗首次提出对台海出兵,日本高层的反应,果然不出中国所料

高市早苗首次提出对台海出兵,日本高层的反应,果然不出中国所料

普览
2025-11-13 00:31:54
黄公略唯一的骨血,由彭德怀亲自抚养长大的黄岁新,后来怎么样了

黄公略唯一的骨血,由彭德怀亲自抚养长大的黄岁新,后来怎么样了

南书房
2025-11-14 17:10:03
官媒亲宣!46岁邓超再破天花板,全家移民传闻5个月前就真相大白

官媒亲宣!46岁邓超再破天花板,全家移民传闻5个月前就真相大白

山河月明史
2025-11-17 12:30:49
越扒越气!狗咬人事件赵某晖身份曝光,监控显示她家3人持续打砸

越扒越气!狗咬人事件赵某晖身份曝光,监控显示她家3人持续打砸

火山诗话
2025-11-16 12:36:58
倪萍三婚丈夫凭《沉默的荣耀》爆火,26 岁儿子不婚成心病

倪萍三婚丈夫凭《沉默的荣耀》爆火,26 岁儿子不婚成心病

第一娱记
2025-11-15 08:29:55
70岁离异老太惨死,法医检测体内男性DNA,竟与老太自己高度吻合

70岁离异老太惨死,法医检测体内男性DNA,竟与老太自己高度吻合

苏大强专栏
2024-03-27 22:12:23
2025-11-17 14:04:49
量子位 incentive-icons
量子位
追踪人工智能动态
11688文章数 176331关注度
往期回顾 全部

科技要闻

营销话术反噬信任,雷军不该只是一怒了之

头条要闻

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

头条要闻

牛弹琴:中国的强烈愤怒还在继续 日本有三个没想到

体育要闻

当家球星受伤后,球迷乐翻了天?

娱乐要闻

二次封后的宋佳凭什么狂妄?

财经要闻

疯狂的"吸金村":村民大肆盗采地下水

汽车要闻

荣威M7+豆包大模型 用车机AI策划说车视频怎么样?

态度原创

亲子
时尚
数码
公开课
军事航空

亲子要闻

双胎孕晚期|这颗“孕肚勋章”,是双份幸福的终章倒计时

中年女人的开挂指南,避开花衣服和紧身衣,把优雅感焊在身上

数码要闻

戴森新一代无叶冷暖风扇AM15发布,首发价3790元

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

海军四川舰顺利完成首次航行试验

无障碍浏览 进入关怀版