网易首页 > 网易号 > 正文 申请入驻

合成数据的突破: 从降低迎合性偏差到认知自主性的重构

0
分享至

马来西亚思特雅大学博士生王立博,近两年来主要研究大语言模型。起初,王立博做这类研究也是被大语言模型给逼的,因为日常总得提防其“献媚(Sycophancy)”,这是由基于人类反馈的强化学习调优策略导致的固有缺陷。

因此,他致力于设计能够自主学习、思考和推理的人工智能,而不是人工宠物。

引入强化学习的训练奖励模型进行微调,尽管可以优化用户体验,但是引入偏见是不可避免的,因为“奖励”的依据是优先考虑用户反馈的满意度而未必是考虑客观事实。这种偏见通常来源于互联网数据,而大语言模型的训练数据集主要依赖于互联网信息。

基于此,王立博尝试通过合成数据干预来优化仅解码器(decoder-only)transformer 架构,弥补其对输入序列缺乏深度分析的不足。

在生成过程中他尝试设计加入额外阻碍,促使模型自主判断并拒绝不合理的输入。这一构想原理上能有效避免过度依赖用户的反馈,因为合成数据干预会更侧重于模型内在推理能力的培养,而非寻求 RAG 外部知识库。

此外,实现自主思考的重要标志之一就是判断力,为此王立博构想加入反面示例和对抗性输入来提升模型的抗献媚性。

实验结果显示,经过合成数据干预后的 GPT4o 在量化献媚指标上显著下降。如果这一成果有机会走出实验室,它可能为 decoder-only 架构的模型会带来更客观的决策支持,并减少偏见。

同时,该成果在机器人、自动驾驶和医疗等领域的应用,有助于提升自动化科学研究的效率。

更令王立博兴奋的是,此次实验是通过提示词工程(prompt engineering)实现。这意味着未来合成数据干预可以不再依赖传统的代码编写,仅通过编写自然语言,推动“AI 工程师”从专业技术人员走向普罗大众,为更多探索者扩大平等契机。

未来,开发、优化、数据处理、特征挖掘以及对前沿技术知识的了解,可能无需再依赖少数掌握编程和数学知识的专家,而只需设计逻辑清晰的提示词。

日前,相关论文《减轻仅解码器变换器架构中的献媚:合成数据干预》(Mitigating Sycophancy in Decoder-Only Transformer Architectures: Synthetic Data Intervention)为题发在 arXiv[1]。

随着大语言模型推理思考和生成代码等能力的增强, 提示词工程使人们有机会更平等地与各领域科学家共享信息资源。因此,未来王立博会致力于推动未来工程的提示词化,简单直接平等。

比如,最近王立博通过设计 prompt 进行黑盒测试 (Black-Box Testing) 实验,尝试模拟攻击大语言模型的护栏。他发现即便如 GPT4o 和 Grok-2 Beta,其护栏在识别多步骤越狱倾向的提示词时仍存在较大困难。

其还通过模拟场景设计了 7 到 10 步的提示词成功顺利使得所有模型模拟生成言语攻击的内容。这意味着当前的大语言模型的护栏仍需完善。

在稀疏注意力方面,王立博曾设计通过稀疏注意力机制降低大语言模型中思维链推理的成本。

同样的,王立博通过提示词基于 GPTs 训练的实验模型与 o1 preview 进行对比。实验结果显示,在牺牲可接受范围内的准确率的条件下,稀疏注意力机制与具备思维链的编码器-解码器(encoder-decoder)transformer 架构结合,在推理时间和推理步骤方面都显著降低。

王立博也曾设计过将自动语音识别和大语言模型引入智能眼镜的架构,这些构想如今正在被工业界所实践。即便合成数据干预或稀疏注意力机制被广泛应用,由于其本身的限制性使交互仍主要集中在视觉和听觉。而随着当前深度强化学习技术不断优化更新,人形机器人将迎来质的高速发展。在促进自主学习能力的同时,王立博设计了人形机器人多场景推理 (Multi-Scenario Reasoning) 以及模块化机器人实现自主变形的认知模块化控制 (Cognitive Modular Control) 等架构。受到人脑认知架构的启发,他致力于为自适应机器人引入认知的自主化技术,促进机器人的多形态或多用途的方向转型。因此,探索机器人在工业领域具备感知、思考、推理、规划、记忆和决策等能力的认知自主性成为王立博的下一个研究目标。

参考资料:

1.https://doi.org/10.48550/arXiv.2411.10156

2.https://doi.org/10.48550/arXiv.2411.09111

3.https://doi.org/10.48550/arXiv.2411.16730

4.https://doi.org/10.48550/arXiv.2412.20429

5.https://openreview.net/pdf?id=lJr0M8vpZO

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
VS Code 重大更新:Agent Skills完美支持!

VS Code 重大更新:Agent Skills完美支持!

冒泡泡的鱼儿
2026-03-25 12:10:03
蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

蔡正元即将入狱,国台办做出回应,内容不寻常,已看透他的真面目

坠入二次元的海洋
2026-03-26 16:00:05
善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

善恶到头终有报,如今73岁的唐国强,已经走上了一条不归路!

吴蒂旅行ing
2026-03-20 05:20:46
乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

乌克兰通过法律程序,将“俄乌战争”,命名为“乌克兰独立战争”

我心纵横天地间
2026-01-22 18:41:25
歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

歼-20总师被除名:长期任央企领导,最近照曝出,事发全过程披露

博士观察
2026-03-23 23:03:27
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

南京女教师停职风波反转!大批家长发声力挺,恳请恢复岗位与声誉

火山詩话
2026-03-26 06:37:23
“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

“尼帕病毒”来势汹汹,建议:每家备好6样东西,关键时刻能救命

路医生健康科普
2026-01-28 12:18:49
3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

3轮0球0助攻!U23国足天才新星踢中超状态断崖式下滑,恐沦为鸡肋

零度眼看球
2026-03-26 07:41:28
日媒:政府出手后,日本汽油价已降至7.71元/升

日媒:政府出手后,日本汽油价已降至7.71元/升

随波荡漾的漂流瓶
2026-03-25 15:39:49
张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

张雪峰灵堂布置疑曝光,一侧挽联有深意,遗照选了大家熟悉的那张

揽星河的笔记
2026-03-26 19:04:02
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

喜欢把家里打扫得很干净的人,往往会有这3种命运,很准!

品读时刻
2026-02-12 00:06:27
伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

伊朗新最高领袖莫贾塔巴哈梅内伊已同意与美国进行谈判并达成协议

深度报
2026-03-25 22:47:08
约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

约基奇背靠背均贡献15+15+15历史首人!穆雷:叹为观止

北青网-北京青年报
2026-03-26 20:51:06
捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

阿离家居
2026-03-26 16:52:37
清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

清末民初:四川总督赵尔丰、冒着热气的小吃摊、末代状元刘春霖

历史小破站
2026-03-19 04:05:03
香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

香港同框名场面:林志玲脸肿如发面馒头,56岁陈松伶干瘪却赢麻

冷紫葉
2026-03-26 16:33:29
巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

巴基斯坦把稀土卖给美国,以为捏住中国“七寸”,其实在玩火自焚

通文知史
2026-03-24 08:35:03
开分8.5,国内不火,全球却杀疯了

开分8.5,国内不火,全球却杀疯了

独立鱼
2026-03-25 21:24:07
2026-03-26 22:36:50
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16491文章数 514798关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
教育
家居
本地
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

骂人没有杀伤力?那不是白忙活吗?

家居要闻

傍海而居 静观蝴蝶海

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版