网易首页 > 网易号 > 正文 申请入驻

有望减少所需计算资源,科学家提出新方法对齐大模型

0
分享至

众所周知,ChatGPT、Pathways、Llama 等大模型经过大量数据集的训练,已在多种任务中展现出令人印象深刻的能力。

这些模型不仅在自然语言处理领域(如文本生成、翻译和问答系统)表现出色,而且在医疗诊断、法律咨询和科学研究等更复杂的领域也显示出巨大的潜力。

然而,尽管这些模型的表现令人瞩目,它们仍然面临显著的风险。

这是由于这些训练数据的异质性,大模型可能会无意中生成误导性信息和有害内容。

具体而言,这些模型的训练数据通常来源于互联网,由于质量和来源参差不齐,其极有可能带来不准确、偏颇甚至有害的信息。

因此,在生成内容时,模型可能由于混入上述提及的不可靠的信息,从而导致错误和风险。

例如,当模型被用于生成社交媒体上的内容时,如果生成的文本包含煽动性言论、虚假信息或对某些群体的歧视性描述,可能会引发社会争议甚至引发暴力行为。

此外,这些模型在生成内容时也许会放大现有的偏见和歧视,从而进一步加剧社会不公。

譬如,在招聘或信贷评估过程中,如果模型的训练数据中包含性别或种族偏见,极有可能会导致不公平的决策,这将严重影响社会的公平、公正与和谐。

上述的问题突显了将大模型与人类需求对齐的关键挑战。对齐不仅意味着要求大模型能够生成准确可靠的信息,还要求它们所生成的内容符合社会道德和伦理标准,从而避免造成潜在危害。

这需要人们在设计和训练这些模型时,不仅关注其性能,还要高度重视模型的安全性和伦理性,以确保它们在各类应用场景中能够真正服务于人类的福祉。

总之,尽管大模型在许多任务中展现了强大的能力,但其潜在的误导性和有害性提醒我们,在追求技术进步的同时,必须慎重考虑如何将这些模型与人类需求和价值观紧密对齐。

所以,将大模型与人类需求以及社会价值观对齐是当前人工智能研究和应用中面临的一个重大而紧迫的挑战。

在最近的一项研究中,美国佐治亚理工学院课题组提出通过表征编辑来对齐大模型(LLM,Large Language Model)。他们通过将外部控制信号引入这个语言动力系统的状态空间,从而实现特定目标的对齐。

日前,相关论文以《通过表征编辑对齐大模型:一种控制视角》(Aligning Large Language Models with Representation Editing: A Control Perspective)为题发在预印本网站arXiv[1]。

并且,该论文近期已被人工智能顶会神经信息处理系统大会(NeurIPS,Conference on Neural Information Processing Systems)2024 接收。

佐治亚理工学院孔令恺博士(现美国哈佛大学博士后),博士生 WangHaorui 和硕士生 Mu Wenhao 是共同第一作者兼共同通讯作者。

目前,大模型对齐方法通常分为两类:微调和测试时对齐。在微调方法中,基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)尤其有效。

RLHF 通过训练一个奖励模型(RM, Reward Model),依据人类偏好进行优化,然后利用该模型通过强化学习技术对大模型进行微调。

然而,RL 训练可能存在困难和不稳定性。尽管最近的一些研究提出了比 RLHF 更简单的替代方法,这些方法仍需大量计算资源。

此外,适应对齐目标的微调需求使得快速定制模型,以应对不断变化的数据集和新需求变得困难。

另一方面,还有一些在测试阶段对齐大模型的方法,这些方法无需改变其权重,例如提示工程和引导解码。

然而,由于这些方法不修改底层的 LLM,其对齐能力仍然存在疑问,性能可能在很大程度上依赖于原始 LLM 的质量。

鉴于上述存在的这些困难和问题,该课题组采用了一种新方法,透过编辑模型的表征来对齐 LLM。

这种表征空间编辑方法的优势在于无需更新模型权重,而是通过对模型表征进行小幅扰动来引导其行为。

而且,现有研究已经展示了这种方法在提升 LLM 真实性和减少幻觉方面的巨大潜力。

然而,以往的工作通常依赖于在生成过程中向表征空间添加固定扰动,忽视了 LLM 的自回归生成特性。

出于对问题的本源探索以及对探究解决方法,该课题组参考了两篇论文,分别是:

发表于 NeurIPS 2023 的论文《推理时间干预:从语言模型中获取真实答案》(Inference-Time Intervention: Eliciting Truthful Answers from a Language Model)[2]。

另一篇是论文是该团队在 2020 国际机器学习会议( ICML,International Conference on Machine Learning)发表的论文《SDE-Net:为深度神经网络提供不确定性估计》(SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates)[3]。

从解决问题的角度出发,根据上述已发表的论文,该课题组提出了一种从控制理论角度出发的动态表征编辑方法。

该团队的模型设计核心在于将大模型视为一个离散时间的随机动力系统。受控制理论技术的启发,他们向语言动力系统的状态空间引入控制信号,以实现特定的对齐目标。

然后,根据贝尔曼方程,在 LLM 的表征空间中直接训练一个价值函数。在测试阶段,研究团队采用基于梯度的优化方法来确定控制信号。

由于价值函数仅为一个两层或三层的神经网络,因此干预过程非常快速且高效。

为了在实现对齐目标的同时保留原始 LLM 的生成质量,研究人员对控制信号进行正则化,使其尽可能小。

通过这种方式,他们既达成了对齐的目标,又不影响模型的生成质量。

在实验中,该团队将方法与现有的测试阶段对齐技术进行了比较。对比结果发现,这种方法能够显著提升模型的对齐能力。

除此之外,他们还与现有的基于微调的方法进行了对比。实验证明,该方案在取得具有竞争力的结果的同时,还大幅减少了所需的计算资源。

当前,大模型的应用日益广泛,正在不断改变我们的生活。该课题组提出的通过动态编辑大模型表征实现对齐的方法,具有许多前景广阔的应用。

比如,可以应用于公共安全与应急响应。在公共安全领域,提高模型在应急响应中的鲁棒性和安全性,确保生成的信息准确无误,帮助应急响应团队做出及时、正确的决策,保护公众安全。

此外,还可以应用于社会科学研究。在社会科学研究中,确保使用大模型生成的数据和分析结果真实可靠,减少误导性信息对研究结论的影响,支持科学研究的高质量发展。

不难想象,动态表征编辑方法可以在多个领域发挥其巨大潜力,帮助解决实际问题,提高大模型的可靠性和安全性,有望推动技术进步革新和社会发展。

值得关注的是,这项研究是通过编辑模型表征来进行大模型对齐的首例尝试。

接下来,该团队还将对该编辑模型表征做进一步提升。具体来说:

第一,向控制策略中注入归纳偏差:在该课题组目前的工作中,仅在模型隐藏空间的最后一层训练一个价值函数。

然而,他们可以采用更复杂的方法,首先在所有中间隐藏层上训练多个价值函数,然后选择在验证集上达到最佳准确度的层。

此外,研究人员还可以借鉴已有研究中的方法,仅对表示空间的低秩子空间进行扰动。

第二,多目标对齐:研究团队本次的研究考虑的是单一奖励模型的目标。然而,在实际应用中,对齐可能涉及多个潜在冲突的目标。

在这种情况下,利用多目标优化技术在测试时获得表示空间中的帕累托前沿将是一个有趣的研究方向。

第三,更先进的训练算法:目前,该课题组仅使用一种简单的单次迭代策略来训练价值函数。他们计划进一步研究增加迭代次数是否能改进价值函数的训练。

此外,研究团队还考虑使用能够提供可证明收敛性的算法来训练价值函数。

据介绍,这篇论文是孔令恺在博士期间的最后一个研究课题。目前,他在哈佛参与的一个项目与非洲的野生动物保护区合作,旨在利用人工智能中热门的生成模型技术推动野生动物保护。

未来,他将专注于将人工智能应用于环保和公共安全等新领域,致力于提升人工智能的鲁棒性和安全性,帮助非营利组织做出更好的决策。

参考资料:

1. Kong, L., Wang, H., Mu, W., Du, Y., Zhuang, Y., Zhou, Y., ... & Zhang, C. Aligning Large Language Models with Representation Editing: A Control Perspective.arXiv2406, 05954 (2024). https://doi.org/10.48550/arXiv.2406.05954

2. Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M.. Inference-time intervention: Eliciting truthful answers from a language model.Advances in Neural Information Processing Systems, 36 (2024).

3.Kong, L., Sun, J. and Zhang, C., 2020, November. SDE-Net: Equipping Deep Neural Networks with Uncertainty Estimates. In International Conference on Machine Learning (pp. 5405-5415). PMLR.

运营/排版:何晨龙

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大专生身价暴涨!浙江九市开抢:绍兴给1万8,湖州给1万4,连专科都成香饽饽了

大专生身价暴涨!浙江九市开抢:绍兴给1万8,湖州给1万4,连专科都成香饽饽了

朗威谈星座
2026-04-05 16:37:50
泪目!詹东里组合或再难看到!詹皇独自带队,过首轮将终结詹乔之争

泪目!詹东里组合或再难看到!詹皇独自带队,过首轮将终结詹乔之争

篮球神吐槽
2026-04-05 19:43:12
一女子爬山扭到脚,因思想保守不愿让男消防员搀扶下山,最终被5名消防员用担架抬下山

一女子爬山扭到脚,因思想保守不愿让男消防员搀扶下山,最终被5名消防员用担架抬下山

新浪财经
2026-04-04 20:51:11
4月1日起执行!小区3类车位归属明确,这些费用业主不用交

4月1日起执行!小区3类车位归属明确,这些费用业主不用交

复转这些年
2026-04-04 08:03:23
不是特朗普在折腾!而是美国如今已经凑齐了金融危机的所有条件!

不是特朗普在折腾!而是美国如今已经凑齐了金融危机的所有条件!

次元君情感
2026-04-05 00:42:49
癌症患者好消息!血常规这三项指标正常,癌症基本不会再复发了

癌症患者好消息!血常规这三项指标正常,癌症基本不会再复发了

健康之光
2026-04-05 13:50:06
苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

苹果8号员工干了49年:裁员名单绕着他走,因为赔不起

Ping值焦虑
2026-04-03 09:37:23
今年雨季,请把雨伞换成它!

今年雨季,请把雨伞换成它!

超级数学建模
2026-04-03 18:59:32
潜伏在中国的反华家族,靠大陆收入上亿,今国家出手下场大快人心

潜伏在中国的反华家族,靠大陆收入上亿,今国家出手下场大快人心

混沌录
2026-04-05 16:33:20
53岁菲戈:我每周去健身房锻炼两三次,跑八到十公里两三次

53岁菲戈:我每周去健身房锻炼两三次,跑八到十公里两三次

懂球帝
2026-04-03 10:06:10
轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

轻断食再次封神!复旦大学研究证实:让肝脏脂肪在3月内少20.5%?

垚垚分享健康
2026-04-05 08:40:19
事实证明,央视主持人劳春燕,当初与丈夫分居是最好的选择

事实证明,央视主持人劳春燕,当初与丈夫分居是最好的选择

小熊侃史
2026-04-05 13:50:58
太神了!它才是“化痰第一名”,吃三天,肺里的“脏东西”全扫光

太神了!它才是“化痰第一名”,吃三天,肺里的“脏东西”全扫光

牛锅巴小钒
2026-04-04 22:06:54
周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

周总理只是让他去经商,为党赚取经费,他却给组织赚回个商业帝国

鹤羽说个事
2026-04-02 23:00:01
二婚太难了!不要彩礼不生孩,女子哭诉,相亲要对方善待母子被拒

二婚太难了!不要彩礼不生孩,女子哭诉,相亲要对方善待母子被拒

火山詩话
2026-04-05 05:50:02
上海市中心这幢楼,深陷群租困局!“楼道垃圾堆成山,半夜噪声震得墙壁都在抖”,物业称管不了,相关部门回应

上海市中心这幢楼,深陷群租困局!“楼道垃圾堆成山,半夜噪声震得墙壁都在抖”,物业称管不了,相关部门回应

新民晚报
2026-04-04 09:55:17
东里受伤!霍华德晒湖人球衣照:如果需要我复出,请告诉我

东里受伤!霍华德晒湖人球衣照:如果需要我复出,请告诉我

林子说事
2026-04-05 13:10:25
上海一老乡鸡门店标注“3元自助早餐”,两人结账竟被收取45.5元并被告知“仅粥饮自助”,官方客服回应:已反馈调查

上海一老乡鸡门店标注“3元自助早餐”,两人结账竟被收取45.5元并被告知“仅粥饮自助”,官方客服回应:已反馈调查

齐鲁壹点
2026-04-05 09:18:49
为啥说老公长的帅少让他去接孩子?网友:理解曹操成为曹操

为啥说老公长的帅少让他去接孩子?网友:理解曹操成为曹操

解读热点事件
2026-04-04 00:34:43
一个人可以蠢到什么程度?看网友讲诉,我乐出了声还有这情况

一个人可以蠢到什么程度?看网友讲诉,我乐出了声还有这情况

侃神评故事
2026-04-05 11:50:06
2026-04-05 19:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技评论独家合作
16541文章数 514841关注度
往期回顾 全部

科技要闻

花200薅5千算力,Claude冷血断供“龙虾”

头条要闻

营救细节公布:伊朗搜捕人员距飞行员藏身地不到3公里

头条要闻

营救细节公布:伊朗搜捕人员距飞行员藏身地不到3公里

体育要闻

CBA最老球员,身价7500万美元

娱乐要闻

好用心!宋慧乔为好友庆生做一桌美食

财经要闻

谁造出了优思益这头“怪物”?

汽车要闻

家用SUV没驾驶乐趣?极氪8X第一个不同意

态度原创

游戏
家居
房产
亲子
公开课

LCK第二赛段:上野超模,NS零封DNS

家居要闻

温馨多元 爱的具象化

房产要闻

小阳春全面启动!现房,才是这波行情里最稳的上车票

亲子要闻

学费大调整!2026年教育收费全面改革,5大变化直接影响每个家庭

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版