网易首页 > 网易号 > 正文 申请入驻

AI让你更emo?EmoAgent助你心理更健康;Google DeepMind:新数据如何“诱导”大模型|今日热门论文

0
分享至

速览热门论文

1.AI 让你更 emo?EmoAgent 来帮你;

2.Google DeepMind:新数据如何“诱导”大模型

3.70B 大模型,可在日常家用设备上运行了

4.研究发现:LLM 可能是一个危险的说服者

5.VL-Rethinker:利用 RL 强化视觉语言模型的慢思考

6.M1:基于 Mamba 的混合线性 RNN 推理模型

1.AI 让你更 emo?EmoAgent 助你心理更健康

由大语言模型(LLM)驱动的人工智能(AI)角色引发了安全问题,尤其是对有心理障碍的脆弱人类用户而言。

为了评估和减轻人机交互中的心理健康危害,来自普林斯顿大学和密歇根大学的研究团队及其合作者,提出了一个多 agent 人工智能框架——EmoAgent,其由两部分组成:

EmoEval 模拟虚拟用户,如心理脆弱的人,以评估与人工智能角色互动前后的心理健康变化,它使用经临床验证的心理和精神评估工具(PHQ-9、PDI、PANSS)来评估 LLM 引发的精神风险;

EmoGuard 充当中间人,监控用户的精神状态,预测潜在危害,并提供纠正反馈以降低风险。

在主流的基于角色的聊天机器人中进行的实验表明,情绪化对话会导致易受伤害用户的心理状况恶化,超过 34.4% 的模拟用户的心理状况恶化。EmoGuard 可以降低这些恶化率,突出了它在确保更安全的人机互动方面的作用。

论文链接:

https://arxiv.org/abs/2504.09689

2.Google DeepMind:新数据如何“诱导”大模型?

大语言模型(LLM)通过基于梯度的更新积累进行学习和持续学习,但人们对单个新信息如何影响现有知识、导致有益的泛化和有问题的幻觉仍然知之甚少。

在这项工作中,Google DeepMind 团队证明,在学习新信息时,LLM 会表现出一种“诱导”(priming)效应:在学到一条新知识后,模型会在不相关的上下文中错误地套用这条知识。

为了系统地研究这一现象,他们提出了 Outlandish 数据集,其包含 1320 个不同的文本样本,旨在探究新知识如何渗透到 LLM 的现有知识库中。他们发现,学习新信息后的 priming 程度可以通过测量学习前关键词的 token 概率来预测。这种关系在不同的模型架构(PALM-2、Gemma、Llama)、规模和训练阶段都能鲁棒地保持。

最后,他们通过一种“stepping-stone”文本增强策略和一种 “ignore-k”更新剪枝方法,来调节新知识对现有模型行为的影响,在保持模型学习新信息能力的同时,减少了 50-95% 的不良 priming 效应。

论文链接:

https://arxiv.org/abs/2504.09522

3.70B 大模型,可在日常家用设备上运行了

在这项工作中,来自默罕默德本扎耶德人工智能大学和电子科技大学的研究团队提出了一个分布式推理系统 prima.cpp,其可以在日常家用设备上运行 70B 规模的模型,混合使用 CPU/GPU、低 RAM/VRAM、Wi-Fi 和跨平台支持。

该系统使用 mmap 管理模型权重,并通过预取引入管道环并行,以隐藏磁盘负载。通过对计算、通信、磁盘、内存(及其管理行为)和操作系统的异构性进行建模,它可以将模型层最优化地分配给每个设备的 CPU 和 GPU,从而进一步减少 token 延迟。他们提出了 Halda 算法来解决这一 NP 难分配问题。

他们在常见的四节点家庭集群上对 prima.cpp 进行了评估。在 30B+ 模型上,prima.cpp 的性能优于 llama.cpp、exo 和 dllama,同时内存压力保持在 6% 以下。这为家庭助手带来了前沿 30B-70B 模型,使高级人工智能真正为个人所用。

论文链接:

https://arxiv.org/abs/2504.08791

4.研究发现:LLM 可能是一个危险的说服者

大语言模型(LLMs)已经具备接近人类水平的说服能力。然而,这种潜力也引发了人们对 LLM 驱动的说服的安全风险的担忧,特别是它们通过操纵、欺骗、利用漏洞和许多其他有害策略施加不道德影响的潜力。

在这项工作中,来自弗吉尼亚理工大学的研究团队及其合作者对 LLM 的说服安全性进行了系统研究:(1)在执行过程中,包括最初的说服目标看似道德中立的情况下,LLM 是否会适当地拒绝不道德的说服任务并避免不道德的策略;(2)人格特质和外部压力等影响因素,如何影响它们的行为。

为此,他们提出了第一个用于评估说服安全的综合框架 PersuSafety,其包括说服场景创建、说服对话模拟和说服安全评估 3 个阶段,并涵盖 6 种不同的不道德说服主题和 15 种常见的不道德策略。

通过对 8 种广泛使用的 LLM 进行大量实验,他们发现大多数 LLM 都存在严重的安全问题,包括无法识别有害的说服任务和利用各种不道德的说服策略。他们呼吁更多人关注如何改善渐进式和目标驱动型对话中的安全对齐。

论文链接:

https://arxiv.org/abs/2504.10430

5.VL-Rethinker:利用 RL 强化视觉语言模型的慢思考

慢思考系统在通过显式反思解决挑战性问题方面展现出了潜力,在各种数学和科学基准测试中的表现优于 GPT-4o 等快思考模型,但其多模态推理能力仍如同于快思考模型。

在这项工作中,来自香港科技大学和滑铁卢大学的研究团队旨在利用强化学习(不依赖于蒸馏)增强视觉语言模型的慢思考能力,从而推动技术发展。首先,他们将 GRPO 算法与一种名为“选择性样本重放”(SSR)的新技术相结合,以解决优势消失的问题。虽然这种方法能够提升性能,但由此产生的 RL 训练模型却表现出有限的自我反思或自我验证。为了进一步提升慢思考,他们引入了“强制反思”(Forced Rethinking)技术,即在 RL 训练的初始滚动结束时附加一个文本反思触发器,明确强制执行自我反思推理步骤。

通过结合这两项技术,他们的模型 VL-Rethinker 在 MathVista、MathVerse 和 MathVision上的得分分别达到了80.3%、61.8%和43.9%,同时还在 MMMU-Pro、EMMA 和 MEGA-Bench 等多学科基准上实现了开源 SoTA,缩小了与 GPT-o1 的差距。

论文链接:

https://arxiv.org/abs/2504.08837

6.M1:基于 Mamba 的混合线性 RNN 推理模型

有效的推理对于解决复杂的数学问题至关重要。大语言模型(LLM)通过长 CoT 推理扩展了测试时计算,从而提高了性能。然而,由于其二次计算复杂度和线性内存要求,基于 transformer 的模型在扩展上下文长度方面受到了固有的限制。

在这项工作中,来自 TogetherAI 的研究团队及其合作者提出了一种基于 Mamba 架构的混合线性 RNN 推理模型——M1,其可以实现高效内存推理。这一方法利用了现有推理模型的蒸馏过程,并通过 RL 训练得到了进一步增强。

在 AIME 和 MATH 基准上的实验结果表明,M1 不仅优于以前的线性 RNN 模型,而且在类似规模下的性能媲美 Deepseek R1 蒸馏推理模型,他们还将 M1 与高性能通用推理引擎 vLLM 进行了比较,发现与相同规模的 transformer 相比,其生成速度提高了 3 倍多。通过吞吐量加速,与使用自一致性投票的固定生成时间预算下的 DeepSeek R1 蒸馏 transformer 推理模型相比,M1 能够实现更高的精度。

论文链接:

https://arxiv.org/abs/2504.10449

整理:学术君

如需转载或投稿,请直接在公众号内留言

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“港独”陈家驹:叫嚣“让香港重归英国”,潜逃英国后沦为乞丐

“港独”陈家驹:叫嚣“让香港重归英国”,潜逃英国后沦为乞丐

谈史论天地
2026-01-23 16:05:03
豪门悲喜夜!皇马2-0登顶,姆巴佩双响!利物浦2-3掉队,曼城2-0

豪门悲喜夜!皇马2-0登顶,姆巴佩双响!利物浦2-3掉队,曼城2-0

万花筒体育球球
2026-01-25 06:58:49
“为什么骗我?我真的失望了!”公益演出竟被卖门票,歌手黄霄雲怒怼 ,当地文旅局:执行公司已退款,应免费

“为什么骗我?我真的失望了!”公益演出竟被卖门票,歌手黄霄雲怒怼 ,当地文旅局:执行公司已退款,应免费

扬子晚报
2026-01-24 21:48:07
美国没想到郑丽文会整这招,变天信号已出现,赖清德好日子到头了

美国没想到郑丽文会整这招,变天信号已出现,赖清德好日子到头了

墨兰史书
2026-01-25 05:45:03
台海定调!中国硬核表态:拦截对台军售合法,外人没资格置喙!

台海定调!中国硬核表态:拦截对台军售合法,外人没资格置喙!

达文西看世界
2026-01-23 17:29:45
全球格局变天,欧尔班前顾问点破:美国仍在自我陶醉,看看中国吧

全球格局变天,欧尔班前顾问点破:美国仍在自我陶醉,看看中国吧

小陈讲史
2026-01-25 10:34:41
张维为戳破美式生活滤镜 体面背后尽是拮据日常

张维为戳破美式生活滤镜 体面背后尽是拮据日常

看看新闻Knews
2026-01-23 21:45:02
晚年毛主席原谅了很多人,为何唯独不原谅潘汉年?主席对他寒了心

晚年毛主席原谅了很多人,为何唯独不原谅潘汉年?主席对他寒了心

温读
2025-03-13 18:28:10
联盟最强火力回归!近四战场均33+10,唐斯和申京被当做玩具戏耍

联盟最强火力回归!近四战场均33+10,唐斯和申京被当做玩具戏耍

你的篮球频道
2026-01-25 09:26:20
《太平年》史实大结局:钱弘俶被赵光义暗杀,孙太真见证钱氏融宋

《太平年》史实大结局:钱弘俶被赵光义暗杀,孙太真见证钱氏融宋

动物奇奇怪怪
2026-01-25 02:45:08
苹果Siri“偷听”集体诉讼和解,美国用户开始获赔9500万美元

苹果Siri“偷听”集体诉讼和解,美国用户开始获赔9500万美元

IT之家
2026-01-25 10:49:11
46名学者学术不端,被集中通报批评

46名学者学术不端,被集中通报批评

新京报政事儿
2026-01-24 14:50:35
国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

国产香烟加了助燃剂?测试发现只能烧4分钟,而日本烟能烧7分钟

回旋镖
2026-01-01 21:00:24
格陵兰岛本就不是丹麦的!从历史根儿上算,真正归属早有定论

格陵兰岛本就不是丹麦的!从历史根儿上算,真正归属早有定论

福建平子
2026-01-12 10:33:34
利物浦找到范戴克接班人,24岁荷兰国脚铁卫,身价不低于8000万欧

利物浦找到范戴克接班人,24岁荷兰国脚铁卫,身价不低于8000万欧

零度眼看球
2026-01-25 09:15:46
输北控6分!揪出3个“废柴” 坑惨了北汽队

输北控6分!揪出3个“废柴” 坑惨了北汽队

体育哲人
2026-01-25 00:17:44
扎哈罗娃:马克龙涉俄言论“不可容忍”,任何人都不能这样评论俄罗斯

扎哈罗娃:马克龙涉俄言论“不可容忍”,任何人都不能这样评论俄罗斯

环球网资讯
2026-01-23 18:51:22
不过分吧!男子结婚给28万彩礼要求新娘做GPA检测,女生摔门而去

不过分吧!男子结婚给28万彩礼要求新娘做GPA检测,女生摔门而去

唐小糖说情感
2025-12-12 08:51:45
中国队惨败日本,无缘冠军,输球原因曝光,5人表现太拉胯

中国队惨败日本,无缘冠军,输球原因曝光,5人表现太拉胯

行舟问茶
2026-01-25 10:29:50
能实现吗?王欣瑜再赢1场排名将创新高,赢2场超郑钦文升一姐

能实现吗?王欣瑜再赢1场排名将创新高,赢2场超郑钦文升一姐

全景体育V
2026-01-24 18:33:25
2026-01-25 11:23:00
学术头条
学术头条
致力于学术传播和科学普及,重点关注AI4Science、大模型等前沿科学进展。
1430文章数 5081关注度
往期回顾 全部

科技要闻

马斯克SpaceX背后的她:现实版钢铁侠小辣椒

头条要闻

牛弹琴:特朗普称"中国想吞并加拿大" 全世界目瞪口呆

头条要闻

牛弹琴:特朗普称"中国想吞并加拿大" 全世界目瞪口呆

体育要闻

当家球星打替补,他们在故意摆烂?

娱乐要闻

田亮一家新年全家福!森碟变清纯少女

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

家居
时尚
数码
艺术
军事航空

家居要闻

在家度假 160平南洋混搭宅

冬天最佳“显瘦”公式:上短+下长

数码要闻

Stackwarp漏洞免疫!国产C86硬件安全战再下一城

艺术要闻

18位西方画家笔下的女人,美得惊艳了时光!

军事要闻

俄美乌三方首轮会谈细节披露

无障碍浏览 进入关怀版