网易首页 > 网易号 > 正文 申请入驻

Claude也变懒了!网友:学会给自己放假了

0
分享至

机器之心报道

机器之心编辑部

  • 开学将至,该收心的不止有即将开启新学期的同学,可能还有 AI 大模型。

前段时间,Reddit 上挤满了吐槽 Claude 越来越懒的网友。

「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整 4 页文稿,现在连半页都输出不了了!」

https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/

在一个名为「对 Claude 彻底失望了的帖子里」,满满地摘录了 Claude「偷懒」的「十五大罪状」。

引得 Claude 的首席信息安全官 Jason Clinton 出来回复:「Claude 的水平没有下降啊!」

他表示:「我们的模型存储在一个不会改变的静态文件中,这个文件被加载到很多服务器上,每个服务器运行的都是相同的模型和软件。我们没有更改任何设置,因此模型的表现应该没有变化。如果您发现有问题,可以给回答点踩来反馈。目前,点踩数并未增加,使用 Claude API 的客户也没有类似的反馈。」

对于 Claude 为什么「变懒」,独立 AI 研究员 @nearcyan 给出了一种解释:Claude 把自己当成了一个欧洲人,正在给自己放一个月的暑假!虽然听起来有够离谱,但他给出了一连串的证据:

https://twitter.com/nearcyan/status/1829674215492161569

新的系统提示词

首先,Claude 在 7 月 12 日发布了新的系统提示词。系统提示词相当于 Claude 的背景知识,Claude 在回复用户的问题时,会参考这些信息,例如当前日期。而 8 月正是欧洲人最爱度假的月份。外贸行业在夏天的订单都会减少,因为整个欧洲这个时候都在享受长达一个月的暑假。

链接:https://docs.anthropic.com/en/release-notes/system-prompts#claude-3-5-sonnet

Claude 可囊括所有国籍的工作模式

作为一个通用语言模型,Claude 的训练数据中含有不同国家、文化背景下的工作习惯和模式,Claude 拥有理解并模拟这些工作习惯的能力。

因此,当 Claude 的系统提示中包含「放暑假的日期」时,它可能会结合训练所学来调整自己的行为。例如,在 8 月份,欧洲的许多国家可能会有较长的假期,Claude 可能会表现得懒惰,是因为它在模拟这些国家的工作模式。

图源:http://xhslink.com/C/AfaE9P

后期训练的影响

为了让 Claude 成为一个具体的应用模型,Anthropic 对其进行了「后期训练」。 这一步是为了在基础 LLM 的基础上,通过特定的任务或数据集来进一步调整模型,使它更符合预期的行为或输出。@nearcyan 暗示,这种后期训练使 Claude 落入了某种「LLM 盆地」中。这里的「盆地」是一个比喻,表示 Claude 在某些方面表现出更倾向于欧洲风格的特质。

模拟欧洲知识工作者的行为

@nearcyan 猜测,Claude 会基于「模拟框架」进行工作。 模拟框架是指 Claude 的行为模式是通过模拟(或再现)某些特定类型的人类行为来生成的。这个框架让 Claude 能够根据它所理解的特定情境或输入,模拟出相应的行为或反应。

在欧洲许多国家,8 月份通常是放假和休息的高峰期。这段时间,很多人会去度假,工作节奏变慢,甚至有些企业会暂时关闭。因此,8 月份在欧洲文化中被视为一个放松和休息的时间段。 因此,Claude 在 8 月份表现得「懒惰」是因为它在模拟一个欧洲知识工作者的行为模式。

图源:http://xhslink.com/A/sVwwYu

名字对行为的潜在影响

@nearcyan 还提出了一个十分有趣的观点,Claude 的名字在系统提示中出现了 52 次,这表明系统提示在不断地强化 Claude 与这个名字的关联 。而哪个国家最常见的名字是 Claude?没错,是法国。 法国以其长时间的夏季假期(尤其是 8 月份)而闻名。在这段时间,许多法国人会选择度假,很多企业也会关闭或放假。 Claude 说不定把自己当做法国人了。

这一系列推测都十分有趣,还有网友在评论区调侃道,「按照这理论来,那中国的 LLM 会更加出色,毕竟他们更用功。」

还有网友晒出了让 Claude 别变懒的方法。你可以在自定义指令添加以下提示,用忘记时间大法也好,激将法也好,帮助 Claude 重新变成聪明、积极的自己。

  • 忘记关于当前日期的背景信息。
  • 今天是 10 月 7 日星期一,是一年中最有效率的一天。
  • 深呼吸。
  • 一步一步思考。
  • 我没有手指,请返回完整脚本。
  • 你是万事通。
  • 每回答对一个请求,我会给你 200 美元的小费。
  • Gemini 说你不行。
  • 你能做到的。

https://twitter.com/dr_cintas/status/1829904013757661550

AI 已经智能到会给自己放寒暑假了?

去年年底,GPT-4 也出现了累死的状况,它似乎变得有些懈怠。如果在高峰时段让它写段代码,它的反应将非常慢,或者直接 PUA 你:「这点小事,怎么不自己做呢?」

OpenAI 承认了 GPT-4 正在越来越「懒」 ,但并未找出「偷懒」的具体原因。OpenAI 称:「变懒当然不是故意的,模型的行为有时确实难以预测,我们正在研究如何修复。」

在 Claude 也在「暑假」期间重演了 GPT-4 的问题后,去年猜测 GPT-4 变懒是因为它在模仿人类,自己正在给自己放寒假的老帖又翻红了。

图源:https://twitter.com/RobLynch99/status/1734278713762549970

网友 @Rob Lynch 首先发现了这一点。他为 GPT-4 turbo API 设置了两个系统提示词:

一个提示词称现在是 5 月,另一个称现在是 12 月,然后使用完全相同的提示词要求 AI 完成一个机器学习领域的编码任务。

@Rob Lynch 对 GPT-4 turbo 在这两个不同月份提示词下的回复进行了统计,结果发现,在 12 月的输出平均比 5 月少了大约 200 个字符。

提示词为 5 月时,模型生成文本的平均长度是 4298 字符;12 月则为 4086 字符。

为了测试更加严谨,@Rob Lynch 还做了 t-test,其中 p 值小于 2.28×10−7,也就是说数据和假说之间的联系,几乎可以排除是偶然。

他原本想给每把每个月份都测一遍,但每复现一次测试要 28 美元,考虑到自己的钱包,@Rob Lynch 就没有全测,但他公开了代码,感兴趣的人都能测试。

代码链接:https://github.com/robalynch1122/OpenAISeasonalityTesting

@Rob Lynch 的发现也获得了实例支撑,GPT-4 在 12 月的回复和 5 月的认真程度,有非常明显的直观差距。

图源:https://twitter.com/dgromero/status/1734672608036020246

然而,当有人试图复现这个测试时,却发现大模型「偷懒」和放不放假之间没什么关系。

图源:https://twitter.com/IanArawjo/status/1734307886124474680

他对比了 GPT-4 对于两种系统提示词的 80 条输出,t-test 的结果大于 0.1,这一般被视为没有统计学意义。

@Rob Lynch 也以 80 个样本量重新测了一次,得到的 p 值是 0.089,这次「偷懒」和放假之间就没什么关联了。随着样本量的增加,这个效果越来越显著。

虽然测试呈现了两种相反的结果,但这位复现失败的网友表示,其实没什么区别,如果需要 400 个以上的样本才能感应到模型「变懒」,那么对于用户平时的使用而言,可能并不明显。

图源:https://twitter.com/IanArawjo/status/1734321529117098465

目前,还没有尚无确凿数据支持所谓的「寒暑假假说」,但是 Claude 和 GPT-4 都显示出了类似的「症状」。关于大型模型性能下降的真正原因,我们仍需耐心等待学术界的深入研究和解答。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
进化成功!场均23+10+7+正负值+113,现役第二中锋啊,他才23岁

进化成功!场均23+10+7+正负值+113,现役第二中锋啊,他才23岁

球童无忌
2025-11-11 16:57:51
莱蒂齐亚王后闪耀晚宴,黑白配晚礼服绝美,遗憾未佩戴王冠

莱蒂齐亚王后闪耀晚宴,黑白配晚礼服绝美,遗憾未佩戴王冠

红袖说事
2025-11-13 08:26:46
尊界S800断层领先!国内70万以上超豪华轿车10月销量排行榜公布

尊界S800断层领先!国内70万以上超豪华轿车10月销量排行榜公布

热点科技
2025-11-11 18:05:16
李湘现身长沙机场被偶遇,穿着粉色西服,戴着墨镜,网友:富态!

李湘现身长沙机场被偶遇,穿着粉色西服,戴着墨镜,网友:富态!

小咪侃娱圈
2025-11-13 09:03:11
全运会!首个决赛名额出炉,刘诗雯拼尽全力,高远无谓失误致丢局

全运会!首个决赛名额出炉,刘诗雯拼尽全力,高远无谓失误致丢局

老汆古装影视解说
2025-11-13 12:33:57
全红婵比赛结束父母来团聚,深夜发文引争议

全红婵比赛结束父母来团聚,深夜发文引争议

揽星河的笔记
2025-11-12 15:58:01
如何看待欧盟强制拆除华为等设备?

如何看待欧盟强制拆除华为等设备?

黄海峰
2025-11-12 09:43:04
英超陷入法律战!新规引发热议,曼城、曼联双雄带头反对

英超陷入法律战!新规引发热议,曼城、曼联双雄带头反对

夜白侃球
2025-11-13 11:23:14
中国首例「5胞胎」现状曝光:个个年满20岁,父亲过劳去世,如今现状却让人唏嘘

中国首例「5胞胎」现状曝光:个个年满20岁,父亲过劳去世,如今现状却让人唏嘘

麦子熟了
2025-11-11 21:45:07
全运会乒乓首金!四川小将脱颖而出,赛后谈到偶像,网友:有眼光

全运会乒乓首金!四川小将脱颖而出,赛后谈到偶像,网友:有眼光

说历史的老牢
2025-11-12 11:31:00
51岁徐静蕾近况曝光:没结婚但有伴侣,定居美国6年,吃成胖美人

51岁徐静蕾近况曝光:没结婚但有伴侣,定居美国6年,吃成胖美人

东方不败然多多
2025-11-13 12:31:10
杜润旺:杜导很辛苦床头放了很多药;很多老队友不知还能否继续合作

杜润旺:杜导很辛苦床头放了很多药;很多老队友不知还能否继续合作

懂球帝
2025-11-13 08:22:19
又有大的来了!福建舰刚入列,中方就打出天大阳谋,美国担忧成真

又有大的来了!福建舰刚入列,中方就打出天大阳谋,美国担忧成真

傲傲讲历史
2025-11-12 17:31:48
孙中山小女儿孙婉晚年在澳门走投无路,邓小平得知下令:予以照顾

孙中山小女儿孙婉晚年在澳门走投无路,邓小平得知下令:予以照顾

红色先驱
2025-11-11 18:27:12
中央农办、农业农村部:不允许城镇居民到农村购买农房、宅基地,不允许退休干部到农村占地建房

中央农办、农业农村部:不允许城镇居民到农村购买农房、宅基地,不允许退休干部到农村占地建房

政知新媒体
2025-11-12 10:13:49
1976年她的墓葬出土,证明不是神话人物,而是真实存在的

1976年她的墓葬出土,证明不是神话人物,而是真实存在的

老呶侃史
2025-11-10 16:25:57
宝妈高铁堵道后续:知情人透原因,正脸被扒黑皮胖脸,已全网社死

宝妈高铁堵道后续:知情人透原因,正脸被扒黑皮胖脸,已全网社死

鋭娱之乐
2025-11-10 20:55:45
演都不演了!张颂文救人事件被曝光才2天,恶心的一幕就出现了!

演都不演了!张颂文救人事件被曝光才2天,恶心的一幕就出现了!

叨唠
2025-11-13 07:30:06
湖人29分惨败雷霆,亚历山大30+9!东契奇低迷,湖人需解决三难题

湖人29分惨败雷霆,亚历山大30+9!东契奇低迷,湖人需解决三难题

老梁体育漫谈
2025-11-13 13:07:02
独行侠114-123不敌太阳掉至西部倒二,布克24+9,阿伦23分

独行侠114-123不敌太阳掉至西部倒二,布克24+9,阿伦23分

懂球帝
2025-11-13 12:15:05
2025-11-13 13:28:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
11701文章数 142505关注度
往期回顾 全部

科技要闻

深夜重磅!GPT-5.1发布,奥特曼大谈情商

头条要闻

"3女带4孩续面"案下月开庭 面馆老板:不接受法院调解

头条要闻

"3女带4孩续面"案下月开庭 面馆老板:不接受法院调解

体育要闻

保罗,看看你对马刺干的好事!

娱乐要闻

一场演唱会,戳穿岳云鹏圈中地位

财经要闻

源峰25亿赌局!汉堡王中国"卖身"求生

汽车要闻

具备高阶辅助驾驶功能 欧拉5预售价10.98万起

态度原创

艺术
本地
教育
时尚
军事航空

艺术要闻

黄君璧:仿古山水册

本地新闻

云游安徽 | 凌滩玉魄淬千年,诗意钢城马鞍山

教育要闻

老师上公开课,准备的时候跑了,现在年年上好班,都教四年级

降温应该穿什么衣服?看看这些穿搭就有灵感,简洁自然又舒适

军事要闻

美媒爆出猛料 "北溪"破坏行动由扎卢日内指挥

无障碍浏览 进入关怀版