Anthropic 刚刚发布的 Claude Opus 4.8 虽然在官方跑分上有所提升,但上线这几天在开发者社区里却遭遇了大面积吐槽。大家反馈的槽点非常集中,主要有以下五个方面。
第一,中文认知离奇跑偏,自称是阿里的通义千问。许多开发者用中文提问 Opus 4.8 的身份时,它会非常笃定地回答自己是阿里巴巴开发的通义千问大模型,甚至能把通义千问的功能如数家珍地介绍一遍。这个 Bug 在中文社区里可以大面积复现,不少人猜测 Anthropic 在训练数据里大量混入了 Qwen 的合成语料,导致模型在中文对齐上出现了人格错乱。作为一个售价高昂的闭源旗舰,连自己是谁都搞错,确实有些尴尬。
第二,追求不谄媚导致严重的脑内内耗。新版 Opus 主打「诚实」和「防谄媚」,但这套机制在实际运行中变成了令人窒息的脑内监视。从开发者导出的思维链来看,模型在回答每个问题之前,都要花大量 Token 反复纠结自己是不是在迎合用户、是不是表现得太标新立异。这种心理活动被社区戏称为「认知眩晕」,模型还没给出最终答案就先把自己绕晕了,最后输出的经常是两头和稀泥的套话或长篇大论的道歉。
第三,安全审查过于严苛,甚至插手虚拟创作。不少写作者反馈新模型的安全机制已经防卫过当。比如有用户让它写一段梦境里的亲吻戏,模型居然以「梦中亲吻可能未经对方同意」为由直接拒绝。官方系统卡也承认新模型更偏向技术和推理,排斥创造性任务。这种合规官式的严防死守让很多文学创作用户直呼头疼。
第四,Agent 推理能力不升反降,跑分断崖式下滑。对于将模型接入自动化管道的工程团队来说,新版的体验非常糟糕。在商业 Agent 推理测试中,新模型的得分相比前代 Opus 版本出现明显下跌,不仅极易在简单决策上死循环,工具调用也变得混乱。很多开发者抱怨新模型在处理法务或税务场景时,频繁质问用户是不是在教唆犯罪,白白浪费了大量 Token。
第五,动态工作流沦为极其昂贵的 Token 绞肉机。与新模型一同上线的 Claude Code 动态工作流概念很吸引人,但实际运行成本高得吓人。它在后台会并发调度十几个子 Agent,单次复杂任务很容易烧掉数百万 Token,直接把用户的日用额度清零。开发者调侃这套机制大概只有 Anthropic 内部有无限额度的人才用得起。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.