「你好，我是通义千问」，Anthropic旗舰模型Opus 4.8上线三天翻车|工作流|opus|开源模型|token|anthropic

「你好，我是通义千问」，Anthropic旗舰模型Opus 4.8上线三天翻车

分享至

Anthropic 刚刚发布的 Claude Opus 4.8 虽然在官方跑分上有所提升，但上线这几天在开发者社区里却遭遇了大面积吐槽。大家反馈的槽点非常集中，主要有以下五个方面。

第一，中文认知离奇跑偏，自称是阿里的通义千问。许多开发者用中文提问 Opus 4.8 的身份时，它会非常笃定地回答自己是阿里巴巴开发的通义千问大模型，甚至能把通义千问的功能如数家珍地介绍一遍。这个 Bug 在中文社区里可以大面积复现，不少人猜测 Anthropic 在训练数据里大量混入了 Qwen 的合成语料，导致模型在中文对齐上出现了人格错乱。作为一个售价高昂的闭源旗舰，连自己是谁都搞错，确实有些尴尬。

第二，追求不谄媚导致严重的脑内内耗。新版 Opus 主打「诚实」和「防谄媚」，但这套机制在实际运行中变成了令人窒息的脑内监视。从开发者导出的思维链来看，模型在回答每个问题之前，都要花大量 Token 反复纠结自己是不是在迎合用户、是不是表现得太标新立异。这种心理活动被社区戏称为「认知眩晕」，模型还没给出最终答案就先把自己绕晕了，最后输出的经常是两头和稀泥的套话或长篇大论的道歉。

第三，安全审查过于严苛，甚至插手虚拟创作。不少写作者反馈新模型的安全机制已经防卫过当。比如有用户让它写一段梦境里的亲吻戏，模型居然以「梦中亲吻可能未经对方同意」为由直接拒绝。官方系统卡也承认新模型更偏向技术和推理，排斥创造性任务。这种合规官式的严防死守让很多文学创作用户直呼头疼。

第四，Agent 推理能力不升反降，跑分断崖式下滑。对于将模型接入自动化管道的工程团队来说，新版的体验非常糟糕。在商业 Agent 推理测试中，新模型的得分相比前代 Opus 版本出现明显下跌，不仅极易在简单决策上死循环，工具调用也变得混乱。很多开发者抱怨新模型在处理法务或税务场景时，频繁质问用户是不是在教唆犯罪，白白浪费了大量 Token。

第五，动态工作流沦为极其昂贵的 Token 绞肉机。与新模型一同上线的 Claude Code 动态工作流概念很吸引人，但实际运行成本高得吓人。它在后台会并发调度十几个子 Agent，单次复杂任务很容易烧掉数百万 Token，直接把用户的日用额度清零。开发者调侃这套机制大概只有 Anthropic 内部有无限额度的人才用得起。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.