周二晚上11点,我正被一个四层嵌套的TypeScript类型错误折磨到眼冒金星,手机弹出一条消息:Claude Mythos在SWE-bench Verified拿了93.9%。这个数字什么概念?之前Claude 3.5 Sonnet是49%,OpenAI o1是48.9%,它直接快翻倍了。
问题是——你用不上。
这不是限量发售的饥饿营销,也不是区域锁定的技术故障。Mythos目前只通过Anthropic的「研究访问计划」开放,申请者需要填表单、等审核、签协议。一位独立开发者在Reddit吐槽:「我填完表两周没回音, meanwhile 我的bug还在生产环境裸奔。」
更微妙的是Anthropic的回应。官方博客写得很直白:「我们优先选择能反馈模型局限性的研究团队。」换句话说,他们宁要会挑刺的学者,不要急着干活的工程师。这策略像什么?像餐厅后厨研发新菜,只请美食评论家试吃,饿肚子的顾客继续吃菜单上的老三样。
93.9%的分数挂在榜上,像橱窗里的概念车——你看得见方向盘,摸不到油门。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.