这是苍何的第 488 篇原创!
大家好,我是苍何。
在 X 上看到宇宙知名模型服务商 OpenRouter,突然官宣上线了一个代号为 Pony Alpha 的匿名神秘模型,引发了热议。
![]()
大家都在疯狂猜测会不会是 DeepSeek V4 来了?
根据 OpenRouter 模型页面显示,Pony Alpha 具备 200 K 的上下文窗口,最大输出 131 k。
![]()
据 OpenRouter 官方描述,代号为 Pony Alpha 的神秘模型为 Agentic workflows 做了大量优化,具有很高的工具调用准确率。
我也第一时间去体验了这个模型,并在 Claude Code 上测了下。
![]()
这是我用 Claude Code 跑的我的产品薯图的复刻,模型用的就是 Pony Alpha。
![]()
除了前端细节上能很好的完成前端页面的复刻外,我觉得比较不一样的是他的后端数据库设计及架构能力,
比如在订单表设计上会自动为我加上行级安全策略 RLS,启动自定义规则让不同用户只能看到或修改自己有权限的行。
![]()
这就很牛逼了,也就是他自己去理解业务逻辑本身后,自己主动在数据库设计的时候加上了这一条策略,做了数据权限控制。
并且能主动将配置存入数据库,并从数据库中获取配置给到接口层。
![]()
我发现在解决后端 bug 问题上,这个模型能很好的定位问题。
这个是我用它生成的带前后端完整功能的电商产品详情页管理工具,这个一次性完成的。
![]()
还有我的经典 case 模仿生成器,也是一次性就完成,无论从页面前端效果还是功能可用上,完成的都比较高。
![]()
在多工具调用上,Pony Alpha 表现更为不错,我一次同时调用了公众号写作 skill,配图 skill,内容搜索 skill,根据需求就能生成一篇不错的公众号文章。
![]()
从初步的测试来看,Pony Alpha 模型的表现很不错,特别是在后端架构设计,多工具调用准确率上比较突出。
会是什么模型呢?还挺好奇的。
大家也都在猜测会是什么模型?有人猜测是 grok 4.2 或者是 DeepSeek 新模型。
![]()
也有猜测是 llama 5 的(哈哈哈,不大可能):
![]()
还有猜测是 GLM 5 的:
![]()
目前在 OpenRouter 上是免费的,可以给大家盲测。我来了个溯源提问,Pony Alpha 守口如瓶,依旧猜测不到。
![]()
我关注的 Reddy 大佬也来发表了看法,猜测是 Grok 4.2 要来了,他的依据是该模型擅长角色扮演。
![]()
有国外老哥很自信的说这绝对是来自中国的模型。
![]()
不是,你猜 Claude 5 就有点不符合逻辑了吧,哈哈哈。毕竟 Claude 4.6 刚刚发布。
![]()
这个模型一度引起了国外开发者和极客们的兴趣,纷纷都去测试。从大家的测试变现来看,代码能力表现非常出色。
![]()
甚至有老哥说 Pony Alpha 要称霸游戏世界了,一度让我蠢蠢欲动啊。
![]()
有老哥直言,如果 Pony Alpha 是一个开源模型,那将非常恐怖。
![]()
我个人觉得不大会是 Claude 5,毕竟刚发布Claude 4.6 Opus,OpenAI 也发布了GPT 5.3 Codex。
不大可能是 DeepSeek V4,他们一版是先发到用户群,说自己模型发了。
也不大可能是 Grok 4.2,在 agentic 和工具调用上,技术路线不大符合 Grok 的训练路线。
我猜测大概率是 GLM-5,结合前段日子唐杰老师在 X 上那句被反复引用的 “GLM 快了”,
![]()
这也比较符合 GLM 一直在 coding、agent 能力提升上的进化方向。
其实从大家的热议来看,有一个很有意思的点。
那就是大家也开始更多的关注中国的模型,出现了更多的 GLM、DeepSeek 这样的名字。
这在前两年,估计人们的第一反应是 GPT、Gemini 和 Claude 了。
这也表明在基座模型能力上,大家都起跑线也越来越接近了。
如果你也去体验了 Pony Alpha,评论区聊聊你觉得它到底是谁?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.