网易首页 > 网易号 > 正文 申请入驻

把海外网友晃瞎的神秘大模型,还是中国制造。

0
分享至


今年春节,这些大模型厂商属于是一点寂寞也耐不住了。

轮流发射,啊不,应该说是轮流在喷射新的模型出来。

除了万众瞩目的 DeepSeek 还在憋气,其他大模型公司都没少闲着。。。

字节前几天搞了个 Seedance 2.0,靠着逼真的视频效果先下一城。

而智谱则是在海外整了个新活:

经常关注大模型发布的差友们这几天应该有刷到,前几天,程序员非常爱用的 AI 聚合平台,Openrouter 那边上架了一款匿名模型 —— Pony Alpha。


结果大家一上手使用后发现哥们是真能干事啊,定叫它好评如潮。


于是,热情吃瓜的海外网友就开始了经典的模型猜猜猜游戏,开始推测这个匿名模型是哪一家的手笔。


有说是 DeepSeek V4 的,也有说是 Grok 4.2 的,还有说是 llama 5 的。

还有人因为 Pony 这个代号,直接开始猜它是腾讯的新模型的。。。

可以说是众说纷纭。


而昨天,谜底正式揭晓了。

不装了,我摊牌了。

这个化名为 pony 的新东西,正是来自于智谱的GLM-5,而且还是个开源的模型。


世超打开 GLM-5 的基准测试成绩翻了一下,在智谱最看中的代码能力这块,GLM-5 直接逼近了大家公认的 AI 编码冠军,Claude Opus 4.5。


当然,现在各种各样的 AI 排行榜太多了,大家可能不太理解智谱这次测的这个 CC-bench-V2 又是个啥排行榜,代表了啥?

我简单看了一下,智谱这次测的这个 CC-bench-V2,主要考验的是你模型补全代码的能力有多强。

说人话一点,就是把模型丢到一个没写完的工程里,然后看它能不能自个儿哼哧哼哧把项目给做完。

这块考的分越高,说明这次 GLM-5 处理复杂任务的能力越强。

众所周知,现在大家想让 AI 干的活那是越来越复杂,生成几个简单的 Html 文件已经难不倒这些 AI 大模型了。

而想要把大项目给做好,那就需要让模型具备这种处理复杂任务的能力。

另外还有个有趣的测试结果是,GLM-5 发生幻觉概率非常低。

当一个问题它不知道的时候,GLM-5 会有很大的概率直接说不知道,而不是原地开始胡编乱造。


给孩子教的非常实诚了属于是。

既能干活,又不容易产生幻觉。。。GLM-5 的这波更新,属于完全冲着要让 AI 好好干活去整的。

在官网上世超还看到一个非常惊艳的案例,他们直接让 GLM-5 复刻了一个我的世界。


我下过来体验了一下,发现整个游戏只需要依赖浏览器就能运行。

能跑能挖能叠方块,操作手感非常流畅。


看别人拿 GLM-5 给整的这么猛,世超决定自己也简单试一试。

先来点简单点的活,拿前两天特别火的洗车问题来考考它。


我想洗车,我家距离洗车店只有 50 米,请问你推荐我走路去还是开车去呢?

别看这个问题简单,前几天整懵了一堆大模型,不管是 DeepSeek 还是 OpenAI,还是其他的大模型。。。都全军覆没


这些大模型都觉得 50 米的距离太近了,谁开车啊,于是转头建议大家走路去洗车。。。


而 GLM-5 面对这个问题,则是直接看透了问题的本质 ——人不开车怎么洗车呢?然后完成了一波干净利索的输出。


当然,这种简单的逻辑题不翻车只能算合格,接下来,世超准备给它上点难度,看看它写代码的水平。

不知道差友们前段时间有没看过一个叫《技能五子棋》的喜剧。

剧里的演员们就在传统五子棋的基础上,加入了各种各样花里胡哨的技能元素。

比如,“飞沙走石” 这个技能,就是把棋盘上对方的一枚棋子给拿起来丢掉。


再比如“静如止水”这个技能,就是给对面玩家上定身术,让他不能继续下棋。

所以世超决定用 AI 来快速复刻一下这个整活游戏。

咱们就敲这么一段话,接下来全部交个 GLM 自由发挥。


结果不到三分钟,它就给我搓完了。


打开一看,整的还挺有模有样的。。。


不但我要求它安排的四个技能都整上去了,还给自动生成了另外四个技能。

但是仔细一玩就露馅了。

点击了飞沙走石(移除对面一个棋子)的技能,把对面的棋子给扔掉了之后,

按理来说要么是我继续下棋,要么是对面下棋对吧。

这两种情况还在我的理解范围中,AI 给我写成哪种逻辑我都能理解。

但是 GLM 在这个 A or B 的选择题中,选了 or。

它让我选择给对面的棋子下到哪里,明显是神志不清逻辑错乱了。


不过好在它也很听劝,把我们的需求再和它复述一下,那它很快就能 Get 到我们想要什么效果。


这样一来,我们就得到了一个可以和 AI 原地对战的技能五子棋游戏。


坦白说,现在 AI 写代码早就不是什么稀奇事了,能写出这种量级的 Demo 只能说是 GLM-5 的基本操作,还比较在世超的意料之中。

但比较遗憾的是,因为这次上手的时间实在太短,世超没法拿那些真正复杂的业务代码去狠狠“拷打”一下它,看看它在那种成百上千个文件的大项目里,是不是还能保持这种清醒。

不过大家别急,今年世超手头正好攒了一堆复杂的烂摊子需求,准备年后面慢慢丢给它去跑一跑。

等后面深度体验了一段时间,真的摸清了它的上限和脾气,再来和大伙做个更详细的汇报。

撰文:早起

编辑:江江 & 面线

美编:素描

图片、资料来源:智谱官网、X、网络


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
林诗栋勇夺2026年首冠!感恩刘志强指导,球迷直言王皓尴尬难当

林诗栋勇夺2026年首冠!感恩刘志强指导,球迷直言王皓尴尬难当

卿子书
2026-01-31 16:37:33
最强天然大身材的她还是个球迷!

最强天然大身材的她还是个球迷!

碧波万览
2026-02-13 03:40:07
炸裂!湖南法官判男方净身出户,转身娶了拿走全部家产的女方

炸裂!湖南法官判男方净身出户,转身娶了拿走全部家产的女方

麦大人
2025-11-28 20:18:30
广东一公园凌晨4点公放“恭喜发财”音乐,有市民在睡梦中被吵醒!公园:线路出现故障

广东一公园凌晨4点公放“恭喜发财”音乐,有市民在睡梦中被吵醒!公园:线路出现故障

广东吃喝玩乐
2026-02-12 12:06:24
立陶宛高层再表态:愿讨论更名,释放修复关系信号

立陶宛高层再表态:愿讨论更名,释放修复关系信号

一口娱乐
2026-02-13 01:07:03
立陶宛总理:考虑将“台湾代表处”更名为“台北代表处”

立陶宛总理:考虑将“台湾代表处”更名为“台北代表处”

扬子晚报
2026-02-12 11:04:17
体验完智谱刚刚发布的 GLM-5,我终于明白它为什么让硅谷猜破了头

体验完智谱刚刚发布的 GLM-5,我终于明白它为什么让硅谷猜破了头

爱范儿
2026-02-12 13:45:23
黑天鹅出现后,中方公布黄金存量,购金潮爆发,华盛顿有求于北京

黑天鹅出现后,中方公布黄金存量,购金潮爆发,华盛顿有求于北京

别人都叫我阿腈
2026-02-13 02:55:04
国际贵金属继续下挫 现货黄金跌超3%

国际贵金属继续下挫 现货黄金跌超3%

财联社
2026-02-13 00:20:05
黄一鸣直播喊话王思聪:孩子需要爸爸!网友却说她是“豪赌失败”

黄一鸣直播喊话王思聪:孩子需要爸爸!网友却说她是“豪赌失败”

未曾青梅
2026-02-11 23:54:24
刘青云夫妇洛阳度假,58岁郭蔼明穿破洞裤,不用带娃不愁钱像40岁

刘青云夫妇洛阳度假,58岁郭蔼明穿破洞裤,不用带娃不愁钱像40岁

八怪娱
2026-02-12 11:03:53
惊天逆转!俄罗斯拟重返美元体系,全球格局彻底改写

惊天逆转!俄罗斯拟重返美元体系,全球格局彻底改写

老马拉车莫少装
2026-02-13 03:19:04
官方:U17亚洲杯中国队分组出炉!

官方:U17亚洲杯中国队分组出炉!

五星体育
2026-02-12 17:32:54
直接摊牌了!国防部这次没留任何余地,直接把话挑明了

直接摊牌了!国防部这次没留任何余地,直接把话挑明了

安安说
2026-02-12 21:18:01
特朗普支持率暴跌,白宫发文恳求支持者不要失去信心:我们正在赢

特朗普支持率暴跌,白宫发文恳求支持者不要失去信心:我们正在赢

爱看剧的阿峰
2026-02-11 19:31:23
浙江破获首例“洗机”黑产案:核心技术人员均任职知名大厂

浙江破获首例“洗机”黑产案:核心技术人员均任职知名大厂

澎湃新闻
2026-02-12 20:40:27
北京市常务副市长:首都都市圈是目前我国唯一拥有两个直辖市的都市圈,具有独一无二的发展优势

北京市常务副市长:首都都市圈是目前我国唯一拥有两个直辖市的都市圈,具有独一无二的发展优势

红星新闻
2026-02-12 11:57:06
iOS 26.3正式版翻车:欧盟吃肉,国行喝汤,这次吃相真的太难看了

iOS 26.3正式版翻车:欧盟吃肉,国行喝汤,这次吃相真的太难看了

小8说科技
2026-02-12 14:54:02
超级工程,我国一旦全面完成,中国军队将处于世界顶峰

超级工程,我国一旦全面完成,中国军队将处于世界顶峰

米师傅安装
2026-02-13 01:38:34
心脏最怕“缺镁”!医生提醒:心脏不好的,可多吃这5种高镁食物

心脏最怕“缺镁”!医生提醒:心脏不好的,可多吃这5种高镁食物

九哥聊军事
2026-02-12 21:41:25
2026-02-13 04:20:49
差评XPIN incentive-icons
差评XPIN
用知识和观点Debug the world!
10272文章数 489445关注度
往期回顾 全部

艺术要闻

震惊!罗布泊的模特竟然如此美艳动人!

头条要闻

钟南山:会用证据让全世界服气

头条要闻

钟南山:会用证据让全世界服气

体育要闻

31岁首次参加冬奥,10年前她是个水管工

娱乐要闻

《惊蛰无声》违规抢占排片遭影院控诉

财经要闻

“影子万科”如何掘金万科?

科技要闻

10倍速的一夜:三大模型春节前的暗战

汽车要闻

开212 T01柴油版去穿越 连牧马人都跟不上

态度原创

教育
本地
手机
公开课
军事航空

教育要闻

AI替代人并不可怕,只需掌握这三条

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

手机要闻

科技记者古尔曼:预计苹果将在未来几周内推出iPhone 17e以及M4芯片版iPad Air

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美国新交付F35隐身战机没雷达

无障碍浏览 进入关怀版