网易首页 > 网易号 > 正文 申请入驻

谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答

0
分享至


新智元报道

编辑:定慧

【新智元导读】谷歌的Gemini 3.0疑似上线LMArena!众多实测提前曝光,但效果嘛,很难评。

Gemini 3.0传了这么久,终于还是露出「马脚」了。

依然还是LMAreana竞技场,Gemini 3.0的两个「马甲」被扒了出来。

  • Gemini 3.0 Pro的马甲:lithiumflow

  • Gemini 3.0 Flash的马甲:orionmist


这已经是「传统艺能」了,每次新模型上线,都要去LMArena上去造势一番。


不过看了竞技场的实测结果,Gemini 3确实是真的有点东西,希望谷歌这次别再跟着OpenAI跑了,硬气一把!


此前Gemini 3的一些前端案例就曾流出,网友爆料称,谷歌下一代旗舰模型将在10月22日发布。


一些拿到内测资格的开发者,放出了部分demo。


不过这次是直接上线在LMArena竞技场里了。

「幸运」碰到Gemini 3马甲的用户分享了他们的例子,如果你也运气好,可以分享一下Gemini 3的表现是否有大幅度的提升。

AI第一次看懂钟表

实测「看表」一直是AI的大难题,这里面涉及多种因素,钟表样式、指针长短、指向、分钟间隔的判断等等。

不过Gemini 3 Pro(lithiumflow)的实测看出,这个模型已经可以精确到小时(6)、分钟(02)和秒(30)。


同样的问题,GPT-5 Thinking就有点「发癫」,直接识别成了12:30,有点时针、分针不分了。


用Gemini 2.5 Pro实测也是同样发癫,模型真的很难分辨时钟时间。


作为对比,LMArena中其他非顶级模型,「发癫」程度要更甚。

另外,在LMArena中实测了N次,一直没有碰到过Gemini 3的马甲。


如果竞技场里Gemini 3的马甲能力是真的,那确实Gemini 3还是非常值得期待!

SVG实测传统艺能,骑自行车的鹈鹕

新模型每次一出来,SVG测试是躲不开的。

Gemini 3 Pro的SVG测试效果,初看还是很不错的。


画面表现能力比之前测试的提升了不止一点,能看出甚至具有一点「抽象派」的风格。





<< 滑动查看下一张图片 >>

当然,骑自行车的鹈鹕是永远躲不过的,起码这次自行车画的是真不错。


不过需要吐槽的一点是,可能这个互联网模因meme「骑自行车的鹈鹕」成为了一个测试新模型的梗。

所以,各家模型似乎都悄悄的针对这个提示词,进行了微调。

比如下面这两个竞技场例子,不过没有强调使用SVG。


即使强调了使用SVG,效果依然很「完美」,相比之下Gemini 3画出来的反而不好看,效果一般。


第一个相当体面的作曲模型

另外一个大更新就是Gemini 3 Pro可以作曲了。

能模仿音乐风格,能长时间保持节奏,并带来一些活力和变奏。


你觉得这个音乐效果如何?

目前大部分实测还是在LMArena碰运气。

(顺便吐槽一下,跑了快100个提示了,还是没碰到Gemini 3)

那为什么判断这两个马甲就是Gemini 3的实测代号呢?

有人说「Orion」本身可能和Gemini 3有关,而且「orionmist」这种两个单词合成方法是谷歌会使用的。


此前,Gemini 3没上LMArena时,就有各种内测觉得这个很厉害。

甚至可以一个HTML符合整个MacOS、Windows系统的UI交互。


甚至只有1分钟,Gemini 3 Pro就能用SVG做出一整个风格动画。


截取了部分动画,这个效果看起来还是挺「唬人」的。


不过,也有部分人遇到的实测效果并不理想。


谷歌的Gemini 2.5发布也快一年,目前各个大科技厂都盯着OpenAI的动作。

在OpenAI打出GPT-5和新版Sora 2两张牌以后,谷歌只跟了一张Veo 3.1。

这波上线LMArena的估计是发布前的试水了,Gemini 3应该很快了!

总的来说,虽然模型确实强了不少,能看表、能画SVG、还能作曲,但整个AI圈的「传统艺能」也越来越固定了——

先传风声、再上LMArena、然后一堆人去撞马甲、测SVG、看谁更像真货。

看多了也不免有点腻。

毕竟,无论是Gemini 3、GPT-5还是Claude新版本,最后都还是那一套「实测截图+prompt对比+看图说话」。

模型越来越聪明,但我们的评测方式似乎还停在老套路上。

希望下一次,不只是模型更强,而是真的能玩出点新花样。

参考资料:

https://x.com/synthwavedd/status/1979969871921225881

https://x.com/ai_for_success/status/1979980654713696340

https://x.com/scaling01/status/1979996937743954101

https://x.com/scaling01/status/1979996937743954101

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
围炉煮茶,为啥凉了?

围炉煮茶,为啥凉了?

放牛娃的遐想
2026-02-25 08:14:29
妻子打麻将连赢十几年,真能通灵?丈夫进入地窖,发现惊天秘密

妻子打麻将连赢十几年,真能通灵?丈夫进入地窖,发现惊天秘密

农村情感故事
2025-09-07 07:51:19
领克致歉语音误关大灯后,极氪车主发现有同样缺陷

领克致歉语音误关大灯后,极氪车主发现有同样缺陷

观察者网
2026-02-27 11:21:04
别再等降价了!手机普涨潮已到,南京店员偷偷说:现在买就是赚

别再等降价了!手机普涨潮已到,南京店员偷偷说:现在买就是赚

数码八叔
2026-02-27 13:01:06
最初发现时仅1株!专家繁殖20年没成功,湖北农民只用6年种出27棵

最初发现时仅1株!专家繁殖20年没成功,湖北农民只用6年种出27棵

墨兰史书
2026-02-23 22:10:47
网贷的尽头是“综合评分不足”:2026年真相全解,为什么越借越拒

网贷的尽头是“综合评分不足”:2026年真相全解,为什么越借越拒

冒泡泡的鱼儿
2026-02-27 11:48:36
广东宏远大外援即将到位!218cm巨塔能否补强内线短板?

广东宏远大外援即将到位!218cm巨塔能否补强内线短板?

林子说事
2026-02-27 08:09:57
第四艘航母2027年下水,吨位近12万吨或全面超越福建舰

第四艘航母2027年下水,吨位近12万吨或全面超越福建舰

真的好爱你
2026-01-05 01:48:21
成本1500万,上映7天票房破1亿,《夜王》凭什么让观众疯狂买单?

成本1500万,上映7天票房破1亿,《夜王》凭什么让观众疯狂买单?

科学发掘
2026-02-27 01:15:22
9队全晋级!英超统治欧战的3大真相,真不只是有钱!

9队全晋级!英超统治欧战的3大真相,真不只是有钱!

落夜足球
2026-02-27 10:43:31
你经历过哪些杀人诛心的事?网友:所以没有婆婆拆散不了的家

你经历过哪些杀人诛心的事?网友:所以没有婆婆拆散不了的家

带你感受人间冷暖
2026-02-11 10:54:58
回顾:2012年山东一对新人蜜月被害,破案后新郎父亲说:怎么是你

回顾:2012年山东一对新人蜜月被害,破案后新郎父亲说:怎么是你

历来都很现实
2024-08-10 21:00:11
某教授在自媒体号大骂穿汉服的小朋友是“皇汉杂”,引起轩然大波

某教授在自媒体号大骂穿汉服的小朋友是“皇汉杂”,引起轩然大波

南权先生
2026-02-26 15:33:37
奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

奥运会为什么发避孕套?难道运动员都带伴侣吗?看完你就明白了!

南权先生
2026-02-13 15:17:51
刘美贤:奥运冠军的多动症优势

刘美贤:奥运冠军的多动症优势

美国华人杂谈
2026-02-26 09:29:05
向华强公布遗产细节,两个要求严控孙子孙女,一句话道尽苦衷

向华强公布遗产细节,两个要求严控孙子孙女,一句话道尽苦衷

李橑在北漂
2026-02-26 18:29:52
外国网民破防,美国制裁宇树机器人,美媒一句话让特朗普下不来台

外国网民破防,美国制裁宇树机器人,美媒一句话让特朗普下不来台

墨兰史书
2026-02-25 23:06:50
你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

你永远想不到医院的八卦能有多炸裂?一件提神醒脑,两件直接撂倒

另子维爱读史
2026-01-22 18:21:09
开始抢人!美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

开始抢人!美国一周挖走4名中国顶尖人才,年薪1个亿美元令人咋舌

古史青云啊
2026-02-26 19:45:46
跨境袭击白俄罗斯,破坏俄军通讯系统!泽连斯基揭穿卢卡申科本质

跨境袭击白俄罗斯,破坏俄军通讯系统!泽连斯基揭穿卢卡申科本质

鹰眼Defence
2026-02-25 18:40:24
2026-02-27 13:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14600文章数 66644关注度
往期回顾 全部

科技要闻

英伟达业绩亮眼仍跌5% 两大因素成核心隐忧

头条要闻

86岁畅销书作家杨本芬就“抄袭”道歉 曾获谷雨文学奖

头条要闻

86岁畅销书作家杨本芬就“抄袭”道歉 曾获谷雨文学奖

体育要闻

一场必须要赢的比赛,男篮何止击败了裁判

娱乐要闻

继网暴谷爱凌后 美国欲没收其全部收入

财经要闻

魅族手机,终成弃子?

汽车要闻

宝马X5传承版发布:给经典G05的一场体面谢幕?

态度原创

手机
本地
教育
亲子
军事航空

手机要闻

太牛了!苹果iPhone/iPad获准处理北约机密,安全等级堪比军工级

本地新闻

津南好·四时总相宜

教育要闻

甘肃广河县教育局发布情况通报

亲子要闻

不要让“大舌头”的标签,伤害孩子的自信

军事要闻

美国11架F-22隐形战机抵达以色列

无障碍浏览 进入关怀版