网易首页 > 网易号 > 正文 申请入驻

谷歌Gemini 3.1 Pro新王登场!一口气手搓Win11操作系统

0
分享至



性能暴增价格不变。

作者 |程茜 江宇

编辑 |心缘

智东西2月20日消息,谷歌正式发布其新一代旗舰模型Gemini 3.1 Pro。根据谷歌放出的基准测试,谷歌最强复杂任务处理模型Gemini 3.1 Pro在12项测试中超过Gemini 3 Pro、Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.2等模型,拿下第一。



谷歌DeepMind主要提升了Gemini 3.1 Pro的推理能力。面对业界公认高难度的ARC-AGI-2通用智能基准测试,Gemini 3.1 Pro斩获77.1%的高分,超越Claude、GPT模型,且成绩相较Gemini 3 Pro实现翻倍提升。

去年9月加入谷歌DeepMind的清华物理系传奇人物姚顺宇(Shunyu Yao)也发文官宣了新模型发布,并称“更好的Gemini模型正以势不可挡的速度涌现”



下面这一经典的“鹈鹕骑自行车SVG动画”对比,直观体现了新模型的能力提升,右侧Gemini 3.1 Pro生成的鹈鹕身体结构、骑行姿态自然合理,且自行车的车架、链条、脚踏、座椅等细节完整,相比Gemini 3 Pro的生成结果符合物理常识,更像一个完整的动画场景。



为Gemini 3.1开发SVG生成功能的清华校友Jiao Sun,在X上评论说“无比自豪”。

从今日起,Google AI Pro、Ultra订阅用户可以在Gemini应用、AI助手NotebookLM中使用Gemini 3.1 Pro,免费用户可向Gemini 3.1 Pro提问2次。开发者和企业用户可以在AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI及Android Studio的Gemini API预览版中使用Gemini 3.1 Pro。

Gemini 3.1 Pro预览版的API价格采用分级计费模式,与上一代Gemini 3 Pro预览版保持一致,提示词在20万token以内,每百万token输入价格2美元(约合人民币14元),输出价格12美元(约合人民币83元),提示词超过20万token,每百万token输入价格4美元(约合人民币28元),输出价格18美元(约合人民币124元)。



01.

能搭WebOS、能做《我的世界》

还能拆视觉错觉

Gemini 3.1 Pro的核心升级集中在复杂任务处理能力上。其博客透露,新模型在高级推理、多模态理解和复杂项目生成方面进一步强化,能够更好应对高难度工作场景。模型发布后,社区实测迅速跟进。

知名AI博主Chetaslua展示了其用Gemini 3.1 Pro一次性安装Windows 11 WebOS的结果。

Chetaslua在帖中直言:“上次我分享类似案例时还非常困难,现在已经变成常态。有了智能体系统,我们几乎可以用这个模型做任何事。”



他之前也发过用Gemini 3.0 Pro生成Windows Web操作系统的视频,两个视频放一起对比,提升效果非常明显。

Gemini 3.1 Pro生成的系统界面有完整应用图标、开始菜单样式布局以及基础窗口交互逻辑,整体形态更接近一个可运行的轻量级操作系统。

相比之下,之前3.0 Pro生成的系统形态相对简陋,一些基础桌面交互和系统级应用缺失。

另一组更偏工程化的案例显示,有开发者用Gemini 3.1 Pro在浏览器中直接生成并运行了一个可交互的VoxelWeb项目,形态类似“我的世界”式3D沙盒。

界面已包含启动按钮、移动控制、方块交互以及基础合成逻辑,具备完整的轻量沙盒雏形。



在前端生成与动画细节方面,也有开发者要求模型生成一段完整的交互式生长动画,覆盖种子发芽、根系形成、枝干生长到树叶展开的全过程。



实测结果显示,模型在生长阶段衔接与叶片细节上表现较为完整。该开发者评价称:“这是我在这个提示词下见过最好的树叶效果。”

视觉理解方向的测试则进一步拉高了难度。有网友专门验证“AgenticVision”能力,输入素材是一张看似普通的街头垃圾桶照片。

模型不仅完成了基础识别,还进一步指出:当眯眼或拉远观看时,画面中的垃圾、阴影与轮廓会在视觉上拼合成两个并排而坐的卡通角色。模型还逐项拆解了这一视觉错觉的形成机制,解释不同布料、垃圾袋与阴影分别对应角色的头部、身体与外轮廓关系,体现出多步视觉推理能力。



整体来看,Gemini 3.1 Pro已经开始触及空间关系理解、形状映射和视觉错觉解释等更高阶视觉认知任务。开发者给出的综合判断是,其表现已进入当前第一梯队水平。

我们还用“开车还是步行去距离100米的洗车店洗车”、“父母能否结婚”等陷阱题考了考Gemini 3.1 Pro,结果它都成功避坑答对。



02.

手搓《模拟城市》

创意编程、交互式设计分分钟搞定

谷歌DeepMind的官方X账号展示了谷歌UX工程师Michael Chang用Gemini 3.1 Pro开发了一个逼真的城市规划应用程序。Gemini 3.1 Pro能自己处理复杂地形、绘制基础设施图、模拟交通,最后生成高质量的可视化效果。

除了上面提到的鹈鹕骑自行车,Gemini 3.1 Pro在生成青蛙骑老式高轮自行车、长颈鹿驾驶微型汽车、鸵鸟穿着旱冰鞋等各种抽象画面的SVG动画上,表现也毫不逊色。相比Gemini 3 Pro,Gemini 3.1 Pro的生成效果整体场景更生动、更有故事感,细节表现力大幅提升。

如Gemini 3.1 Pro可以直接根据文本提示生成可用于网站的动画SVG,并且由于这些动画是用纯代码而非像素构建的,因此在任何尺寸下都能保持清晰,并且文件体积相比传统视频非常小

Gemini 3.1 Pro的复杂推理能力,能帮助用户使用复杂API完成设计。如下面案例,该模型构建了一个实时航空航天仪表盘,成功配置了公共遥测数据流,以可视化国际空间站的轨道运行轨迹。

在交互式设计方面,Gemini 3.1 Pro可以编写代码,生成一个复杂的3D椋鸟群飞模拟。并且其还能构建沉浸式体验,用户可以通过手势追踪操控鸟群,同时聆听一段生成式配乐,音乐会随着鸟群的动态变化而改变。

Gemini3.1 Pro还能进行创意编程, 将文学主题转化为可运行的代码。当被要求为艾米莉·勃朗特(Emily Brontë)的《呼啸山庄》构建一个现代个人作品集网站时,该模型深入分析了小说的氛围基调,设计出一个简洁现代的界面,打造出一个能捕捉主角精神内核的网站。

03.

编程、推理、多模态样样行

数项测试超Claude、GPT模型

研究人员在一系列基准测试中对Gemini 3.1 Pro进行了评估,包括推理、多模态能力、智能体工具使用、多语言性能和长上下文。

相比Gemini 3 Pro、Claude Sonnet 4.6、Claude Opus 4.6、GPT-5.2、GPT-5.3-Codex,Gemini 3.1 Pro在12项基准测试中拿下第一

在需要更强推理能力的测试中,Gemini 3.1 Pro在人类最后的考试、ARC-AGI-2、GPQA Diamond 3项测试中,表现都优于Claude、GPT模型。

编程能力测试中,Gemini 3.1 Pro在SWE-Bench Pro(公开版)和SWE-Bench Verified中得分相对较低,这两大测试集考验的是模型在真实项目中理解需求、定位问题、修改代码、保证可用的端到端工程能力。

GDPval-AA Elo是当前衡量大模型在高价值知识工作中综合能力的相对评分体系,Gemini 3.1 Pro的表现优于GPT-5.2、GPT-5.3-Codex,仅次于Sonnet 4.6。

衡量大模型工具使用能力的τ2-bench、MCP Atlas、BrowseComp、多语言性能的MMLU、长上下能力的MRCR v2测试集中,新模型的表现同样优于其他模型。

在多模态大模型学术评测基准MMMU-Pro上,Gemini 3.1 Pro的表现比Claude、GPT模型更好,但略逊于Gemini 3 Pro。

04.

结语:大模型竞赛焦点

转向复杂任务落地能力

当前大模型行业正从通用能力比拼,转向真实世界复杂任务的实战能力竞争,海内外各家模型在推理、工程化、多模态理解等核心能力上不断发力突破,力求让大模型真正落地应用,与真实业务场景相结合。

谷歌近期的加速布局也是如此,其上周发布了Gemini 3 Deep Think模型升级、一周后又推出Gemini 3.1 Pro,都将模型的升级重点放在专业领域加速技术研发、解决实际工作中的复杂问题上。可以看出,当下大模型已经让更智能的大模型真正具备解决真实世界复杂任务能力,AI成为专业领域核心生产力的潜力增加。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
访华前,特朗普宣布对中国加税,不到24小时,白宫收到巨额账单

访华前,特朗普宣布对中国加税,不到24小时,白宫收到巨额账单

肖兹探秘说
2026-02-23 22:40:35
张馨月带林峯回江苏老家过年,给女儿穿大码衣服,被吐槽衣品一般

张馨月带林峯回江苏老家过年,给女儿穿大码衣服,被吐槽衣品一般

草莓信箱
2026-02-23 18:05:34
黄晓明紧急发文警告前妻baby!秀恩爱请注意形象,别影响我的家庭

黄晓明紧急发文警告前妻baby!秀恩爱请注意形象,别影响我的家庭

八卦王者
2026-02-22 10:56:41
市盈率低,股息率高,股价被“遗忘”的10只股票!

市盈率低,股息率高,股价被“遗忘”的10只股票!

财经智多星
2026-02-23 13:26:11
20亿大单,必须“先打钱,再发货”?比亚迪给印度车企上了一课

20亿大单,必须“先打钱,再发货”?比亚迪给印度车企上了一课

毒sir财经
2026-02-23 17:40:32
1997年香港回归前夜,英军30艘军舰兵犯南海,中方:撞就撞谁怕谁

1997年香港回归前夜,英军30艘军舰兵犯南海,中方:撞就撞谁怕谁

芊芊子吟
2026-02-22 23:30:03
央视披露一起现实版《惊蛰无声》:外籍男子多次请吃烧烤增进感情,一航天科研人员留学时被策反,大量搜集我国航天核心情报,被判刑7年

央视披露一起现实版《惊蛰无声》:外籍男子多次请吃烧烤增进感情,一航天科研人员留学时被策反,大量搜集我国航天核心情报,被判刑7年

扬子晚报
2026-02-23 14:44:43
原来他已去世7年,中国第3位世乒赛男单冠军,妻子也是乒乓国手

原来他已去世7年,中国第3位世乒赛男单冠军,妻子也是乒乓国手

白面书誏
2026-02-20 23:42:54
上海高速,司机突然四肢瘫软,120因拥堵无法抵达

上海高速,司机突然四肢瘫软,120因拥堵无法抵达

看看新闻Knews
2026-02-23 19:44:06
北京卫视首播!40集谍战大作来袭,“谍战教父”柳云龙重磅回归

北京卫视首播!40集谍战大作来袭,“谍战教父”柳云龙重磅回归

乐枫电影
2026-02-23 14:32:34
新加坡大满贯赛:大爆冷!张本美和松岛辉空被淘汰,2:3无缘8强

新加坡大满贯赛:大爆冷!张本美和松岛辉空被淘汰,2:3无缘8强

国乒二三事
2026-02-23 16:09:21
破5.71亿,谢霆锋接住了吴京的戏,越剧小花一出场令全场惊艳

破5.71亿,谢霆锋接住了吴京的戏,越剧小花一出场令全场惊艳

电影烂番茄
2026-02-22 00:46:46
连登14次春晚的解晓东,如今身败名裂家财被拍卖,落魄住进养老院

连登14次春晚的解晓东,如今身败名裂家财被拍卖,落魄住进养老院

小熊侃史
2026-02-23 13:00:44
章子怡带女儿玩飞拉达,10岁醒醒胆子好大,悬空行走一点都不怕

章子怡带女儿玩飞拉达,10岁醒醒胆子好大,悬空行走一点都不怕

扒虾侃娱
2026-02-23 18:24:05
巨亏233亿背后!美团已显力不从心,京东还未全力以赴

巨亏233亿背后!美团已显力不从心,京东还未全力以赴

一地基毛
2026-02-22 23:30:02
卫冕冠军绝杀!完败+双杀!英超豪门沦为保级队,阿森纳稳居榜首

卫冕冠军绝杀!完败+双杀!英超豪门沦为保级队,阿森纳稳居榜首

乌龙球OwnGoal
2026-02-23 03:29:11
那尔那茜报复陈丽君!?

那尔那茜报复陈丽君!?

八卦疯叔
2026-02-23 10:54:55
贾玲背刺沈腾《飞驰人生3》!?

贾玲背刺沈腾《飞驰人生3》!?

八卦疯叔
2026-02-23 11:07:57
美国国务卿鲁比奥宣布任命新任美国“西藏特别事务协调员”,外交部:是在干涉中国内政,中方从来不予承认

美国国务卿鲁比奥宣布任命新任美国“西藏特别事务协调员”,外交部:是在干涉中国内政,中方从来不予承认

扬子晚报
2026-02-23 21:23:51
随着赵心童10-7夺冠,世界排名超越希金斯!最新前16中丁俊晖第15

随着赵心童10-7夺冠,世界排名超越希金斯!最新前16中丁俊晖第15

球场没跑道
2026-02-23 07:07:37
2026-02-23 23:32:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11246文章数 116976关注度
往期回顾 全部

数码要闻

iPhone 17 Pro系列绝配!小米金沙江磁吸充电宝将推橙色版 仅6mm厚

头条要闻

伊朗总统:伊美谈判出现“令人鼓舞”信号

头条要闻

伊朗总统:伊美谈判出现“令人鼓舞”信号

体育要闻

哈登版骑士首败:雷霆的冠军课

娱乐要闻

那艺娜账号被禁止关注,视频已清空!

财经要闻

美国海关将停止征收被裁定违法的关税

科技要闻

智谱、MiniMax合计蒸发近千亿市值,为何?

汽车要闻

续航1810km!smart精灵#6 EHD超级电混2026年上市

态度原创

教育
房产
本地
公开课
军事航空

教育要闻

开学前给大家一些提醒,效果最好

房产要闻

窗前即地标!独占三亚湾C位 自贸港总裁行宫亮相

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军重兵集结蓄力作战之际 新一轮美伊谈判时间“敲定”

无障碍浏览 进入关怀版