网易首页 > 网易号 > 正文 申请入驻

刚刚,Gemini 3.1 Pro 发布!清华姚顺宇站台宣传,Karpathy:应用商店的时代结束了

0
分享至

  刚在印度 AI 峰会上经历了最尴尬的一幕,Google CEO Sundar Pichai 转头就在今天凌晨官宣了最新模型 Gemini 3.1 Pro。

  

  时机选得,相当精准(doge)。

  

  OpenAI CEO 和 Anthropic CEO 在合影时拒绝握手,而是高举拳头。

  虽然距离上周 Gemini 3 Deep Think 的更新没几天,但 3.1 Pro 的定位,Google 说得很清楚——专为那些「一个简单答案远远不够」的任务而设计,是解决复杂问题的基础底座。

  按惯例,0.1 的版本号更新通常意味着小修小补,然而, 在测试模型解决全新逻辑模式能力的 ARC-AGI-2 基准上,3.1 Pro 拿下 77.1%,是上代 3 Pro(31.1%)的两倍多,同时压过了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。

  

  其它方面,科学知识测试 GPQA Diamond 拿了 94.3%,智能体类基准 MCP Atlas 和 BrowseComp 分别拿下 69.2% 和 85.9%。

  

  编程能力方面,竞争性编程基准 LiveCodeBench Pro 的 Elo 评分达到 2887,超过 3 Pro 的 2439 和 GPT-5.2 的 2393。SWE-Bench Verified 上,3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。

  当然,3.1 Pro 也不是处处碾压。

  多模态基准 MMMU Pro 上,上代 3 Pro 反而略胜(81.0% vs 80.5%);启用工具支持的 Humanity's Last Exam 里,Opus 4.6 以 53.1% 拿了第一。外界长期批评 Google 工具使用效率不如对手,这次还是没能完全堵上嘴。

  第三方知名分析机构 Artificial Analysis 则给出了相当实在的评价。

  

  3.1 Pro 在他们的智能指数里排名第一,比 Opus 4.6 高 4 分;整个测试跑下来总计使用约 5700 万 tokens,完成测试的成本不到 Opus 4.6 的一半。能打又省钱,这个组合还是很香的。

  Google DeepMind 首席科学家 Jeff Dean 也转发了一个是用 3.1 Pro 模拟城市规划、设计全新城市的应用,从零生成可交互的规划界面 demo。

  

  Google 官方博客则展示了几个更日常的方向。代码动画方面,3.1 Pro 可以直接根据文字提示生成动态 SVG,因为是纯代码生成而非像素,任意缩放都不失真,文件体积也远小于传统视频。

  

  复杂系统方面,模型直接接入公开遥测数据流,搭出了一个实时追踪国际空间站轨道的航天仪表盘。

  

  更有意思的是两个创意类 demo。

  一个是 3D 椋鸟群模拟,不只是生成视觉代码,还支持用手势操控鸟群,并配有随鸟群动态变化的生成音乐;

  

  另一个是把《呼啸山庄》的文学氛围转化成一个现代个人网站,模型没有简单概括情节,而是分析了小说的整体基调,设计出了贴合主人公气质的界面风格。

  

  此外,网友们也贡献了不少精彩的案例。有人让 3.1 Pro 生成一个「鬼怪猎人穿越鬼屋」的动态 SVG 循环动画,结果直接看呆,评价是「Google 这次是认真的」。

  

  还有网友认为让它生成种子破土、根系延伸、茎秆冒出、叶片展开、直到长成完整大树的交互动画,每个生长阶段的过渡都顺滑自然,说这是见过最好的同类效果。

  

  去年从 Anthropic 转投 Google DeepMind 的清华物理系特奖得主姚顺宇也站台宣传:「Gemini 不仅是一个优秀的模型,而且更好的模型正以不可阻挡的方式到来。」

  

  当然,这些 demo 加在一起说的是同一件事:模型能做的事,已经从单纯的回答问题延伸到完成一整套专业或创意工作流了。

  价格方面,API 按分级付费,整体和上代 3 Pro 保持一致,但跟 Anthropic Opus 系列比还是相对便宜的。

  20 万 tokens 以内,输入 2 美元 / 每百万 tokens,输出 12 美元;超过 20 万 tokens,输入涨到 4 美元,输出 18 美元。搜索功能每月前 5000 次免费,之后每 1000 次查询收费 14 美元。

  

  现在,开发者可以在 AI Studio、Gemini API、Gemini CLI、智能体开发平台 Google Antigravity 以及 Android Studio;企业用户在 Vertex AI 和 Gemini Enterprise;普通用户在 Gemini 应用和 NotebookLM 都能用,后者仅限 Pro 和 Ultra 订阅。

  值得注意的是,3.1 Pro 目前只是预览版,Google 大概率是要继续打磨好智能体工作流再推正式版,向外界展示出一副还没使全力的姿态。

  至于这种能力渗透到个人层面会发生什么,这让我联想到了 OpenAI 联创 Andrej Karpathy 刚刚发布的推文:

  他想用 8 周时间把静息心率从 50 降到 45,计划是设定 Zone 2 有氧总时长目标,配合每周一次 HIIT。为了追踪进展,他花了 1 小时用 vibe coding 做了一个专属仪表盘。

  

  上下滑动查看更多内容

  过程比想象中麻烦,Claude 需要对 Woodway 跑步机的云 API 进行逆向工程,提取原始数据,处理筛选,搭出 Web 前端界面,中间还有公制英制单位混用、日历日期对不上这些 bug 需要手动发现并要求修复。

  Karpathy 的感叹很直接,两年前这事得花 10 小时,现在 1 小时。但他更在意的是:这本来应该只需要 1 分钟。

  他的判断是,应用商店模式正在过时。

  300 行代码、LLM 几秒生成的专属工具,没必要变成一个正经 App 让你去搜索下载。他同时也点了行业的问题:99% 的产品仍然没有 AI 原生的 CLI,还在维护给人看的前端界面,而不是直接提供便于 Agent 调用的 API。

  Woodway 跑步机本质上就是个传感器,结果还得让 LLM 去逆向工程它,完全没必要。

  把 Jeff Dean 的城市规划 demo 和 Karpathy 的跑步仪表盘放在一起看,其实是同一件事的两面。当普通人花 1 小时就能为自己做一个高度定制的专属工具,由 AI 原生传感器和执行器构成、LLM 负责编排、即兴生成高度定制专属应用的时代,就已经近在眼前了。

附官方博客:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
4月最后一夜爆雷潮!9龙头亏超百亿,53股巨亏,4大高危板块曝光

4月最后一夜爆雷潮!9龙头亏超百亿,53股巨亏,4大高危板块曝光

慧眼看世界哈哈
2026-05-01 05:59:44
又一反华势力曝光,试图“给钱”让中国青年“躺平”

又一反华势力曝光,试图“给钱”让中国青年“躺平”

深度报
2026-05-01 22:43:31
皇家马德里将以耻辱性纪录载入足坛史册

皇家马德里将以耻辱性纪录载入足坛史册

本泽体育
2026-05-02 17:21:59
被震撼到了,实拍橘子洲头扫码抢票人群!本地人:欢迎大家来到长沙,吃好逛好

被震撼到了,实拍橘子洲头扫码抢票人群!本地人:欢迎大家来到长沙,吃好逛好

三湘都市报
2026-05-02 11:10:22
媒体人谈世界杯版权:时间越晚价格只会越低,因为已来不及招商

媒体人谈世界杯版权:时间越晚价格只会越低,因为已来不及招商

懂球帝
2026-05-02 16:56:09
范冰冰 大方公开 :18亿是真 ,没打算复合。

范冰冰 大方公开 :18亿是真 ,没打算复合。

In风尚
2026-05-02 06:04:17
东航飞机因机械故障撞上廊桥,业内人士解读:很有可能是刹车失灵所致

东航飞机因机械故障撞上廊桥,业内人士解读:很有可能是刹车失灵所致

极目新闻
2026-05-02 15:45:59
章若楠空杯到底有多美?网友说:这颜值谁顶得住,难怪都想娶!

章若楠空杯到底有多美?网友说:这颜值谁顶得住,难怪都想娶!

动物奇奇怪怪
2026-05-02 21:32:20
第3冠!德比斯感谢张雪:给了我一台很好的车 一骑当先 游刃有余

第3冠!德比斯感谢张雪:给了我一台很好的车 一骑当先 游刃有余

念洲
2026-05-02 21:09:58
美媒:伊朗放宽与美国恢复和谈的条件

美媒:伊朗放宽与美国恢复和谈的条件

参考消息
2026-05-02 18:52:30
世界杯版权谈崩!足联张口要3亿,央视仅出8千万,评论区十分清醒

世界杯版权谈崩!足联张口要3亿,央视仅出8千万,评论区十分清醒

谭谈社会
2026-05-01 23:43:14
贝家颜值神话落幕,小七也没能接住贝克汉姆的神颜

贝家颜值神话落幕,小七也没能接住贝克汉姆的神颜

述家娱记
2026-05-02 10:05:12
40岁女人亲口承认:最抵抗不了男人的4种“坏”,越坏越离不开

40岁女人亲口承认:最抵抗不了男人的4种“坏”,越坏越离不开

皓皓情感说
2026-05-02 07:45:03
皇马悔青肠子!死保姆巴佩的同时,当初错过的神锋正在持续封神

皇马悔青肠子!死保姆巴佩的同时,当初错过的神锋正在持续封神

奶盖熊本熊
2026-05-03 02:07:54
世锦赛半决赛战报,11-11,13-11吴宜泽痛失好局,希金斯创造历史

世锦赛半决赛战报,11-11,13-11吴宜泽痛失好局,希金斯创造历史

砚底沉香
2026-05-02 21:30:59
突发!美国国会提议FDA禁用中国临床数据,中国药企和医药BD面临挑战

突发!美国国会提议FDA禁用中国临床数据,中国药企和医药BD面临挑战

药时空
2026-05-02 10:13:35
美国最高院最新裁决,川普阵营赢得压倒性胜利

美国最高院最新裁决,川普阵营赢得压倒性胜利

壹家言
2026-05-02 09:21:56
44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

44岁前TVB花旦失落金像奖不气馁,自爆广州祖业已被亲戚分光

TVB剧评社
2026-05-01 21:24:01
网络疯传赖清德妻子在美国购买亿元豪宅,赖办回应了

网络疯传赖清德妻子在美国购买亿元豪宅,赖办回应了

海峡导报社
2026-05-02 10:52:21
世锦赛半决赛第三阶段:吴宜泽打出两杆140+,11-11平艾伦

世锦赛半决赛第三阶段:吴宜泽打出两杆140+,11-11平艾伦

懂球帝
2026-05-02 21:09:56
2026-05-03 04:31:00
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6336文章数 26831关注度
往期回顾 全部

数码要闻

Perplexity称赞Mac mini是其Personal Computer的最佳本地部署平台

头条要闻

父母互相拍照 6岁儿子失足坠落20米山崖

头条要闻

父母互相拍照 6岁儿子失足坠落20米山崖

体育要闻

休赛期总冠军,轮到休斯顿火箭

娱乐要闻

高圆圆赵又廷游三亚 牵手逛街好甜蜜

财经要闻

雷军很努力 小米还是跌破了30港元大关

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

时尚
房产
艺术
游戏
家居

连衣裙还得是“法式”,性感妩媚却不轻浮

房产要闻

五一楼市彻底明牌!塔尖人群都在重仓凯旋新世界

艺术要闻

看!海夫兰笔下的美女,令人惊艳的艺术之美!

合作恐怖《Devil of the Plague》登陆Steam EA

家居要闻

灵动实用 生活艺术场

无障碍浏览 进入关怀版