网易首页 > 网易号 > 正文 申请入驻

刚刚,Gemini 3.1 Pro 发布!清华姚顺宇站台宣传,Karpathy:应用商店的时代结束了

0
分享至

读完文章

领取 APPSO 2026 年马年春节

限定红包 封面

刚在印度 AI 峰会上经历了最尴尬的一幕,Google CEO Sundar Pichai 转头就在今天凌晨官宣了最新模型 Gemini 3.1 Pro。


时机选得,相当精准(doge)。


OpenAI CEO 和 Anthropic CEO 在合影时拒绝握手,而是高举拳头。

虽然距离上周 Gemini 3 Deep Think 的更新没几天,但 3.1 Pro 的定位,Google 说得很清楚——专为那些「一个简单答案远远不够」的任务而设计,是解决复杂问题的基础底座。

按惯例,0.1 的版本号更新通常意味着小修小补,然而, 在测试模型解决全新逻辑模式能力的 ARC-AGI-2 基准上,3.1 Pro 拿下 77.1%,是上代 3 Pro(31.1%)的两倍多,同时压过了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。


其它方面,科学知识测试 GPQA Diamond 拿了 94.3%,智能体类基准 MCP Atlas 和 BrowseComp 分别拿下 69.2% 和 85.9%。


编程能力方面,竞争性编程基准 LiveCodeBench Pro 的 Elo 评分达到 2887,超过 3 Pro 的 2439 和 GPT-5.2 的 2393。SWE-Bench Verified 上,3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。

当然,3.1 Pro 也不是处处碾压。

多模态基准 MMMU Pro 上,上代 3 Pro 反而略胜(81.0% vs 80.5%);启用工具支持的 Humanity's Last Exam 里,Opus 4.6 以 53.1% 拿了第一。外界长期批评 Google 工具使用效率不如对手,这次还是没能完全堵上嘴。

第三方知名分析机构 Artificial Analysis 则给出了相当实在的评价。


3.1 Pro 在他们的智能指数里排名第一,比 Opus 4.6 高 4 分;整个测试跑下来总计使用约 5700 万 tokens,完成测试的成本不到 Opus 4.6 的一半。能打又省钱,这个组合还是很香的。

Google DeepMind 首席科学家 Jeff Dean 也转发了一个是用 3.1 Pro 模拟城市规划、设计全新城市的应用,从零生成可交互的规划界面 demo。


Google 官方博客则展示了几个更日常的方向。代码动画方面,3.1 Pro 可以直接根据文字提示生成动态 SVG,因为是纯代码生成而非像素,任意缩放都不失真,文件体积也远小于传统视频。


复杂系统方面,模型直接接入公开遥测数据流,搭出了一个实时追踪国际空间站轨道的航天仪表盘。


更有意思的是两个创意类 demo。

一个是 3D 椋鸟群模拟,不只是生成视觉代码,还支持用手势操控鸟群,并配有随鸟群动态变化的生成音乐;


另一个是把《呼啸山庄》的文学氛围转化成一个现代个人网站,模型没有简单概括情节,而是分析了小说的整体基调,设计出了贴合主人公气质的界面风格。


此外,网友们也贡献了不少精彩的案例。有人让 3.1 Pro 生成一个「鬼怪猎人穿越鬼屋」的动态 SVG 循环动画,结果直接看呆,评价是「Google 这次是认真的」。


还有网友认为让它生成种子破土、根系延伸、茎秆冒出、叶片展开、直到长成完整大树的交互动画,每个生长阶段的过渡都顺滑自然,说这是见过最好的同类效果。


去年从 Anthropic 转投 Google DeepMind 的清华物理系特奖得主姚顺宇也站台宣传:「Gemini 不仅是一个优秀的模型,而且更好的模型正以不可阻挡的方式到来。」


当然,这些 demo 加在一起说的是同一件事:模型能做的事,已经从单纯的回答问题延伸到完成一整套专业或创意工作流了。

价格方面,API 按分级付费,整体和上代 3 Pro 保持一致,但跟 Anthropic Opus 系列比还是相对便宜的。

20 万 tokens 以内,输入 2 美元 / 每百万 tokens,输出 12 美元;超过 20 万 tokens,输入涨到 4 美元,输出 18 美元。搜索功能每月前 5000 次免费,之后每 1000 次查询收费 14 美元。


现在,开发者可以在 AI Studio、Gemini API、Gemini CLI、智能体开发平台 Google Antigravity 以及 Android Studio;企业用户在 Vertex AI 和 Gemini Enterprise;普通用户在 Gemini 应用和 NotebookLM 都能用,后者仅限 Pro 和 Ultra 订阅。

值得注意的是,3.1 Pro 目前只是预览版,Google 大概率是要继续打磨好智能体工作流再推正式版,向外界展示出一副还没使全力的姿态。

至于这种能力渗透到个人层面会发生什么,这让我联想到了 OpenAI 联创 Andrej Karpathy 刚刚发布的推文:

他想用 8 周时间把静息心率从 50 降到 45,计划是设定 Zone 2 有氧总时长目标,配合每周一次 HIIT。为了追踪进展,他花了 1 小时用 vibe coding 做了一个专属仪表盘。


上下滑动查看更多内容

过程比想象中麻烦,Claude 需要对 Woodway 跑步机的云 API 进行逆向工程,提取原始数据,处理筛选,搭出 Web 前端界面,中间还有公制英制单位混用、日历日期对不上这些 bug 需要手动发现并要求修复。

Karpathy 的感叹很直接,两年前这事得花 10 小时,现在 1 小时。但他更在意的是:这本来应该只需要 1 分钟。

他的判断是,应用商店模式正在过时。

300 行代码、LLM 几秒生成的专属工具,没必要变成一个正经 App 让你去搜索下载。他同时也点了行业的问题:99% 的产品仍然没有 AI 原生的 CLI,还在维护给人看的前端界面,而不是直接提供便于 Agent 调用的 API。

Woodway 跑步机本质上就是个传感器,结果还得让 LLM 去逆向工程它,完全没必要。

把 Jeff Dean 的城市规划 demo 和 Karpathy 的跑步仪表盘放在一起看,其实是同一件事的两面。当普通人花 1 小时就能为自己做一个高度定制的专属工具,由 AI 原生传感器和执行器构成、LLM 负责编排、即兴生成高度定制专属应用的时代,就已经近在眼前了。


附官方博客:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

欢迎点击下方领取 APPSO 红包封面

欢迎加入 APPSO AI 社群,一起畅聊 AI 产品,获取,解锁更多 AI 新知

我们正在招募伙伴

简历投递邮箱hr@ifanr.com

✉️ 邮件标题「姓名+岗位名称」(请随简历附上项目/作品或相关链接)


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
48小时大变脸!美国紧急撤回名单,高市急用简体中文向中国低头

48小时大变脸!美国紧急撤回名单,高市急用简体中文向中国低头

爱下厨的阿酾
2026-02-20 15:42:35
亲生父母姐弟联手!温州富豪被夺12亿家产,强行关进精神病院

亲生父母姐弟联手!温州富豪被夺12亿家产,强行关进精神病院

李砍柴
2026-02-14 23:01:28
重磅!中央定调京津冀,三个圈横空出世,中国最大都市圈格局定了!

重磅!中央定调京津冀,三个圈横空出世,中国最大都市圈格局定了!

华山穹剑
2026-02-19 20:49:34
克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

克林顿不是男人!要用雪茄助兴?莱温斯基:他把我当成“自助餐”

老蝣说体育
2026-01-05 14:59:04
体育生学霸!中国留洋中锋GPA满分 是西雅图主力被誉为阿联接班人

体育生学霸!中国留洋中锋GPA满分 是西雅图主力被誉为阿联接班人

大嘴爵爷侃球
2026-02-20 12:48:23
德国人点评高铁:日本优秀,法国先进,只有中国是用了4个字评价

德国人点评高铁:日本优秀,法国先进,只有中国是用了4个字评价

云舟史策
2026-02-19 07:13:27
为啥普通人家的房子“宁空不租”,房东说:空着,比租出去还省钱

为啥普通人家的房子“宁空不租”,房东说:空着,比租出去还省钱

装修秀
2026-02-04 11:25:03
欧洲刚批准900亿欧元,乌立即甩出200亿,北约“卧底”公开拆台,将欧洲的损招全告诉中国

欧洲刚批准900亿欧元,乌立即甩出200亿,北约“卧底”公开拆台,将欧洲的损招全告诉中国

头条爆料007
2026-02-20 16:28:32
独家专访 | 登上春晚的外国记者方浩明:会方言、爱搓澡、追演唱会

独家专访 | 登上春晚的外国记者方浩明:会方言、爱搓澡、追演唱会

新民周刊
2026-02-20 16:34:13
15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

15年前,那个当着全世界喝下核污染水的日本官员,如今还活着吗?

墨兰史书
2026-02-09 23:08:35
和平委员会要散?俄方发现不对劲,普京政府改口:中俄关系永不变

和平委员会要散?俄方发现不对劲,普京政府改口:中俄关系永不变

冷夜说
2026-02-20 15:34:32
斯大林死在地上10小时,满身屎尿没人管:那个让世界害怕的人。

斯大林死在地上10小时,满身屎尿没人管:那个让世界害怕的人。

房产衫哥
2026-02-13 17:22:30
王楚然一脸懵不像演的!春晚这幕太真实,全网笑疯

王楚然一脸懵不像演的!春晚这幕太真实,全网笑疯

观察鉴娱
2026-02-18 17:56:43
栽了!欠债2600亿,当街痛哭!给员工送宝马河北首富如今彻底怂了

栽了!欠债2600亿,当街痛哭!给员工送宝马河北首富如今彻底怂了

历史伟人录
2025-12-26 12:10:44
原来,大龄剩女真的不能碰?看完网友回答:简直目瞪口呆!

原来,大龄剩女真的不能碰?看完网友回答:简直目瞪口呆!

侃神评故事
2026-02-20 11:50:03
胡雪岩临终顿悟:这世上最不能得罪的不是达官显贵,而是这三类人

胡雪岩临终顿悟:这世上最不能得罪的不是达官显贵,而是这三类人

千秋文化
2026-02-16 16:55:30
火箭对阵尼克斯前瞻 乌度卡遭遇防守难题 申京能左右比赛的走向

火箭对阵尼克斯前瞻 乌度卡遭遇防守难题 申京能左右比赛的走向

大话火箭队
2026-02-20 13:46:21
中国男篮战日本队!16人名单出炉!老对手出12人名单,关键防三分

中国男篮战日本队!16人名单出炉!老对手出12人名单,关键防三分

老吴说体育
2026-02-19 18:32:49
美军集结近23年来最大空中兵力,知情人士:特朗普考虑对伊朗实施初步打击

美军集结近23年来最大空中兵力,知情人士:特朗普考虑对伊朗实施初步打击

第一财经资讯
2026-02-20 08:49:40
“浴室比我家客厅还大”,杭州这里一天入住好几个“霸总”,赵露思、钟汉良都来过!

“浴室比我家客厅还大”,杭州这里一天入住好几个“霸总”,赵露思、钟汉良都来过!

都市快报橙柿互动
2026-02-19 18:00:41
2026-02-20 17:16:49
AppSo incentive-icons
AppSo
让智能手机更好用的秘密
6116文章数 26773关注度
往期回顾 全部

数码要闻

amazfit全新户外旗舰T-Rex Ultra 2发布

头条要闻

湖南6名消防员随车坠崖牺牲 村民:多人步行抬担架救援

头条要闻

湖南6名消防员随车坠崖牺牲 村民:多人步行抬担架救援

体育要闻

宁忠岩:我拿过那么多银牌和铜牌 现在终于赢了

娱乐要闻

苏翊鸣夺金朱易示爱,两人默契引热议

财经要闻

太疯狂!“顾客不问价直接出手”

科技要闻

莫迪举手欢呼 两大AI掌门人却握拳尴尬对峙

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

亲子
健康
游戏
房产
公开课

亲子要闻

萌娃被妈妈罚站还不忘笑话老爸,太有趣了

转头就晕的耳石症,能开车上班吗?

精准把握玩家需求 哥布林潜行新作获外媒满分好评!

房产要闻

春节三亚楼市再放大招!千亿巨头,重磅推出超性价比海景现房

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版