网易首页 > 网易号 > 正文 申请入驻

谷歌黑魔法,没人能看懂的Gemini 3 Flash

0
分享至


新智元报道

编辑:定慧

【新智元导读】参数越小,智商越高?Gemini 3 Flash用百万级长上下文、白菜价成本,把自家大哥Pro按在地上摩擦。谷歌到底掏出了什么黑魔法,让整个大模型圈开始怀疑人生?

Gemini 3 Flash发布已经有段时间了,速度快3倍的同时智力反超Pro。

但是目前依然没人能够说明白:为啥Flash能比Pro还要「聪明」。


为何一个在参数规模上显著缩减的模型,能够在更大规模的模型擅长的领域实现超越?


长期以来,业界奉行着「参数即正义」的信条,认为更大的模型(更多的参数量)必然带来更强的智能表现。

然而,Gemini 3 Flash的出现打破了这一线性逻辑,它不仅在成本和速度上保持了「Flash」系列的轻量级特征,更在多项关键基准测试中,尤其是涉及复杂推理和超长上下文的任务上,击败了前一代甚至当代的「Pro」级模型。


而且最近有人发现,在长下文测试中,Gemini 3 Flash更是遥遥领先!

在OpenAI的MRCR基准测试中,Gemini 3 Flash在100万上下文长度下达到了90%的准确率!


这一表现在所有模型中均属最先进水平,大多数顶尖模型甚至无法突破256k的上下文长度。


那么谷歌到底用了什么黑魔法?

Gemini 3 Flash凭什么在百万长文本与低成本间实现「降维打击」?

知名AI研究员@bycloudai在深入评测后指出,谷歌可能在模型架构研究上已处于「遥遥领先」的隐形地位

这一表现打破了行业常规认知:它既没有像标准注意力机制那样产生高昂算力成本,也没有像常见的线性注意力或SSM混合模型那样导致知识推理能力下降。

Gemini 3 Flash似乎掌握了某种未知的「高效注意力机制」,令外界对其背后的技术原理直呼「看不懂」但大受震撼。


再挖掘Gemini 3 Flash的黑魔法钱,有必要先介绍一下这个评测标准。

在2023年至2024年间,评估大语言模型长上下文能力的主流方法是「大海捞针」(Needle In A Haystack,NIAH)。

该测试将一个特定的事实(针)插入到长篇文档(大海)的随机位置,要求模型将其检索出来。

然而,随着模型上下文窗口扩展至128k甚至1M token,NIAH测试迅速饱和。

Gemini 1.5 Pro、GPT-4 Turbo等早期模型在该测试中均能达到近乎100%的准确率。

NIAH本质上测试的是检索能力而非推理能力

它要求模型找到信息,但不要求模型理解信息之间的复杂依赖关系。

这导致了一种错觉:似乎所有模型都完美掌握了长上下文。

但在实际的企业级应用(如法律文档分析、代码库理解)中,用户不仅需要模型找到「条款A」,还需要模型理解「条款A」与「条款B」在特定条件下的冲突,这种高阶能力是NIAH无法覆盖的。

正是在这种背景下,Context Arena应运而生。


这是一个由独立研究者(如Dillon Uzar等人)维护的、专注于长上下文理解能力评估的基准平台。

Context Arena不仅仅是一个排行榜,它是一个针对大模型「注意力缺陷」的诊断工具看,衡量模型「智商」和长程记忆稳定性的试炼场。

Context Arena最具杀伤力的武器是MRCR(Multi-Round Co-Reference Resolution)基准测试。

OpenAI受到Gemini的启发,也搞了一个OpenAI-MRCR,就是一开始上面所说的评测基准。


这是一个设计精巧的压力测试,旨在击穿那些使用近似注意力机制(如线性注意力或稀疏注意力)的模型的防线。

测试机制是这样的,MRCR会生成一段极长的、多轮次的合成对话或文本。

在这些文本中,系统会植入多个高度相似的「针」(Needles)。

例如,文本中可能包含8首关于「貘」(tapir)的诗,每首诗的风格略有不同但主题一致。

挑战点在于系统会向模型提出极其刁钻的指令,如:「请复述关于貘的第二首诗」或「找出第四次提到貘时的具体描述」。

在Context Arena的MRCR榜单上,Gemini 3 Flash展现出了惊人的统治力。


这直接证明了Gemini 3 Flash并未为了速度而牺牲核心的「注意力精度」。

猜猜谷歌用了什么技术

我们来对比一下常见的注意力机制。

标准注意力是指数级的,所以诞生了一种新技术叫做线性注意力。



另外一种还有稀疏注意力

稀疏注意力保留了标准注意力的高精度,但通过只计算「重要」的部分来降低计算量。

比如,DeepSeek的DSA(DeepSeek SparseAttention)。


DeepSeek认为,对于任何一个查询,绝大多数历史信息都是无关的。因此,没必要计算全量的注意力。

DSA使用一种启发式算法(如Lightning Indexer),快速筛选出最相关的Top-K个 token或块(Block),只对这些部分进行精细计算。

此外还有一些混合架构,比如Gemini的策略。

虽然谷歌未公开细节,但业界推测Gemini 3 Flash也是一种高度复杂的混合架构,可能在底层使用Infini-attention处理超长历史,在顶层使用标准注意力进行逻辑推理,并结合MoE(混合专家模型)来进一步降低计算成本。

总结来说,谷歌之所以能让Gemini 3 Flash实现「轻量级打Pro」,并非依赖单一的黑科技,而是基于TPU硬件、算法架构、训练数据三位一体的深度优化:

  • 数据层面(Data):利用Gemini 3 Pro进行大规模的思维链蒸馏,将高阶推理能力「压缩」进Flash模型,使其具备了超越参数规模的「智商」。

  • 计算层面(Compute):引入Thinking(思考)机制,允许模型在推理时动态分配计算资源。对于难题,Flash模型会像人一样「停下来想一想」,这种时间维度上的算力投入弥补了空间维度(参数量)的不足。

  • 记忆层面(Memory):部署Infini-attentionTitans风格的记忆模块,将指数级的注意力成本降维,实现了在1M+上下文中依然保持高精度的检索能力,彻底解决了长上下文带来的问题。


Gemini 3 Flash的核心战略意义

「Flash」一词在谷歌的产品线中历史悠久,从Gemini 1.5 Flash开始,它就被定位为高吞吐量、低延迟的工具,主要用于简单任务的快速处理。

这种定位在用户心中植入了一个根深蒂固的假设:Flash模型是Pro模型的蒸馏版本。

在传统的模型压缩理论中,蒸馏意味着学生模型只能逼近但永远无法超越教师模型的表现。

因此,当Gemini 3 Flash发布时,绝大多数分析师和开发者将其视为一个更便宜的API端点,而非一个推理引擎的革新。

然而,上面的数据告诉我们,Gemini 3 Flash正在讲述一个完全不同的故事。

这种「轻量级反而更强」的现象,不能简单地用更精细的数据清洗或更长的训练时间来解释。

它暗示了底层架构的根本性变化——一种不再单纯依赖参数规模堆叠,而是依赖于更高效的信息路由与记忆机制的新型架构。

Gemini 3 Flash的核心战略意义在于它打破了AI经济学中的线性增长法则。

在过去,要获得10%的智能提升,通常需要10倍的算力投入。

但Gemini 3 Flash以$0.50/1M输入 token的极低价格,提供了GPQA Diamond基准测试中90.4%的博士级推理能力。

这意味着谷歌不仅仅是在打价格战,而是在进行一场架构层面的降维打击。

当一个模型的推理成本低到可以忽略不计,且其长上下文召回能力达到完美(>99%)时,它就不再仅仅是一个聊天机器人,而是一个可以吞噬整个企业知识库、实时重构代码库、并自主进行多轮迭代的「智能代理」(Agent)。

是的,如果一个模型足够的轻量、又能够记住足够的东西、关键是又很便宜,那其他「智能体」还怎么生存?

这种能力的解锁,使得Gemini 3 Flash成为了当前AI智能体爆发的关键推手。

在Pokémon游戏通关测试和SWE-bench代码修复任务中,Flash模型的表现之所以能超越Pro模型,正是因为其低延迟和低成本允许代理在单位时间内进行更多的「思考-行动-反思」循环。

这种通过高频迭代来弥补单次推理深度不足(甚至在很多时候单次推理并不弱)的策略,正是当前AI进化的主要趋势。

谷歌的终极武器:Titans架构与神经长时记忆

结合Gemini 3 Flash在Context Arena的MRCR基准测试中100万上下文90%准确率的惊人表现,以及其低廉的推理成本,最合理的推测是:

Gemini 3 Flash大规模应用了谷歌DeepMind最新的「Titans」架构或其变体。


根据谷歌发表的Titans论文,这是一种结合了Transformer和神经记忆的新型架构。

这些框架让AI模型能够更快地工作,并通过更新核心内存在运行时处理大规模上下文。


Titans包含三个部分:

  • 核心(Core,短期记忆,通常是滑动窗口注意力)

  • 长期记忆(Long-term Memory)

  • 持久记忆(PersistentMemory)。

与传统的RNN(存储固定状态向量)不同,Titans的长期记忆是一个深度神经网络(MLP)

当模型处理输入时,它不仅仅是把信息存入缓存,而是通过梯度下降实时更新这个MLP的权重。

模型在推理阶段(TestTime)实际上是在「学习」当前的上下文。

它利用一个「惊奇度」(Surprise Metric)指标来衡量新信息的重要性。

如果一段信息(比如用户指定的随机哈希码)出乎模型的预料(High Surprise),模型就会通过梯度更新将其刻入长期记忆网络中。

为什么Titans完美解释了Gemini 3 Flash的表现?


  1. 无限上下文与线性复杂度:

    Titans的MAC(Memory as Context)变体允许将历史信息压缩进神经网络权重,而非无限增长的KVCache。这解释了为什么Flash能以极低的内存占用处理百万级 token,且速度极快(线性推理)。

  2. MRCR的高分:

    在MRCR测试中,模型需要记住非常具体的细节(Needles)。在Titans架构下,这些独特的、重复出现的「Needles」会产生高惊奇度信号,从而被优先「学习」进记忆模块,而大量的干扰文本则会被遗忘门过滤。这比基于相似度检索的传统注意力机制更能抵抗噪声。

  3. 自适应能力:

    用户反馈称Gemini 3 Flash似乎能「学会」用户的纠正。这正是Titans「测试时学习」特性的体现——模型在对话过程中动态调整了参数。


在这两篇新论文《Titans》和《MIRAS》中,谷歌提出了一种架构和理论蓝图,结合了RNN的速度与变换器精度。

Titans是具体的架构(工具),MIRAS是理论框架(蓝图),用于推广这些方法。

它们共同推动了测试时间记忆的概念,即AI模型通过在模型运行时加入更强大的「惊喜」指标(即意外信息片段)来维持长期记忆的能力,无需专门的离线再训练。


一个有效的学习系统需要不同但相互关联的记忆模块,这反映了人脑对短期记忆和长期记忆的分离。

虽然注意力机制在精确短期记忆方面表现出色,Titans引入了一种新型神经长期记忆模块,它不同于传统RNN中的固定大小向量或矩阵记忆,它充当深度神经网络。

该内存模块提供了显著更高的表达能力,使模型能够在不丢失重要上下文的情况下总结大量信息。模型不仅仅是做笔记,而是理解并综合整个故事。

关键是,泰坦不仅仅是被动存储数据。

它主动学习如何识别并保留连接整个输入中Token的重要关系和概念主题。这项能力的一个关键方面是我们所说的「惊喜指标」。

在人类心理学中,我们知道我们会很快且容易地忘记例行公事、预期中的事件,但会记住打破常规的事情——意外、惊喜或情绪激动的事件。


在《泰坦》的语境中,「惊讶指标」指的是模型检测到当前记忆与新输入信息之间的巨大差异。

  • 低惊讶:如果新词是「cat」,且模型的记忆状态已经预期动物词,则梯度(惊讶)较低。它可以安全地跳过长期永久状态下的「猫」这个词。

  • 高惊喜:如果模型的记忆状态正在总结一份严肃的财务报告,而新输入是一张香蕉皮的图片(意外事件),那么梯度(惊喜)会非常高。这表明新输入重要或异常,必须优先存储在长期记忆模块中。

该模型将这个内部误差信号(梯度)当作数学上的等价物,比如说:「这是意外且重要!」这使得泰坦架构能够选择性地更新其长期记忆,只包含最新颖且破坏上下文的信息,从而保持整体流程的快速和高效。

泰坦通过整合两个关键要素来完善这一机制:


  1. 动量:模型同时考虑「瞬间惊讶」(当前输入)和「过去惊讶」(近期上下文流)。这确保了后续相关信息也能被捕获,即使这些Token本身并不令人意外。

  2. 遗忘(权重衰减):为了在处理极长序列时管理记忆有限容量,泰坦采用自适应权重衰减机制。这起到遗忘门的作用,允许模型丢弃不再需要的信息。

MIRAS:序列建模的统一视角

序列建模的每一项重大突破,从现代变换器到新的闪电高速线性RNN,本质上都是同一件事:一个高度复杂的联想记忆模块

因此,MIRAS独特且实用的,在于它对AI建模的看法。它不再看到多样化的架构,而是看到解决同一问题的不同方法:高效地将新信息与旧记忆结合,同时不遗忘核心概念

MIRAS通过四个关键设计选择定义了序列模型:

  • 内存架构:存储信息的结构(例如,矢量、矩阵或深度多层感知器,如泰坦中的结构)。

  • 注意力偏见:模型优化的内部学习目标,决定了其优先考虑的内容。

  • 保留门:内存规范器。MIRAS将「遗忘机制」重新解释为一种特定的正则化形式,平衡新学习与保留过去知识。

  • 内存算法:用于更新内存的优化算法。


这些新架构最显著的优势是能够处理极长的上下文。

这一点在BABILong基准测试中得到了体现,该任务需要在极长的文档中对事实进行推理。

在这一充满挑战的环境中,Titans的表现优于所有基线,包括像GPT-4这样极其庞大的模型,尽管参数远少于GPT-4。

Titans进一步展示了能够有效扩展到超过200万个令牌的上下文窗口。


Titans和MIRAS框架的引入标志着序列建模的重大进展。

通过将深度神经网络作为记忆模块,在数据流入时学习记忆,这些方法克服了固定大小的循环状态的局限。

此外,MIRAS提供了强大的理论统一,揭示了在线优化、联想记忆与架构设计之间的联系。

这项研究为新一代序列模型打开了大门,这些模型结合了RNN的高效与长上下文人工智能时代所需的表达能力。

彩蛋

分别向Gemini和GPT询问了Gemini 3 Pro和Flash的参数大小。

Gemini 3 Flash的回答:

基于截至2025年12月的最新行业信息和技术分析,官方并未公开Gemini 3 Pro和Gemini 3 Flash的确切模型参数大小。这是谷歌自 Gemini 1.0以来的一贯策略,主要为了保护架构机密。

不过,根据技术白皮书的推断、行业泄露信息以及对其性能(Token 生成速度和显存占用)的逆向分析,目前的主流估算(数量级)如下


GPT 5.2的回答:


总之,Pro和Flash这两模型的参数数量级差了将近5~10倍(估算)。因此,Flash的使用体验远超预期,才会引起社区广泛的讨论。

参考资料:

https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/

https://x.com/bycloudai/status/2002347892535930934

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
人老才明白,两代人硬挤在一起,都翻脸,最好分离,竟是一碗汤。

人老才明白,两代人硬挤在一起,都翻脸,最好分离,竟是一碗汤。

花小猫的美食日常
2026-02-15 20:17:39
斯基拉:麦克托米奈即将续约,新合同2030年到期外加一年选项

斯基拉:麦克托米奈即将续约,新合同2030年到期外加一年选项

懂球帝
2026-02-15 17:06:21
路亚龙不幸去世,年仅24岁!亲属:凌晨一两点出的事

路亚龙不幸去世,年仅24岁!亲属:凌晨一两点出的事

浙江之声
2026-02-14 10:52:07
小卡开炮全明星赛!莱昂纳德直言:这赛制根本没人想认真打

小卡开炮全明星赛!莱昂纳德直言:这赛制根本没人想认真打

体育闲话说
2026-02-15 14:19:21
喜讯!国足16岁新星留洋欧洲豪门,俱乐部:近30年最具天赋的球员

喜讯!国足16岁新星留洋欧洲豪门,俱乐部:近30年最具天赋的球员

罗掌柜体育
2026-02-15 09:05:41
特朗普发现被骗勃然大怒,美财长送中国两句话,钓鱼岛情况突变

特朗普发现被骗勃然大怒,美财长送中国两句话,钓鱼岛情况突变

策略述
2026-02-15 11:10:12
攻势凌厉,打法凶悍,乌军王者归来,6天收复南线近200平方公里

攻势凌厉,打法凶悍,乌军王者归来,6天收复南线近200平方公里

史政先锋
2026-02-15 19:29:47
我预测,2026年将迎来一场大变革

我预测,2026年将迎来一场大变革

别人都叫我阿腈
2026-02-14 00:41:32
没苦硬吃!严宽老婆带75岁公婆坐火车回娘家,全程18小时菜摆两桌

没苦硬吃!严宽老婆带75岁公婆坐火车回娘家,全程18小时菜摆两桌

小徐讲八卦
2026-02-15 06:19:20
为啥现在大大小小的池塘湖泊,几乎都开始不让人垂钓了?有啥影响

为啥现在大大小小的池塘湖泊,几乎都开始不让人垂钓了?有啥影响

向航说
2026-02-15 03:45:03
丰田章男:如果只造我喜欢的车,那就只有GR卡罗拉和GR雅力士

丰田章男:如果只造我喜欢的车,那就只有GR卡罗拉和GR雅力士

IT之家
2026-02-14 15:11:08
“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

“资助不起装什么孙子!”2006年,贫困大学生向海清向媒体怒斥

百态人间
2026-02-05 15:42:49
安徽帅哥洪牛去世,结婚才10天,婚礼上多辆跑车,葬礼上妹妹戴孝

安徽帅哥洪牛去世,结婚才10天,婚礼上多辆跑车,葬礼上妹妹戴孝

千言娱乐记
2025-12-18 19:59:34
郭沫若想让月薪100的溥仪当助理,岂料溥仪用5个字,让对方红了脸

郭沫若想让月薪100的溥仪当助理,岂料溥仪用5个字,让对方红了脸

混沌录
2026-02-13 00:11:33
刘虎的檄文:一个前记者的舆论监督,何以撞上煤老板十五年执念?

刘虎的檄文:一个前记者的舆论监督,何以撞上煤老板十五年执念?

迷世书童H9527
2026-02-15 15:41:05
谁也别吹牛,100万现金攥在手里,你就已经跑赢了全国99%的家庭

谁也别吹牛,100万现金攥在手里,你就已经跑赢了全国99%的家庭

白浅娱乐聊
2026-02-15 07:00:34
别被电视剧骗了!这才是赌王4位娇妻的真容,货真价实的罕见照片

别被电视剧骗了!这才是赌王4位娇妻的真容,货真价实的罕见照片

聚焦最新动态
2026-02-12 22:29:55
苹果iOS 26.3 更新,新界面长这样!

苹果iOS 26.3 更新,新界面长这样!

科技堡垒
2026-02-14 10:34:35
五五分流为什么分不下去了?背后的真相

五五分流为什么分不下去了?背后的真相

枫冷慕诗
2026-01-24 13:09:19
平台喊冤:10%抽成恐难覆盖成本!代表回怼:不能总让司机买单

平台喊冤:10%抽成恐难覆盖成本!代表回怼:不能总让司机买单

议纪史
2026-02-14 20:25:05
2026-02-15 21:31:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14543文章数 66626关注度
往期回顾 全部

科技要闻

发春节红包的大厂都被约谈了

头条要闻

美国常驻北约代表:中国一个电话就能搞定俄乌冲突

头条要闻

美国常驻北约代表:中国一个电话就能搞定俄乌冲突

体育要闻

最戏剧性的花滑男单,冠军为什么是他?

娱乐要闻

河南春晚被骂上热搜!大量广告满屏AI

财经要闻

谁在掌控你的胃?起底百亿"飘香剂"江湖

汽车要闻

奔驰中国换帅:段建军离任,李德思接棒

态度原创

家居
艺术
时尚
本地
军事航空

家居要闻

中古雅韵 乐韵伴日常

艺术要闻

王景生 静物与风景油画(2024-2026)

多巴胺失宠了?过年这样穿彩色时髦又减龄

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

军事要闻

特朗普:在俄乌冲突问题上 泽连斯基必须行动起来

无障碍浏览 进入关怀版