网易首页 > 网易号 > 正文 申请入驻

谷歌AGI底座降临!首个原生全模态嵌入模型上线,已实现全模态SOTA

0
分享至


新智元报道

编辑:艾伦

【新智元导读】谷歌发布首个原生全模态 Embedding 模型 Gemini Embedding 2!它将文本、图、音视频及 PDF 无损融于统一向量空间,实现跨越五大模态的直接检索。这极大降低了架构成本,赋予了 AI 真正连贯的「记忆」,是重塑 AI 基建的里程碑。

如果说 ChatGPT 等生成式 AI 大模型是 AI 用来表达的「嘴」,那么 Embedding(嵌入)模型就是负责理解与检索的「记忆神经」。

长期以来,这条记忆神经处于割裂状态。

昨天,Gemini API 上线首个多模态 Embedding 模型预览版gemini-embedding-2-preview

作为首个原生全模态 Embedding 模型,它将文本、图像、音视频乃至 PDF 文档,悉数融合进了一个统一的向量空间。


拆解「原生全模态」的颠覆性价值

要真正理解这项技术的战略分量,我们需要看清过去 AI 检索系统面临的「数据巴别塔」困境。

以往,视觉模态、音频模态和文本处理模态仿佛说着截然不同的语言,每次调度全局信息都需要极其繁琐的翻译对齐。

Gemini Embedding 2 的出现,等同于在数据世界推行了一门通用语,其核心突破体现在以下几个维度。

斩断转录节点,消除信息损耗黑洞

「原生」二字的含金量在于拒绝任何形式的妥协与翻译。

早期让 AI 「听懂」播客,必须外挂语音识别模型先转成纯文本,导致说话人略带反讽的语调、背景里刺耳的警笛声等「冗余信息」瞬间灰飞烟灭。

如今,模型直接「生吞」 MP3 音轨的波形与高分辨率图片的原始像素,那些只可意会不可言传的感官细节,终于在数学空间里找到了精确的坐标。

打通统一坐标系,解锁跨物种搜索

当五大数据类型被压缩进同一个高维向量空间,数据的边界被彻底消解。

开发者能够轻易实现极其复杂的跨模态检索:

抛入一段发动机异响的录音,系统会瞬间从海量的 PDF 维修手册中精准定位到故障部件的图纸;

上传一张极具后现代风格的建筑照片,系统能直接召回配乐风格极其相似的影视片段。

检索完全进化成了纯粹的「语义和意图共振」。

架构大简化,工程复杂度断崖式下跌

过去拼凑一个多模态检索应用,工程师简直要经历一场噩梦。

维护多个独立模型、花重金购买隔离的向量数据库、再编写极度复杂的重排算法试图强行对齐各类得分,这种草台班子式的架构不仅延迟极高,且极易崩溃。

现在,这堆乱如麻的基建被浓缩成一次简单的 API 调用,一套模型足以打穿整个业务流。

已经提前尝鲜的 Agent 创业者们,也毫不吝啬自己对这个全模态新模型的赞美。


为 Agent 拼上完整的记忆拼图

Agent 往往容易显得迟钝,根本原因就在于其「记忆」是割裂的。

Agent 看完带有大量数据图表的研报后,往往只记住了文字,图表部分则被抛弃。

原生全模态 Embedding 赋予了 AI 一种连贯的底层认知模式,让机器终于能像人类一样,将听到的风声、看到的画面和读过的段落,无缝融合成一段完整的记忆。

「五合一」引擎与降本魔法

新模型不仅包揽了五大数据类型,更拥有极宽的吞吐边界!

  • 文本支持超 100 种语言,上下文高达 8192 个 token。

  • 图像单次请求最多摄入 6 张图片(支持 PNG 与 JPEG)。

  • 视频长达 128 秒的动态影像。

  • 音频长达 80 秒的录音脱离了转录工具的依赖,直接听懂音轨。

  • 文档跳过常规的 OCR 提取,最高 6 页的 PDF 可被原生读取。

在秀肌肉的同时,谷歌也替企业算好了一笔经济账。

Gemini Embedding 2 沿用了巧妙的「俄罗斯套娃」表示学习技术(MRL)。

这项技术允许开发者像拆解套娃一样,根据自身的存储预算灵活「折叠」向量的体积。

在默认的 3072 维满血状态下,模型自然能提供极致的检索基准。


https://ai.google.dev/gemini-api/docs/embeddings?hl=zh-cn

但真正让人惊艳的是它向下压缩时的韧性:当维度被对半砍到 1536 维时,其 MTEB 多语言性能得分依然坚挺在 68.17 分,甚至出现了一个反直觉的现象——这个分数比 2048 维还要略高一丝。

即便你把预算压缩到极致,将向量体积暴减 75% 降至 768 维,其跑分也仅仅微跌了 0.18 分(67.99 分)。

这意味着,开发团队完全可以在几乎不牺牲核心检索质量的前提下,大幅度削减存储与计算开销,用极高的性价比撬动顶级的多模态能力。

商业身位与避坑指南

环顾四周,这条赛道的火药味从未如此浓烈。

OpenAI 的 text-embedding-3 依然死死守在纯文本阵地,视觉方面全靠旧版模型支撑;

老牌玩家 Cohere 的 Embed v4 遗漏了音视频两块关键拼图;

开源阵营中最能打的 Jina v4 拿下了图文与 PDF,同样对声音和动态影像无能为力。

Gemini Embedding 2 恰好填补了市场空白,成为当下唯一覆盖五大模态的商用级全能选手,实现了全模态 SOTA!


对于准备尝鲜的工程团队而言,有几个现实的「坑」必须提前规避:

  • 兼容性断层。新老模型的向量空间处于不同的维度规则下。从旧版 gemini-embedding-001 迁移的系统,必须将海量历史数据全部重新编码并重建索引。

  • 格式与时长阈值。目前音频仅支持 MP3 与 WAV,且有 80 秒硬性上限,较长的会议录音必须自行切片。

  • 手动归一化。在代码调用层面,若选择非默认的低维度输出(如 768 维),开发者需要外挂脚本手动进行 L2 归一化处理。

当孤立的数据孤岛被彻底贯通,庞杂的现实世界才得以在代码的深海中投下清晰的倒影。

最深远的智能革命,往往藏在那些不动声色的基础设施里,悄然将万物重塑为同一种语言。

现在,可以通过 Gemini API 或 Vertex AI 开始使用 Gemini Embedding 2 模型,参考调用方式如下:

print(result.embeddings)

参考资料:

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
掘金队穆雷自责被森林狼队麦克丹尼尔斯“羞辱”:我打得很糟糕

掘金队穆雷自责被森林狼队麦克丹尼尔斯“羞辱”:我打得很糟糕

好火子
2026-05-02 01:03:49
5月8日24时,国内成品油价格将迎调整

5月8日24时,国内成品油价格将迎调整

大象新闻
2026-05-01 20:42:11
母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

母亲和情夫一起10年,父亲默不作声纵容,却在他50岁生日那天反击

白云故事
2025-04-24 10:35:08
国际油价5月1日下跌

国际油价5月1日下跌

齐鲁壹点
2026-05-02 07:32:26
一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

一张“初三女孩体测”照片,让家长被数万网友指责:太不用心了!

川渝视觉
2026-04-25 20:19:24
地位不稳了,掘金约基奇季后赛数据或将影响其历史最佳球员的讨论

地位不稳了,掘金约基奇季后赛数据或将影响其历史最佳球员的讨论

好火子
2026-05-02 00:57:59
官方:米内罗竞技与胡尔克协商解约,将为他举行告别仪式

官方:米内罗竞技与胡尔克协商解约,将为他举行告别仪式

懂球帝
2026-05-02 05:39:08
陈芋汐/卢为跳水世界杯夺金,陈芋汐回应临时换搭档:无论搭档是谁,无论遇到什么困难,都会拼尽全力,积极迎接挑战

陈芋汐/卢为跳水世界杯夺金,陈芋汐回应临时换搭档:无论搭档是谁,无论遇到什么困难,都会拼尽全力,积极迎接挑战

鲁中晨报
2026-05-01 18:07:25
U15国足0-1罗马尼亚!1胜3负收官 获12国邀请赛第8名 遭单刀绝杀

U15国足0-1罗马尼亚!1胜3负收官 获12国邀请赛第8名 遭单刀绝杀

我爱英超
2026-05-01 18:40:29
上海户籍的含金量为什么会跌跌不休?网友:完全对有钱人开放的

上海户籍的含金量为什么会跌跌不休?网友:完全对有钱人开放的

夜深爱杂谈
2026-05-01 21:51:08
上映前1天突然跑路!五一档3部电影组团撤档,影院哭晕在厕所

上映前1天突然跑路!五一档3部电影组团撤档,影院哭晕在厕所

小椰的奶奶
2026-05-02 07:54:40
首映轰下5580万票房,《寒战1994》夺冠,梁乐民把陈思诚打懵了

首映轰下5580万票房,《寒战1994》夺冠,梁乐民把陈思诚打懵了

电影票房预告片
2026-05-01 23:36:23
“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

“穷人炫富,难掩心酸!”男大学生炫耀坐高铁一等座,因长相被嘲

妍妍教育日记
2026-04-24 09:05:03
为何俄罗斯不担心芯片、光刻机断供?除了中国,其他国家都不担心

为何俄罗斯不担心芯片、光刻机断供?除了中国,其他国家都不担心

南风不及你温柔
2026-05-01 10:21:03
真惨!张素芬唯一重仓芯片,从490万加到1260万,股价却从4跌到3

真惨!张素芬唯一重仓芯片,从490万加到1260万,股价却从4跌到3

长风价值掘金
2026-05-01 22:13:28
辛纳横扫菲斯闯入马德里决赛!距离超越德约+创造历史仅一步之遥

辛纳横扫菲斯闯入马德里决赛!距离超越德约+创造历史仅一步之遥

搏击江湖
2026-05-02 05:24:42
雷军很努力,小米还是跌破了30港元大关

雷军很努力,小米还是跌破了30港元大关

正经社
2026-05-02 07:28:54
高调恋爱2年后官宣结婚?!这对90后双顶流也太勇了......

高调恋爱2年后官宣结婚?!这对90后双顶流也太勇了......

英国那些事儿
2026-04-30 23:26:53
中方表示遗憾,不得不投弃权票

中方表示遗憾,不得不投弃权票

极目新闻
2026-05-01 13:03:40
离谱!世界杯转播费要18亿,央视硬气拒当冤大头

离谱!世界杯转播费要18亿,央视硬气拒当冤大头

生活新鲜市
2026-05-01 20:13:48
2026-05-02 08:48:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15111文章数 66827关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子因健身设备锁扣崩断被弹飞致瘫痪 监控无法调取

头条要闻

男子因健身设备锁扣崩断被弹飞致瘫痪 监控无法调取

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

手机
本地
亲子
旅游
军事航空

手机要闻

Anbernic RG Rotate更多信息:3.5英寸720×720旋屏,87.99美元起

本地新闻

用青花瓷的方式,打开西溪湿地

亲子要闻

分享我独特的带娃方式

旅游要闻

陪盲人一起春游,他们看不见,出去玩的乐趣是什么?

军事要闻

特朗普:对伊战事结束 无限期延长停火

无障碍浏览 进入关怀版