网易首页 > 网易号 > 正文 申请入驻

Gemini 之后,多模态的下一步怎么走?

0
分享至

机器之心PRO · 会员通讯 Week 51

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. Gemini 之后,多模态的下一步怎么走?

Gemini 技术报告放出了哪些细节?Gemini 是哪种多模态模型?多模态模型有几种?多模态的下一步有哪些技术路径?...

2. MLLM:下一代自动驾驶的新解法

大模型会带来自动驾驶的范式变革吗?MLLM 技术是如何加持自动驾驶?MLLM 在自动驾驶领域有哪些典型用例?为什么说自动驾驶也是「具身智能」 重要落地场景?...

3. 2024 年 AI 趋势预测一览

a16z 对 2024 年各行业都有哪些预测?哪些领域的预测观点值得重点关注?AI 业内大佬对 2024 年还有哪些关键预测?...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 7 项,国外方面 10 项...

本期通讯总计 32070 字,可免费试读至 7 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)

要事解读 ①Gemini 之后,多模态的下一步怎么走?

日期:12 月 20 日

事件:谷歌近日于 arxiv 上传了 Gemini 的技术报告。

Gemini 的技术报告都说了啥?

1、谷歌表示 Gemini 是一个多模态大模型体系,它在图像、音频、视频和文本理解方面表现出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三个版本,适用于从复杂推理任务到移动设备的各种应用。

① Ultra 版本提供复杂任务中的 SOTA 性能,特别适用于推理和多模态任务。

② Pro 版本在成本和延迟方面进行了性能优化,显示出强大的推理和多模态能力。

③ Nano 版本有两个尺寸,参数分别为 1.8B (Nano-1) 和 3.25B (Nano-2),分别针对低内存和高内存设备,采用 4 位量化进行部署,并提供一流的性能。

2、模型性能方面,谷歌特别指出,Gemini 是第一个在经过充分研究的考试基准 MMLU 上实现人类专家表现的模型。此外,Gemini Ultra 在 32 个基准测试中的 30 个中刷新了业界最佳(SOTA)水平。

3、多模态能力方面,Gemini 可以处理多种形式的输入,如文本、音频、图片和视频。它可以处理可变的输入分辨率,并从通用语音模型中直接摄取 16kHz 的音频信号。

① 对于多模态推理,类似此前公开过的用例,Gemini 能够理解凌乱的笔迹,将问题和解决方案转换为数学排版,并识别学生在解决问题时的具体推理步骤。

4、Gemini 模型采用 TPUv5e 和 TPUv4 训练,其中 Ultra 版本使用了跨多个数据中心的大量 TPUv4 加速器。

5、Gemini 的训练数据采用了多模态和多语言数据集,预训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据。

① 谷歌使用了 SentencePiece tokenizer,并发现在整个训练语料库的大样本上训练 tokenizer 可以提高推断词汇量,从而提高模型性能。

② 谷歌还使用启发式规则和基于模型的 tokenizer 对所有数据集应用质量过滤器,并执行安全过滤以删除有害内容。

6、值得注意的是,Gemini 技术报告的作者共有 941 人,包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一众谷歌研究大佬,另外还有谢尔盖・布林这样的公司联合创始人。

同是是多模态大模型,Gemini 和 LMM、MLLM 有什么不同?

在 12 月 6 日 Gemini 1.0 的发布会上,谷歌 CEO Sundar Pichai 称 Gemini 称为「新 AI 品种」即原生多模态模型(Native Multimodal)。

1、此前,大多数模型都通过训练单独的模块,然后将它们拼接在一起来近似多模态,不足之处在于没办法在多模态空间进行深层复杂推理。

2、谷歌表示,Gemini 在设计时就原生支持多模态,要具有处理不同形式数据(语言+听力+视觉)的能力;一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。

3、作为 Gemini 的对标竞品,OpenAI 在 GPT-4V 的系统卡片中将其称为「大型多模态模型(LMM)」。初始训练中也使用了不同模态的数据。

① Gemini 的训练数据包含图像、音频、视频和文本四种类型。

② GPT-4V 的训练数据主要为图像、文本两类。

4、在 Gemini 和 GPT-4V 之外,许多「多模态大语言模型(MLLM)」的工作则将大语言模型(LLM)作为大脑来执行多模态任务。中国科学技术大学和腾讯优图实验室在综述论文中将 MLLM 定义为「由 LLM 扩展而来的具有接收与推理多模态信息能力的模型」,可以分为四类[1] :

① 多模态指令调整(MIT),在 prompt 中加入特定指令,指示 LLM 处理不同模态的输入或输出。

② 多模态上下文学习(M-ICL),将不同模态的表示拼接作为 LLM 的单个上下文输入,如将图像特征向量拼接在文本序列后面,作为整体输入给 LLM。

③ 多模态思想链(M-CoT),让 LLM 通过自然语言描述不同模态内容之间的关系,如「The text describes the scene in the image」。

④ LLM 辅助视觉推理(LAVR),利用 LLM 的语言理解能力来增强计算机视觉系统,如利用 LLM 来生成更好的图像区分句子,从而提升视觉系统的性能。

多模态模型都有哪些类别?[4]

2023 年 9 月,微软雷德蒙德首席研究员 Chunyuan Li 为首的 7 位微软华人研究者撰写了综述《Multimodal Foundation Models: From Specialists to General-Purpose Assistants》,梳理了「多模态基础模型」类型、功能和技术路径。

1、该综述探讨了三种多模态基础模型的类型,分别是「视觉理解模型」、「视觉生成模型」和「通用接口」,并展示了部分典型工作和做法。

2、视觉理解模型(Visual Understanding Models)专注于学习通用的视觉表示,对各种计算机视觉任务至关重要。视觉理解模型的开发主要集中在以下三个方面:

① 标签监督:利用如 ImageNet 和 ImageNet21K 这样的数据集进行监督学习。这些数据集提供了大量的图像和标签,用于训练模型识别和分类图像。

② 语言监督:使用语言作为更丰富的监督形式。例如,CLIP 和 ALIGN 等模型使用数百万甚至数十亿的嘈杂图像-文本对进行预训练,这些对从网络上挖掘而来。这些模型支持零样本图像分类,并使传统计算机视觉模型能够执行开放词汇任务。

③ 仅图像自监督:这一研究方向通过从图像本身挖掘的监督信号来学习图像表示。方法包括对比学习、非对比学习和遮蔽图像建模。

3、视觉生成模型(Visual Generation Models)致力于生成视觉内容,尤其是在文本描述或提示的基础上。视觉生成模型的主要研究领域包括:

① 文本条件视觉生成:这部分工作集中在根据文本描述生成图像和视频上。包括 DALL-E、DALL-E 2、Stable Diffusion、Imagen 和 Parti 等,这些模型能够生成高保真度的图像以响应文本提示。

② 与人类意图一致的视觉生成器:这个领域的研究致力于改进预训练的视觉生成器,使其更好地遵循人类意图。涉及的挑战包括提高空间可控性、更好地遵循文本提示、支持基于文本的灵活编辑和促进视觉概念定制。

4、通用接口(General-purpose Interface)代表近期出现的通用模型,主要用作成为 AI Agent 的基础,而非仅针对特定任务。主要包含三种做法:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最成功的一次装B经历,我弟大吼我有辆劳斯莱斯,我腰杆瞬间直了

最成功的一次装B经历,我弟大吼我有辆劳斯莱斯,我腰杆瞬间直了

兰妮搞笑分享
2024-06-02 21:43:27
英国皇室松口爆料凯特现状

英国皇室松口爆料凯特现状

华人星光
2024-06-02 18:30:57
涉5万人研究:空腹血糖控制在这个范围,更长寿

涉5万人研究:空腹血糖控制在这个范围,更长寿

荷兰豆爱健康
2024-05-31 18:21:42
原来老人开的早餐店这么离谱?看完网友的评论,我产生了阴影

原来老人开的早餐店这么离谱?看完网友的评论,我产生了阴影

双色球的方向舵
2024-06-03 01:37:23
乌克兰情报部门截获关于从别尔哥罗德撤军的俄军对话

乌克兰情报部门截获关于从别尔哥罗德撤军的俄军对话

亡海中的彼岸花
2024-06-02 11:37:57
就在刚刚,中方正式下达“逐客令”,要求这国4天内必须离华!

就在刚刚,中方正式下达“逐客令”,要求这国4天内必须离华!

小乐讲故事
2023-05-17 09:52:08
4年2.43亿!森林狼新合同曝光!成为防守累赘,夺冠最大短板

4年2.43亿!森林狼新合同曝光!成为防守累赘,夺冠最大短板

一才说个球
2024-06-03 12:47:19
朱珠携女儿拍写真 朱珠生了一个自己吧,女儿完美继承了妈妈的美貌

朱珠携女儿拍写真 朱珠生了一个自己吧,女儿完美继承了妈妈的美貌

圈里的甜橙子
2024-06-02 16:15:53
严查!领着万元退休金,整天“一条龙”吃喝玩乐的老年人其心可诛

严查!领着万元退休金,整天“一条龙”吃喝玩乐的老年人其心可诛

娱乐的硬糖吖
2024-06-03 11:42:36
全国好像是“散装”的五个省,纯属个人想法,不喜勿喷

全国好像是“散装”的五个省,纯属个人想法,不喜勿喷

梦沉古道
2024-05-31 19:40:06
浙江“八十万”绿帽门!“娇妻”交往十多个男友,未婚夫也不无辜

浙江“八十万”绿帽门!“娇妻”交往十多个男友,未婚夫也不无辜

北国向锡安
2024-05-30 08:44:14
马斯克母亲称来过中国12座城市:是令自己和儿子惊叹的国家

马斯克母亲称来过中国12座城市:是令自己和儿子惊叹的国家

匹夫来搞笑
2024-06-02 17:34:32
女主播大灯移位,网民:愚公移山

女主播大灯移位,网民:愚公移山

湛江朋友
2024-06-01 18:38:06
军中巨虎畏罪自杀,刘源将军:比徐和郭问题严重!

军中巨虎畏罪自杀,刘源将军:比徐和郭问题严重!

我是娱有理
2024-04-16 07:18:56
101岁杨振宁月工资惊人!凭什么?回国养老,却把青春奉献给别国

101岁杨振宁月工资惊人!凭什么?回国养老,却把青春奉献给别国

华人星光
2024-05-26 17:24:36
菲媒:泽连斯基参加完“香会”赴马尼拉,与菲总统马科斯会晤

菲媒:泽连斯基参加完“香会”赴马尼拉,与菲总统马科斯会晤

环球网资讯
2024-06-03 10:42:05
坐滩明抢?菲2海警船滞留仙宾礁,中方放话:15号以后将登舰抓人

坐滩明抢?菲2海警船滞留仙宾礁,中方放话:15号以后将登舰抓人

笔墨V
2024-06-03 13:34:19
胡连馨,丰满迷人,城堡公主

胡连馨,丰满迷人,城堡公主

圈里的甜橙子
2024-06-02 17:14:57
河北保定凶手当街手持镰刀匕首致3人死亡, 知情人透露更多细节

河北保定凶手当街手持镰刀匕首致3人死亡, 知情人透露更多细节

老猫观点
2024-06-02 16:27:44
倪妮的性感实在高级,穿吊带镂空裙只遮三角区,布料太贴身

倪妮的性感实在高级,穿吊带镂空裙只遮三角区,布料太贴身

白宸侃片
2024-06-01 15:59:57
2024-06-03 15:04:49
机器之能
机器之能
探索人工智能应用场景及商业化
1925文章数 4356关注度
往期回顾 全部

科技要闻

2万字演讲|黄仁勋剧透 未来3年新品有这些

头条要闻

陈冰:特朗普获罪令拜登更着急 他对拜登威胁性加大

头条要闻

陈冰:特朗普获罪令拜登更着急 他对拜登威胁性加大

体育要闻

万人空巷!皇马举行欧冠夺冠庆典

娱乐要闻

混战升级!编剧赵冬苓力挺王阳遭围攻

财经要闻

黄仁勋的计划:新AI平台 HBM4 机器人

汽车要闻

搭载华为HiCAR 传祺M6 MAX售14.58万元

态度原创

本地
艺术
健康
手机
公开课

本地新闻

食味印象|歙县限定!枇杷味儿的清甜初夏

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

晚餐不吃or吃七分饱,哪种更减肥?

手机要闻

紫光展锐再出海,T750 处理器 Lava Yuva 5G 智能手机海外登场

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版