网易首页 > 网易号 > 正文 申请入驻

Gemini 之后,多模态的下一步怎么走?

0
分享至

机器之心PRO · 会员通讯 Week 51

---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----

1. Gemini 之后,多模态的下一步怎么走?

Gemini 技术报告放出了哪些细节?Gemini 是哪种多模态模型?多模态模型有几种?多模态的下一步有哪些技术路径?...

2. MLLM:下一代自动驾驶的新解法

大模型会带来自动驾驶的范式变革吗?MLLM 技术是如何加持自动驾驶?MLLM 在自动驾驶领域有哪些典型用例?为什么说自动驾驶也是「具身智能」 重要落地场景?...

3. 2024 年 AI 趋势预测一览

a16z 对 2024 年各行业都有哪些预测?哪些领域的预测观点值得重点关注?AI 业内大佬对 2024 年还有哪些关键预测?...

...本期完整版通讯含 3 项专题解读 + 28 项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 7 项,国外方面 10 项...

本期通讯总计 32070 字,可免费试读至 7 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)

要事解读 ①Gemini 之后,多模态的下一步怎么走?

日期:12 月 20 日

事件:谷歌近日于 arxiv 上传了 Gemini 的技术报告。

Gemini 的技术报告都说了啥?

1、谷歌表示 Gemini 是一个多模态大模型体系,它在图像、音频、视频和文本理解方面表现出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三个版本,适用于从复杂推理任务到移动设备的各种应用。

① Ultra 版本提供复杂任务中的 SOTA 性能,特别适用于推理和多模态任务。

② Pro 版本在成本和延迟方面进行了性能优化,显示出强大的推理和多模态能力。

③ Nano 版本有两个尺寸,参数分别为 1.8B (Nano-1) 和 3.25B (Nano-2),分别针对低内存和高内存设备,采用 4 位量化进行部署,并提供一流的性能。

2、模型性能方面,谷歌特别指出,Gemini 是第一个在经过充分研究的考试基准 MMLU 上实现人类专家表现的模型。此外,Gemini Ultra 在 32 个基准测试中的 30 个中刷新了业界最佳(SOTA)水平。

3、多模态能力方面,Gemini 可以处理多种形式的输入,如文本、音频、图片和视频。它可以处理可变的输入分辨率,并从通用语音模型中直接摄取 16kHz 的音频信号。

① 对于多模态推理,类似此前公开过的用例,Gemini 能够理解凌乱的笔迹,将问题和解决方案转换为数学排版,并识别学生在解决问题时的具体推理步骤。

4、Gemini 模型采用 TPUv5e 和 TPUv4 训练,其中 Ultra 版本使用了跨多个数据中心的大量 TPUv4 加速器。

5、Gemini 的训练数据采用了多模态和多语言数据集,预训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据。

① 谷歌使用了 SentencePiece tokenizer,并发现在整个训练语料库的大样本上训练 tokenizer 可以提高推断词汇量,从而提高模型性能。

② 谷歌还使用启发式规则和基于模型的 tokenizer 对所有数据集应用质量过滤器,并执行安全过滤以删除有害内容。

6、值得注意的是,Gemini 技术报告的作者共有 941 人,包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一众谷歌研究大佬,另外还有谢尔盖・布林这样的公司联合创始人。

同是是多模态大模型,Gemini 和 LMM、MLLM 有什么不同?

在 12 月 6 日 Gemini 1.0 的发布会上,谷歌 CEO Sundar Pichai 称 Gemini 称为「新 AI 品种」即原生多模态模型(Native Multimodal)。

1、此前,大多数模型都通过训练单独的模块,然后将它们拼接在一起来近似多模态,不足之处在于没办法在多模态空间进行深层复杂推理。

2、谷歌表示,Gemini 在设计时就原生支持多模态,要具有处理不同形式数据(语言+听力+视觉)的能力;一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。

3、作为 Gemini 的对标竞品,OpenAI 在 GPT-4V 的系统卡片中将其称为「大型多模态模型(LMM)」。初始训练中也使用了不同模态的数据。

① Gemini 的训练数据包含图像、音频、视频和文本四种类型。

② GPT-4V 的训练数据主要为图像、文本两类。

4、在 Gemini 和 GPT-4V 之外,许多「多模态大语言模型(MLLM)」的工作则将大语言模型(LLM)作为大脑来执行多模态任务。中国科学技术大学和腾讯优图实验室在综述论文中将 MLLM 定义为「由 LLM 扩展而来的具有接收与推理多模态信息能力的模型」,可以分为四类[1] :

① 多模态指令调整(MIT),在 prompt 中加入特定指令,指示 LLM 处理不同模态的输入或输出。

② 多模态上下文学习(M-ICL),将不同模态的表示拼接作为 LLM 的单个上下文输入,如将图像特征向量拼接在文本序列后面,作为整体输入给 LLM。

③ 多模态思想链(M-CoT),让 LLM 通过自然语言描述不同模态内容之间的关系,如「The text describes the scene in the image」。

④ LLM 辅助视觉推理(LAVR),利用 LLM 的语言理解能力来增强计算机视觉系统,如利用 LLM 来生成更好的图像区分句子,从而提升视觉系统的性能。

多模态模型都有哪些类别?[4]

2023 年 9 月,微软雷德蒙德首席研究员 Chunyuan Li 为首的 7 位微软华人研究者撰写了综述《Multimodal Foundation Models: From Specialists to General-Purpose Assistants》,梳理了「多模态基础模型」类型、功能和技术路径。

1、该综述探讨了三种多模态基础模型的类型,分别是「视觉理解模型」、「视觉生成模型」和「通用接口」,并展示了部分典型工作和做法。

2、视觉理解模型(Visual Understanding Models)专注于学习通用的视觉表示,对各种计算机视觉任务至关重要。视觉理解模型的开发主要集中在以下三个方面:

① 标签监督:利用如 ImageNet 和 ImageNet21K 这样的数据集进行监督学习。这些数据集提供了大量的图像和标签,用于训练模型识别和分类图像。

② 语言监督:使用语言作为更丰富的监督形式。例如,CLIP 和 ALIGN 等模型使用数百万甚至数十亿的嘈杂图像-文本对进行预训练,这些对从网络上挖掘而来。这些模型支持零样本图像分类,并使传统计算机视觉模型能够执行开放词汇任务。

③ 仅图像自监督:这一研究方向通过从图像本身挖掘的监督信号来学习图像表示。方法包括对比学习、非对比学习和遮蔽图像建模。

3、视觉生成模型(Visual Generation Models)致力于生成视觉内容,尤其是在文本描述或提示的基础上。视觉生成模型的主要研究领域包括:

① 文本条件视觉生成:这部分工作集中在根据文本描述生成图像和视频上。包括 DALL-E、DALL-E 2、Stable Diffusion、Imagen 和 Parti 等,这些模型能够生成高保真度的图像以响应文本提示。

② 与人类意图一致的视觉生成器:这个领域的研究致力于改进预训练的视觉生成器,使其更好地遵循人类意图。涉及的挑战包括提高空间可控性、更好地遵循文本提示、支持基于文本的灵活编辑和促进视觉概念定制。

4、通用接口(General-purpose Interface)代表近期出现的通用模型,主要用作成为 AI Agent 的基础,而非仅针对特定任务。主要包含三种做法:

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
NBA78年神迹诞生!落选秀末节攻防碾压MVP 爱德华兹怒吼庆祝

NBA78年神迹诞生!落选秀末节攻防碾压MVP 爱德华兹怒吼庆祝

末位侃球
2024-05-20 10:53:33
陈自瑶开腔讲离婚:他的心已经走了

陈自瑶开腔讲离婚:他的心已经走了

我爱追港剧
2024-05-20 00:32:57
费翔母亲毕丽娜:传言是大陆特工,17岁去台湾,两任丈夫身份特殊

费翔母亲毕丽娜:传言是大陆特工,17岁去台湾,两任丈夫身份特殊

阿胡
2024-05-20 12:44:22
河南64岁大爷五年间染指55名女性,只因太了解女性心理

河南64岁大爷五年间染指55名女性,只因太了解女性心理

真实故事汇
2024-05-06 13:31:30
伊朗有大动作?伊总统、外长双双罹难,俄真敢说,直接指出嫌疑人

伊朗有大动作?伊总统、外长双双罹难,俄真敢说,直接指出嫌疑人

不吃草de兔子
2024-05-20 21:01:08
楼市政策彻底转灯,但中国经济再造奇迹取决于援乌亲美

楼市政策彻底转灯,但中国经济再造奇迹取决于援乌亲美

陶舜财经
2024-05-18 16:33:08
一锅焖!32元跌到2元,抄底大军增幅5400%,8个地板5万股东套牢

一锅焖!32元跌到2元,抄底大军增幅5400%,8个地板5万股东套牢

惜别的海岸
2024-05-20 12:57:41
万万没想到!约老师回家,第一个嘲讽他的不是詹皇,却是一位MVP

万万没想到!约老师回家,第一个嘲讽他的不是詹皇,却是一位MVP

嘴炮体坛
2024-05-20 11:15:15
2类牙膏已被列入“黑名单”,长期用或有致癌风险?

2类牙膏已被列入“黑名单”,长期用或有致癌风险?

医者真言
2024-05-19 19:22:41
中央任命!国家局党组成员、副局长,新任副部级央企党组成员、副总经理!

中央任命!国家局党组成员、副局长,新任副部级央企党组成员、副总经理!

环球通信
2024-05-20 16:43:37
伊朗总统一行直升机“硬着陆”,三重谜!

伊朗总统一行直升机“硬着陆”,三重谜!

新民周刊
2024-05-20 11:15:52
中国空调市场“洗牌”:格力跌出了前三,新的黑马是“门外汉”?

中国空调市场“洗牌”:格力跌出了前三,新的黑马是“门外汉”?

疯狂小菠萝
2024-05-19 17:56:39
研究人员警告:感染过新冠的人应去检查眼睛

研究人员警告:感染过新冠的人应去检查眼睛

萍聚德国
2024-05-18 00:11:28
痛风的“根源”已知晓,不是海鲜,也不是啤酒,而是4物吃太多

痛风的“根源”已知晓,不是海鲜,也不是啤酒,而是4物吃太多

今日养生之道
2024-05-20 07:30:14
首发11人出炉!中国队残阵PK泰国队,争10分出线,CCTV5直播

首发11人出炉!中国队残阵PK泰国队,争10分出线,CCTV5直播

足球慢镜头
2024-05-20 10:25:22
湖北游客加入九寨沟游团,看到团餐饭菜傻眼了,网友:饿荤了才吃

湖北游客加入九寨沟游团,看到团餐饭菜傻眼了,网友:饿荤了才吃

布拉旅游说
2024-05-20 20:32:16
突发!山东多地下了暴雨!大冰雹!麦子碎了一地!当地视频流出!

突发!山东多地下了暴雨!大冰雹!麦子碎了一地!当地视频流出!

叹为观止易
2024-05-20 16:24:19
赖清德向大陆正式喊话,释放3层意思,大陆51架军机极限施压!

赖清德向大陆正式喊话,释放3层意思,大陆51架军机极限施压!

三分亮剑
2024-05-17 16:27:18
难还3.75亿贷款!张康阳绝望了,最快12小时后,国米被美国人接管

难还3.75亿贷款!张康阳绝望了,最快12小时后,国米被美国人接管

侃球熊弟
2024-05-20 19:44:17
4个被强制停播的综艺节目,你都看过吗?真是没有一个值得同情的

4个被强制停播的综艺节目,你都看过吗?真是没有一个值得同情的

圈里的甜橙子
2024-05-21 03:05:44
2024-05-21 04:00:49
机器之能
机器之能
探索人工智能应用场景及商业化
1913文章数 4355关注度
往期回顾 全部

科技要闻

理想 Q1营收同比增长36% 交付指引不及预期

头条要闻

媒体:与蔡英文8年前相比 赖清德就职讲话出现大倒退

头条要闻

媒体:与蔡英文8年前相比 赖清德就职讲话出现大倒退

体育要闻

8年半,讲不出再见

娱乐要闻

王俊凯现身蔡依林演唱会,牵手唱歌!

财经要闻

韵达快递乱象:管理以罚代管 新政落地难

汽车要闻

智驾升级/月底上市 问界新M7 MAX焕新版

态度原创

教育
时尚
健康
数码
本地

教育要闻

无锡初中难题,拔高类试题,学霸一身力气用不上!

今年最流行的衬衫穿法,越帅越时髦!

在中国,到底哪些人在吃“伟哥”?

数码要闻

联想今夏将发布两款高通方案笔记本:第九代Yoga Slim和ThinkPad T14s第六代

本地新闻

强制开锁展铁腕 “交叉执行”勇亮剑

无障碍浏览 进入关怀版