又一个 GPT-4 级 LLM！前谷歌大脑成员初创公司官宣 Reka Core，多模态交互超越 Claude3 Opus|gpt-4

又一个 GPT-4 级 LLM！前谷歌大脑成员初创公司官宣 Reka Core，多模态交互超越 Claude3 Opus

2024-04-17 18:31:39　来源: CSDN

北京举报

分享至

作者 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

由 DeepMind、Google 和 Meta 的研究人员共同创立的旧金山 AI 初创公司Reka，昨日推出了一款名为Reka Core的新一代多模态语言模型。该模型被标榜为该公司“迄今为止最强大的模型”，用了数千块 H100 显卡进行训练，从零开始构建一个能与 OpenAI 的GPT-4和Claude 3 Opus比肩的模型。

此前，Reka 公司已经推出过 21B 的 Reka Flash 和 7B 的 Reka Edge 模型，性能与 Gemini Pro 旗鼓相当。作为 Reka 家族系列语言模型中的第三位成员，Core 现已开放使用，其特点在于能够理解包括图像、音频和视频在内的多种模态。

比如说，Core 可以看懂近期备受吐槽的“网飞版”《三体》电视剧，甚至用 Python 脚本模拟三体问题。

值得一提的是，尽管 Core 的训练时间不足一年，其性能已能与 AI 领域内资金雄厚的“三巨头”——OpenAI、Google 和 Anthropic 的顶级模型相抗衡，甚至超越。

目前 Reka Core 的确切参数数量尚未公布，其模型训练数据来源于多个渠道，包括公开可用数据、授权数据以及涵盖文本、音频、视频和图像文件的合成数据。Core 能够理解多种模态输入，并在数学、编程等领域提供具有高级推理能力的答案，甚至支持 32 种语言，具备 128,000 个 tokens 的上下文窗口。Reka 的官方博客写道，Core 是继 Google 的 Gemini Ultra 之后第二个覆盖所有模态（从文本到视频）并提供高质量输出的模型。

下面用三个部分，分别讲解 Reka Core 的性能水平、实例演示和这家公司背后的故事。

“前沿级”多模态 LLM

Reka Core 训练数据包括文本、图像、视频和音频剪辑，并使用了混合语料库进行预训练。Reka 模型采用了模块化的编码器-解码器架构，支持多种输入（如文本、图像、视频和音频），并以文本形式作为输出。模型使用了 SwiGLU、Grouped Query Attention、Rotary 位置嵌入和 RMSNorm 等技术，并在训练过程中使用了不同的数据分布、上下文长度和目标函数来优化模型性能。

总的来说，Reka Core 在以下方面展现出了“前沿级”的实力：

多模态理解：对图像、视频和音频的强大情境化理解，是目前仅有的两款商业化综合多模态解决方案之一。
大容量上下文窗口：具备 128K 的上下文窗口，能够高效精准地处理并回忆大量信息。
高级推理能力：包括语言和数学在内的卓越推理能力，适用于需要复杂分析的高级任务。
顶级代码生成与代理工作流支持：作为顶尖的代码生成器，其编码能力结合其他功能可赋能代理工作流。
多语言能力：预训练涵盖 32 种语言，能流畅处理英语及多种亚洲和欧洲语言。

在视频感知测试中，Core 以明显优势（得分 59.3 vs 54.3）胜过唯一竞争对手Gemini Ultra。而在 MMMU 图像任务基准中，Core 得分 56.3，紧随 GPT-4（56.8）、Claude 3 Opus（59.4）、Gemini Ultra（59.4）和 Gemini Pro 1.5（58.5）。马斯克的 xAI 近期也推出了具备视觉能力的新版 Grok，仅得分 53.6，仍落后于竞争对手。

在 MMLU 知识任务测试中，Core 得分为 83.2，仅次于 GPT-4、Claude 3 Opus 和 Gemini Ultra。而在 GSM8K 推理基准和 HumanEval 编码任务中，其分别以 92.2 和 76.8 的分数击败了 GPT-4。

在技术报告中，还展示了独立第三方进行的“盲测”，即评价者在不知晓系统身份的情况下，根据系统对一系列多模态提示（可能包含图像、文本、音频等多种类型数据的组合）的响应，表达出自己的偏好。这些偏好数据经过统计计算转化为 ELO 分数，以此为基础对参与测试的多模态系统进行排序。我们可以看到，Reka Core 的 ELO 得分为 1130，胜率为 72.2%，而其他模型的得分和胜率则不同。

为了在一年时间内达到如此高水平的性能，Reka 采取了“自顶向下”的方法。这意味着他们并非先训练模型再观察其表现，而是先设定目标性能水平，然后逆向工作，确定实现这一目标的最高效路径，其中涉及数据量、所需 GPU 数量等各个方面。

目前模型 API 及定价如下：输入 tokens 是每百万 / 10 美元，输出 tokens 则是每百万 / 25 美元。

相比之下，OpenAI 的 GPT-4 Turbo 对输入 tokens 收费相同，但输出 tokens 费用为每百万 tokens / 30 美元。

技术报告链接：https://publications.reka.ai/reka-core-tech-report.pdf

官方博客链接：https://www.reka.ai/news/reka-core-our-frontier-class-multimodal-language-model

杀出重围的“第四大”巨头

口说无凭，目前模型已经处于公开测试，感兴趣的读者可以直接点击下方链接体验，或是点击下方第二个链接获取 API。

体验链接：https://chat.reka.ai/chat（Playground）https://platform.reka.ai/dashboard（API）

此外，Reka 官方也给出了一系列演示，展示了 Reka Core、GPT-4 和 Claude-3 面对同一个问题时产生的不同回答。

问题 1：这是一种什么动物？

Reka Core：这是一头大象，具体来说，由于其耳朵形状巨大且大致呈非洲大陆形状，判断其为非洲象。环境特征进一步佐证了这一点，画面所展示的是一种类似非洲草原的生态环境，这是非洲特有的草地生态系统。大象作为陆地上最大的动物，以其智慧、长寿和复杂的社会结构而闻名。

GPT-4：图片中的动物为大象。它们是大型哺乳动物，以显著的长鼻、大耳和象牙著称。大象通常栖息于多种生境之中，包括草原、森林、沙漠和沼泽，主要分布在非洲和亚洲。

Claude 3 Opus：图像中的动物为大象。画面展示了一群由成年象和幼象组成的象群，它们正沿着一条穿过草地和树木的土路行进，背景中可见蓝天下的山脉。

这一轮 PK 中，只有 Reka Core 精准识别出了非洲象这一种类，还依据其耳朵形状与所处环境（非洲草原）进行了细致的物种分类与生境分析。而 GPT-4 提供了较为全面的大象基本信息，Claude 3 Opus 则擅长文科，在场景还原与氛围营造方面更具优势。

问题 2：这是什么梗？

Reka Core：这张梗图以幽默的方式对比了从不同渠道学习机器学习（ML）和深度学习（DL）的有效性。图中展示了脑部图像渐次增亮和复杂化的过程，象征着知识积累或顿悟的过程。

顶部图像标记为“从大学学习 ML、DL”，显示一个单一色彩的简单大脑，暗示基础或初步的理解。第二张图“从在线课程学习”，则呈现了一个多色、细节丰富的脑部，意味着更丰富深入的学习体验。第三张图“从 YouTube 学习”，脑部中心放射光芒，暗示 YouTube 学习如同明灯，能提供广泛的知识或深刻见解。第四张图“从阅读文章学习”，大脑带有精致图案和鲜艳色彩，可能意味着文章能提供详尽且深入的理解。底部图像“从梗图学习”描绘了一个头部轮廓，周围散发强烈光芒，其中的人物正在冥想，戏谑地暗示从梗图中可以获取深刻甚至灵性的洞察。

梗图的笑点在于，通常轻松娱乐而不具备教育性质的梗图被夸张地表现为最启迪人心的来源，显然是为了喜剧效果而使用的夸张手法。

GPT-4：此图是一幅幽默的梗图，用以表现人们从不同途径学习 ML 和 DL 时可能达到的不同层次的领悟或理解。每一种学习资源都用一个逐渐更明亮、更复杂的脑部图像来代表，象征更高的理解和觉悟水平：

大学学习 ML、DL：展示标准的颅骨 X 光片配大脑，暗指基础理解程度；
在线课程：展示部分突出的大脑，表明比大学学习有更深的理解；
YouTube 学习：描绘大脑发出强烈光芒，暗示因 YouTube 平台内容丰富多样，可获得更高层级的理解；
阅读书籍：展示大脑发出强烈光芒并伴有复杂连接和活动迹象，表示通过深入阅读可获得全面理解；
梗图学习：最后一幅图描绘一个人物正在冥想，周围环绕着复杂且璀璨的光网络，滑稽地暗示从梗图中可获得超然、终极的 ML 和 DL 理解。

梗图围绕着这样一个观念展开：相较于传统的学习方式，如 YouTube 视频和梗图这类更易获取且非正式的信息源，可能意外地提供深刻洞见，尽管是以一种诙谐调侃的方式。

Claude 3 Opus：该图列举了从大学课程到互联网梗图等多种学习 ML 概念的方式。

顶部提到从大学课程和在线课程学习，这些都是更为传统且结构化的学习路径。

往下则是通过 YouTube 视频和文章学习，属于更为非正式且自主引导的学习方法。

最后幽默地提出可以从互联网梗图学习 ML 概念。伴随的发光大脑图像暗示了一种“开悟”般的理解。

这个梗图以讽刺手法指出，人们竟可以从幽默、非教育性质的源头如梗图中系统化地获取 ML 知识。它轻松地调侃了这样一个观点：即使是通过梗图接触某个主题，也可能带来某种程度的理解，尽管明显地，梗图并非严肃或全面掌握机器学习的有效途径。

你觉得哪个 AI 解释的最好？还有更多演示，请感兴趣的读者点击链接观看。

官方演示链接：https://showcase.reka.ai/

杀出重围的“第四巨头”

解析 Reka 的成员结构，他们规模虽小却实力雄厚，核心成员皆来自 DeepMind、谷歌大脑（Google Brain）和 FAIR（Meta AI）。由于 Reka Core 技术报告的作者部分按照字母大小进行排序，我们尚未得知该模型的核心功臣是谁（并且 Core 的参数目前也尚未公布，但肯定不会低于上一代 Flash 模型的 21B）。

在 Reka 的天团中，最为瞩目的便是Yi Tay。他在谷歌大脑工作了 3.3 年，期间为诸多行业标杆级大语言模型（如 PaLM、UL2、Flan-2 和 Bard）及多模态模型（如 PaLI-X 和 ViT-22B）做出了贡献，总共参与撰写了近 45 篇论文，还是PaLM-2 和 PaLM-2 API 两大项目的共同负责人。

和出走 OpenAI、在安全问题上与 GPT 针锋相对的“复仇者联盟” Anthropic 不太一样，Yi Tay 在出走谷歌时是心怀感激的，当时还写了一篇深情的告别信总结这 3.3 年的历程，在 Google 的经历被他视为学术生涯的“毕业”，因为这段时期与完成博士学位的时间巧合。期间Quoc Le对他的职业生涯产生了重大影响，令他学会了做有影响力的研究并关注其实际应用，而他与思维链的作者Jason Wei也交情颇深。

Google Brain 的故事漫长且极具传奇色彩，在我们先前发布的《AI 技术 50 人》栏目中，也记载了对这个“深度学习黄埔军校”的回忆。

尽管 Reka 仍处于起步阶段，但他们全力以赴挑战 OpenAI、Anthropic 和 Google 在 AI 领域的主导地位。目前，Reka 已与多家行业合作伙伴和组织展开合作，扩大其模型的应用范围。例如，Snowflake最近宣布在其用于 LLM 应用开发的 Cortex 服务中集成 Reka Core 和 Flash。此外，汇聚新加坡所有研究机构及 AI 初创企业和公司的 Oracle 和 AI Singapore 也在使用 Reka 的模型。

然而，在积极投入工作的过程中，官方却表示公司并无开源的计划。Reka CEO Dani Yogatama 强调自己一直是开源的坚定支持者，但关键是找到“分享与保留之间的恰当平衡”，以确保公司持续成长。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.