AI2 的 Molmo 开源，或超封闭多模态模型|ai|应用程序|molmo

AI2 的 Molmo 开源，或超封闭多模态模型

2024-09-27 00:52:23　来源: 科技的视界

北京举报

分享至

通常认为，像谷歌、OpenAI 和 Anthropic 这样拥有无尽现金储备和数百名顶级研究人员的公司，是唯一能够打造最先进基础模型的公司。但正如其中一家公司明确指出的那样，它们“没有护城河”——而 AI2 今天通过发布Molmo证明了这一点，这是一个多模态人工智能模型，与它们的最佳水平相当，同时规模小、免费且完全开源。

需要明确的是，Molmo（多模态开放语言模型）是一个视觉理解引擎，而不是像 ChatGPT 那样提供全方位服务的聊天机器人。它没有 API，还没做好企业集成的准备，也不会为您或出于自身目的搜索网络。您可以将其视为那些模型中看到图像、理解图像并能够描述或回答有关图像问题的部分。

Molmo（有 720 亿、70 亿和 10 亿参数的变体），像其他多模态模型一样，能够识别和回答几乎任何日常情况或对象的问题。如何使用这台咖啡机？这张图片中有多少只狗伸出了舌头？这个菜单上哪些选项是素食的？这个图表中的变量是什么？这是我们多年来看到的那种视觉理解任务，成功的程度和延迟的情况各不相同。

不同之处不一定在于 Molmo 的能力（您可以在下面的演示中看到，或在此处测试），而在于它如何实现这些能力。

视觉理解当然是一个广泛的领域，涵盖了诸如数田野里的羊、猜测一个人的情绪状态以及总结菜单等各种事情。因此，它很难描述，更不用说进行定量测试了，但正如 AI2 总裁阿里·法哈迪（Ali Farhadi）在该研究组织西雅图总部的一次演示活动中所解释的那样，您至少能够表明两个模型的能力相仿。

“我们今天展示的一件事是，开放等于封闭，”他说，“小现在等于大。”（他澄清道，他的意思是 == ，意味着等价，而非等同；这一细微差别有些人会领会。）

在人工智能的发展中，一个近乎恒定不变的因素一直是“越大越好”。更多的训练数据，生成的模型中有更多的参数，以及更多的计算能力来创建和运行它们。但在某些时候，您确实无法再将它们做得更大：没有足够的数据这样做，或者计算成本和时间变得如此之高，以至于适得其反。您只能将就着用现有的东西，或者更好的情况是，用更少的资源办更多的事。

法哈迪解释说，尽管 Molmo 的表现与 GPT-4o、Gemini 1.5 Pro 和 Claude-3.5 Sonnet 等相当，但（据最佳估计）其规模约为它们的十分之一大小。而且它凭借十分之一大小的模型达到了它们的能力水平。

“人们评估所依据的基准有十几种。从科学角度来说，我不喜欢这种游戏……但我必须给人们展示一个数字，”他解释道。“我们最大的模型是一个小模型，72B，在这些基准方面，它的表现优于 GPT、Claude 和 Gemini。再次强调，对此要持保留态度；这是否意味着它真的比它们好？我不知道。但至少对我们来说，这意味着它在玩同样的游戏。”

如果想要尝试难住它，您可以随意查看公共演示，它在移动端也能使用。（如果您不想登录，那么可以刷新或者向上滚动，然后‘编辑’原始提示来替换图像。）

秘诀在于使用数量更少但质量更优的数据。

与其在包含数十亿张图像的库上进行训练，而这些图像不可能全都进行质量控制、描述或去重

AI2 精心策划并标注了一组仅有 60 万张的图像。

虽然这遗漏了一些长尾内容，不过他们的选择过程以及有趣的标注方法为其提供了非常高质量的描述。

怎么个有趣法呢？嗯，他们给人们展示图像并让他们描述——大声说出来。

事实证明，人们谈论事物的方式和他们写下来的方式不同，这不但产生了准确的结果，而且还具有对话性和实用性。

这一点在其新的、至少在几天内独一份的能够‘指向’图像相关部分的能力中得到了最佳证明。

当被要求计算照片中狗的数量（33 只）时，它在每只狗的脸上都点了一个点。

当被要求数舌头的数量时，它在每个舌头上都点了一个点。

这种特异性让它能够进行各种新的零样本操作。

不用查看网站的代码，该模型就晓得如何导航页面、提交表单等等。（Rabbit 最近为其 r1 展示了类似的东西，将于下周发布。）

那么，为什么这所有的一切都如此重要呢？实际上，模型每天都在不断推出。谷歌刚刚宣布了一些。OpenAI 很快就会有一个演示日。Perplexity 一直在透露这样或那样的消息。Meta 正在大力宣传 Llama 的某个版本。

嗯，Molmo 不仅完全免费且开源，而且体积足够小，能够在本地运行。无需 API，无需订阅，也无需水冷 GPU 集群。创建和发布该模型的目的在于，让开发人员和创作者能够制作出人工智能驱动的应用程序、服务和体验，而无需向世界上最大的科技公司之一寻求许可（并付费）。

“我们的目标对象是研究人员、开发人员、应用程序开发人员，还有那些不知道如何处理这些[大型]模型的人。针对如此广泛的受众，一个关键原则是我们已经推行了一段时间的，那就是：让其更易于访问，”法哈迪说。“我们正在发布我们所做的每一件事，包括数据、清理、注释、培训、代码、检查点、评估。我们正在发布关于它的所有开发成果。”

他补充说，他预计人们会立即开始使用这个数据集和代码进行构建——包括财力雄厚的竞争对手会收集任何“公开可用”的数据，即任何未被固定住的东西。（“他们是否提及此事则完全是另一回事，”他补充道。）

人工智能领域发展迅速，但越来越多的巨头发现自己在进行一场逐底竞争，把价格降到最低限度，同时筹集数亿美元来填补成本。如果类似的功能可以从免费的开源选项中获得，这些公司提供的价值真的能如此巨大吗？至少，莫尔莫指出，虽说皇帝有没有穿衣服是个尚无定论的问题，但他肯定是没有护城河的。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.