网易首页 > 网易号 > 正文 申请入驻

AI2 的 Molmo 开源,或超封闭多模态模型

0
分享至

通常认为,像谷歌、OpenAI 和 Anthropic 这样拥有无尽现金储备和数百名顶级研究人员的公司,是唯一能够打造最先进基础模型的公司。但正如其中一家公司明确指出的那样,它们“没有护城河”——而 AI2 今天通过发布Molmo证明了这一点,这是一个多模态人工智能模型,与它们的最佳水平相当,同时规模小、免费且完全开源。

需要明确的是,Molmo(多模态开放语言模型)是一个视觉理解引擎,而不是像 ChatGPT 那样提供全方位服务的聊天机器人。它没有 API,还没做好企业集成的准备,也不会为您或出于自身目的搜索网络。您可以将其视为那些模型中看到图像、理解图像并能够描述或回答有关图像问题的部分。

Molmo(有 720 亿、70 亿和 10 亿参数的变体),像其他多模态模型一样,能够识别和回答几乎任何日常情况或对象的问题。如何使用这台咖啡机?这张图片中有多少只狗伸出了舌头?这个菜单上哪些选项是素食的?这个图表中的变量是什么?这是我们多年来看到的那种视觉理解任务,成功的程度和延迟的情况各不相同。

不同之处不一定在于 Molmo 的能力(您可以在下面的演示中看到,或在此处测试),而在于它如何实现这些能力。

视觉理解当然是一个广泛的领域,涵盖了诸如数田野里的羊、猜测一个人的情绪状态以及总结菜单等各种事情。因此,它很难描述,更不用说进行定量测试了,但正如 AI2 总裁阿里·法哈迪(Ali Farhadi)在该研究组织西雅图总部的一次演示活动中所解释的那样,您至少能够表明两个模型的能力相仿。

“我们今天展示的一件事是,开放等于封闭,”他说,“小现在等于大。”(他澄清道,他的意思是 == ,意味着等价,而非等同;这一细微差别有些人会领会。)

在人工智能的发展中,一个近乎恒定不变的因素一直是“越大越好”。更多的训练数据,生成的模型中有更多的参数,以及更多的计算能力来创建和运行它们。但在某些时候,您确实无法再将它们做得更大:没有足够的数据这样做,或者计算成本和时间变得如此之高,以至于适得其反。您只能将就着用现有的东西,或者更好的情况是,用更少的资源办更多的事。

法哈迪解释说,尽管 Molmo 的表现与 GPT-4o、Gemini 1.5 Pro 和 Claude-3.5 Sonnet 等相当,但(据最佳估计)其规模约为它们的十分之一大小。而且它凭借十分之一大小的模型达到了它们的能力水平。

“人们评估所依据的基准有十几种。从科学角度来说,我不喜欢这种游戏……但我必须给人们展示一个数字,”他解释道。“我们最大的模型是一个小模型,72B,在这些基准方面,它的表现优于 GPT、Claude 和 Gemini。再次强调,对此要持保留态度;这是否意味着它真的比它们好?我不知道。但至少对我们来说,这意味着它在玩同样的游戏。”

如果想要尝试难住它,您可以随意查看公共演示,它在移动端也能使用。(如果您不想登录,那么可以刷新或者向上滚动,然后‘编辑’原始提示来替换图像。)

秘诀在于使用数量更少但质量更优的数据。

与其在包含数十亿张图像的库上进行训练,而这些图像不可能全都进行质量控制、描述或去重

AI2 精心策划并标注了一组仅有 60 万张的图像。

虽然这遗漏了一些长尾内容,不过他们的选择过程以及有趣的标注方法为其提供了非常高质量的描述。

怎么个有趣法呢?嗯,他们给人们展示图像并让他们描述——大声说出来。

事实证明,人们谈论事物的方式和他们写下来的方式不同,这不但产生了准确的结果,而且还具有对话性和实用性。

这一点在其新的、至少在几天内独一份的能够‘指向’图像相关部分的能力中得到了最佳证明。

当被要求计算照片中狗的数量(33 只)时,它在每只狗的脸上都点了一个点。

当被要求数舌头的数量时,它在每个舌头上都点了一个点。

这种特异性让它能够进行各种新的零样本操作。

不用查看网站的代码,该模型就晓得如何导航页面、提交表单等等。(Rabbit 最近为其 r1 展示了类似的东西,将于下周发布。)

那么,为什么这所有的一切都如此重要呢?实际上,模型每天都在不断推出。谷歌刚刚宣布了一些。OpenAI 很快就会有一个演示日。Perplexity 一直在透露这样或那样的消息。Meta 正在大力宣传 Llama 的某个版本。

嗯,Molmo 不仅完全免费且开源,而且体积足够小,能够在本地运行。无需 API,无需订阅,也无需水冷 GPU 集群。创建和发布该模型的目的在于,让开发人员和创作者能够制作出人工智能驱动的应用程序、服务和体验,而无需向世界上最大的科技公司之一寻求许可(并付费)。

“我们的目标对象是研究人员、开发人员、应用程序开发人员,还有那些不知道如何处理这些[大型]模型的人。针对如此广泛的受众,一个关键原则是我们已经推行了一段时间的,那就是:让其更易于访问,”法哈迪说。“我们正在发布我们所做的每一件事,包括数据、清理、注释、培训、代码、检查点、评估。我们正在发布关于它的所有开发成果。”

他补充说,他预计人们会立即开始使用这个数据集和代码进行构建——包括财力雄厚的竞争对手会收集任何“公开可用”的数据,即任何未被固定住的东西。(“他们是否提及此事则完全是另一回事,”他补充道。)

人工智能领域发展迅速,但越来越多的巨头发现自己在进行一场逐底竞争,把价格降到最低限度,同时筹集数亿美元来填补成本。如果类似的功能可以从免费的开源选项中获得,这些公司提供的价值真的能如此巨大吗?至少,莫尔莫指出,虽说皇帝有没有穿衣服是个尚无定论的问题,但他肯定是没有护城河的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
彻底掀翻行业!比亚迪固态电池实锤落地,续航1218公里!

彻底掀翻行业!比亚迪固态电池实锤落地,续航1218公里!

阿芒娱乐说
2026-06-22 11:25:27
魔术师一家欧洲度假,治愈HIV,大儿子成企业家,养女很漂亮

魔术师一家欧洲度假,治愈HIV,大儿子成企业家,养女很漂亮

大西体育
2026-06-23 10:42:01
详解字母交易影响:开拓者没参与也大赚一笔 雄鹿是赢家也是输家

详解字母交易影响:开拓者没参与也大赚一笔 雄鹿是赢家也是输家

罗说NBA
2026-06-23 14:34:07
获西方撑腰,泽连斯基发出战书,乌军大兵压境,逼卢卡申科做选择

获西方撑腰,泽连斯基发出战书,乌军大兵压境,逼卢卡申科做选择

玲儿爱唱歌
2026-06-23 18:05:14
法国足协主席:从未提及将比赛推迟到明天,我们浪费了很多时间

法国足协主席:从未提及将比赛推迟到明天,我们浪费了很多时间

懂球帝
2026-06-23 08:14:24
后勤绞杀封锁正把克里米亚从普京的战略资产变成压垮他的稻草

后勤绞杀封锁正把克里米亚从普京的战略资产变成压垮他的稻草

刘耘博士
2026-06-19 08:42:41
浙江绍兴:废弃矿坑变身文旅打卡地

浙江绍兴:废弃矿坑变身文旅打卡地

新浪财经
2026-06-23 15:17:33
台东海域有变数,两岸船只对峙,日方也介入了,大陆5部门已联手

台东海域有变数,两岸船只对峙,日方也介入了,大陆5部门已联手

起喜电影
2026-06-23 16:59:19
离婚三年,前夫每月来我家睡一晚,昨晚他照例来,这回我没让他碰

离婚三年,前夫每月来我家睡一晚,昨晚他照例来,这回我没让他碰

千秋文化
2026-06-21 19:55:40
2死经1伤!安徽母子三人等红灯遭撞击,肇事者闺蜜言论惹全民怒斥

2死经1伤!安徽母子三人等红灯遭撞击,肇事者闺蜜言论惹全民怒斥

老猫观点
2026-06-23 11:17:44
阿尔瓦雷斯公开发声后,有马竞球迷烧掉了他的球衣

阿尔瓦雷斯公开发声后,有马竞球迷烧掉了他的球衣

懂球帝
2026-06-23 08:14:24
大冷门!首支欧美出局豪门,三天内成笑柄,世界名帅沦为最大罪人

大冷门!首支欧美出局豪门,三天内成笑柄,世界名帅沦为最大罪人

童叔不飙车
2026-06-23 01:12:36
查洛巴:因英格兰征召中断假期,正追回费用

查洛巴:因英格兰征召中断假期,正追回费用

懂球帝
2026-06-23 11:15:09
刚刚,华为重磅宣布:智驾出事,我兜底!这波操作太炸了!

刚刚,华为重磅宣布:智驾出事,我兜底!这波操作太炸了!

次元君情感
2026-06-23 16:41:09
康城失守已成定局?大股俄军已攻入城区,顿巴斯之战或迎来转折

康城失守已成定局?大股俄军已攻入城区,顿巴斯之战或迎来转折

小雪的运动之心
2026-06-23 16:30:47
我国发现一座“新大陆”,面积抵得上三个日本!美国:谁发现归谁

我国发现一座“新大陆”,面积抵得上三个日本!美国:谁发现归谁

青烟小先生
2026-06-20 11:30:05
10年后,我们可能都没办法抵制日货了,因为日元汇率开始暴跌!

10年后,我们可能都没办法抵制日货了,因为日元汇率开始暴跌!

向日葵向阳西晒
2026-06-23 07:43:49
53年交警拦下陈赓要蹭车,陈赓下令开到市政府:给我把市长叫下来

53年交警拦下陈赓要蹭车,陈赓下令开到市政府:给我把市长叫下来

历史甄有趣
2026-06-23 19:20:08
中越曾经争夺了 9 年的老山,如今属于哪国的领土?

中越曾经争夺了 9 年的老山,如今属于哪国的领土?

贱议你读史
2026-06-11 15:58:33
中方正式改口!以后不叫“日本政府”了,新称呼传递的信号不一般

中方正式改口!以后不叫“日本政府”了,新称呼传递的信号不一般

暮雨咋歇着
2026-06-23 14:59:40
2026-06-23 20:24:49
科技的视界
科技的视界
最新国内外科技资讯
6455文章数 154关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

头条要闻

河南南阳曾47天查扣24辆冷链货车:拍卖350万上缴国库

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

屋顶光伏度苦夏

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

健康
数码
游戏
公开课
军事航空

同样是中风,急救方向竟完全相反?

数码要闻

System76推16" Linux移动工作站Serval WS,至高290HX Plus

曾被质疑不配年度游戏的《宇宙机器人》 足够好玩么?

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

以色列总理、国防部长和国防军总参谋长发表联合声明

无障碍浏览 进入关怀版