网易首页 > 网易号 > 正文 申请入驻

一文看尽Meta开源大礼包!全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

0
分享至

新智元报道

编辑:LRS

【新智元导读】Meta最近开源了多个AI项目,包括图像分割模型SAM 2.1、多模态语言模型Spirit LM、自学评估器和改进的跨语言句子编码器Mexma等,提升了AI在图像处理和语音识别领域的能力,进一步推动了AI研究的进展。

开源绝对是AI如今发展迅猛的助推剂,而其中的一股重要力量就是来自Meta

Meta在人工智能开源界可谓是硕果颇丰,从大模型LLama到图像分割模型Segment Anything,覆盖了各种模态、各种场景,甚至在AI以外的学科,如医学等科学研究进展也都从Meta的开源模型中受益。

最近,Meta发布了一系列新的开源工作,还对已有的开源工作进行了升级迭代,包括 SAM 2.1、句子表征的细化等,开源社区将再迎来一场狂欢!

Segment Anything Model 2.1

SAM2模型开源以来,总下载量已经超过70万次,在线可用的演示程序也已帮助用户在图像和视频数据中分割了数十万个物体,并且在跨学科(包括医学图像、气象学等研究)中产生了巨大的影响。

本次Meta更新了Meta Segment Anything Model 2.1 (SAM 2.1)权重,性能更强。

开源链接:https://github.com/facebookresearch/sam2

相比SAM2,研究人员引入了额外的数据增强技术来模拟视觉相似物体和小物体,并且通过在较长的帧序列上训练模型并对「空间」和「物体指向记忆」(object pointer memory)的位置编码进行一些调整,提高了SAM 2的遮挡处理能力(occlusion handling capability)。

研究人员还开源了SAM 2开发者套件,基于SAM 2模型构建下游应用会变得更容易,用户现在也可以使用自己的数据来微调SAM 2的训练代码;页面演示的前端和后端代码也开源了。

Spirit LM:语音+文本的语言模型

大型语言模型经常被用来构建文本到语音的流程:首先通过自动语音识别(ASR)技术将语音转写成文本,然后由大型语言模型(LLM)合成文本,最终再通过文本到语音(TTS)技术将文本转换为语音。

但这个过程可能会影响语音的表达性,使得模型在理解、生成带表达的语音上有所欠缺。

为了解决这个限制,研究人员构建了Spirit LM,也是首个Meta开源的多模态语言模型,能够自由地混合文本和语音;通过在语音和文本数据集上使用逐词交错的方法进行训练,实现了跨模态生成。

论文链接:https://arxiv.org/abs/2402.05755

研究人员开发了两个版本的Spirit LM,以展示文本模型的生成语义能力和语音模型的表达能力:基础版(Base)使用音素标记来模拟语音,而表达版(Expressive)使用音调和风格标记来捕捉关于语调的信息,比如是兴奋、愤怒还是惊讶,然后生成反映这种语调的语音。

Spirit LM能够生成听起来更自然的语音,并且有能力跨模态学习新任务,比如自动语音识别、文本到语音和语音分类。

Layer Skip:加速生成时间

大型语言模型已经在各个行业和用例中得到了广泛应用,但需要非常高的计算速度和内存量,运行成本非常高。

为了应对这些挑战,Meta引入一种端到端的解决方案层跳过(Layer Skip),可以在不依赖专用硬件或软件的情况下,加速新数据上的LLM生成时间:通过执行模型的部分层,并利用后续层进行验证和修正,来加速LLMs的运行。

论文链接:https://arxiv.org/pdf/2404.16710

代码链接:https://github.com/facebookresearch/LayerSkip

研究人员开源了层跳过的推理代码和微调检查点,包括Llama 3、Llama 2和Code Llama,这些模型已经通过层跳过训练方法进行了优化,显著提高了早期层退出的准确性,层跳过的推理实现可以提升1.7倍模型性能。

层跳过检查点的一个主要特点是在早期层退出和跳过中间层时的鲁棒性,以及各层之间激活的一致性,这种特性为优化和可解释性方面的创新研究铺平了道路。

Salsa:验证后量子密码标准的安全性

在保护数据的安全领域上,密码学研究必须领先于攻击手段。

Meta此次开源的方法Salsa,能够攻击和破解NIST标准中的稀疏秘密(sparse secrets)Krystals Kyber,使研究人员能够对基于人工智能的攻击进行基准测试,并将其与现在以及将来的新攻击手段进行对比。

论文链接:https://arxiv.org/pdf/2408.00882v1

代码链接:https://github.com/facebookresearch/LWE-benchmarking

国家标准技术研究所(NIST)采用的行业标准,「基于格(lattice)的密码学」建立在「带误差的学习」(LWE)的难题之上。

这种难题假设,如果只提供与随机向量有噪声的内积,那么学习一个秘密向量是非常困难的,此前已经有研究人员展示了针对这种方法的机器学习攻击。

Meta Lingua:通过高效的模型训练加速研究

Meta Lingua 是一个轻量级且自包含的代码库,可以大规模训练语言模型。

该项目提供了一个研究友好的环境,使得将概念转化为实际实验变得更加容易,并强调简单性和可重用性以加速研究,平台高效且可定制,研究人员能够以最小的设置和技术负担来快速测试想法。

代码链接:https://github.com/facebookresearch/lingua

为了实现这一点,研究人员做了几个设计选择,确保代码既模块化又自包含,同时保持高效,其中利用了PyTorch中的多个特性,在保持灵活性和性能的同时,使代码更易于安装和维护。

研究人员可以更专注于工作本身,让Lingua平台来负责高效的模型训练和可复现的研究。

Meta Open Materials 2024:促进无机材料发现

传统上,发现推动技术进步的新材料可能需要数十年的时间,但人工智能辅助材料发现可能会彻底改变这一领域,并大大加快发现流程。

Meta最近开源了Open Materials 2024数据集和模型,在Matbench-Discovery排行榜上名列前茅,有望通过开放和可复现的研究进一步推动人工智能加速材料发现的突破。

代码链接:https://github.com/FAIR-Chem/fairchem

模型链接:https://huggingface.co/fairchem/OMAT24

数据链接:https://huggingface.co/datasets/fairchem/OMAT24

目前最佳的材料发现模型是基于开源人工智能社区的基础研究构建的封闭模型,而Open Materials 2024提供了基于1亿个训练样本的开源模型和数据,也是最大的开放数据集之一,为材料发现和人工智能研究社区提供了一个有竞争力的开源选择。

Meta Open Materials 2024现在公开可用,并将赋予人工智能和材料科学研究社区加速无机材料发现的能力,并缩小领域内开放和专有模型之间的差距。

Mexma:改进句子表征的token级目标

目前,预训练的跨语言句子编码器通常只使用句子级别的目标进行训练。这种做法可能会导致信息的丢失,特别是对于token级别的信息,这最终会降低句子表示的质量。

Mexma是一个预训练的跨语言句子编码器,通过在训练过程中结合token和句子级别的目标,其性能也超越了以往的方法。

论文链接:https://arxiv.org/pdf/2409.12737

以前训练跨语言句子编码器的方法仅通过句子表示来更新编码器,通过同时使用token级别的目标来更好地更新编码器,从而在这方面进行了改进。

研究人员希望研究社区能够从使用Mexma作为句子编码器中受益,目前支持80种语言,所有语言的句子表示都经过对齐,在挖掘包含两种文本的语言数据时,Mexma能够更准确地识别和比较不同语言中的信息,并且在其他下游任务,如句子分类上表现良好。

Self-Taught Evaluator:生成奖励模型

研究人员推出了自学评估器(Self-Taught Evaluator),可以用于生成合成偏好数据以训练奖励模型,而无需依赖人工标注。

这种方法生成对比的模型输出,并训练一个作为评委的大型语言模型(LLM-as-a-Judge)以生成用于评估和最终判断的推理痕迹,并通过迭代自我改进方案进行优化。

论文链接:https://arxiv.org/abs/2408.02666

研究人员发布了一个经过直接偏好优化训练的模型,该生成式奖励模型在RewardBench上表现强大,但在训练数据创建中没有使用任何人工标注。

其性能表现超越了更大的模型或使用人工标注标签的模型,例如GPT-4、Llama-3.1-405B-Instruct和Gemini-Pro,也可作为AlpacaEval排行榜上的评估器之一,在人类一致率方面名列前茅,同时比默认的GPT-4评估器快约7到10倍。

自从发布以来,人工智能社区已经接受了这种合成数据方法,并用来训练表现优异的奖励模型。

参考资料:

https://ai.meta.com/blog/fair-news-segment-anything-2-1-meta-spirit-lm-layer-skip-salsa-lingua/

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
央视女外卖员短片被骂,骆驼祥子拉黄包车,不是为了欣赏沿途风景

央视女外卖员短片被骂,骆驼祥子拉黄包车,不是为了欣赏沿途风景

壹月情感
2025-12-02 16:42:19
区别对待!赴日游客骤减后,才发现中国人在日本背了这么多锅!

区别对待!赴日游客骤减后,才发现中国人在日本背了这么多锅!

比利
2026-02-18 06:26:30
“富养”谷爱凌、苏翊鸣的真实成本:看他们的家庭才懂,父母是高人……

“富养”谷爱凌、苏翊鸣的真实成本:看他们的家庭才懂,父母是高人……

阅读第一
2026-02-13 08:35:15
马凡舒回应春晚发型争议,“盘发不如披发效果好,但会听取意见”

马凡舒回应春晚发型争议,“盘发不如披发效果好,但会听取意见”

乡野小珥
2026-02-18 17:13:22
一觉醒来,中国斯诺克4连败!赵心童2-1被逆转,斯莱瑟复仇晋级?

一觉醒来,中国斯诺克4连败!赵心童2-1被逆转,斯莱瑟复仇晋级?

刘姚尧的文字城堡
2026-02-19 05:27:16
日本人不爱运动,却是长寿的国家,7个习惯是关键,值得学习

日本人不爱运动,却是长寿的国家,7个习惯是关键,值得学习

39健康网
2026-02-04 18:13:56
我国癌症高发,电饭煲是“帮凶”?提醒:4种省钱行为确实要不得

我国癌症高发,电饭煲是“帮凶”?提醒:4种省钱行为确实要不得

DrX说
2026-01-09 14:21:49
初二回娘家,弟弟无缝衔接,把我的礼品搬上他后备箱,我抢过拆开

初二回娘家,弟弟无缝衔接,把我的礼品搬上他后备箱,我抢过拆开

半夏解语
2026-02-19 07:00:03
恭喜特斯拉,我们迎来了无人驾驶的L5时代 !

恭喜特斯拉,我们迎来了无人驾驶的L5时代 !

我不叫阿哏
2026-02-19 00:36:56
太难了!龙湾一公司破产清算!

太难了!龙湾一公司破产清算!

大永强
2026-02-18 00:19:33
金正恩同志:奶粉和乳制品是给孩子喝的

金正恩同志:奶粉和乳制品是给孩子喝的

微微热评
2026-02-17 21:26:49
临阵换帅+紧急补人!日本男篮乱了阵脚,郭士强这话太提气

临阵换帅+紧急补人!日本男篮乱了阵脚,郭士强这话太提气

林子说事
2026-02-19 00:57:35
潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

潮汕婚礼丈母娘火了,打扮娇艳比新娘还抢镜,网友:感觉有点不对

梅子的小情绪
2026-02-08 19:59:04
全国人大法工委:全面禁燃烟花爆竹不合法

全国人大法工委:全面禁燃烟花爆竹不合法

微法官
2026-02-19 00:05:55
B站春晚回应“宋小宝小品翻车”,同台演员集体缺席:没错,我们把舞台事故发出来了,爆笑到无人分辨是舞台事故还是纯包袱

B站春晚回应“宋小宝小品翻车”,同台演员集体缺席:没错,我们把舞台事故发出来了,爆笑到无人分辨是舞台事故还是纯包袱

大象新闻
2026-02-18 21:48:05
丹麦自废武功,这泼天的富贵被中国小镇接住了!全球皮草中心易主

丹麦自废武功,这泼天的富贵被中国小镇接住了!全球皮草中心易主

阅微札记
2026-02-10 09:29:50
烧光350亿,又一家国产造车新势力倒下,正式宣告破产

烧光350亿,又一家国产造车新势力倒下,正式宣告破产

诗意世界
2025-12-31 10:45:29
才喝三天!膝盖像加了“润滑油”,上下楼不费劲!全靠“养膝汤”

才喝三天!膝盖像加了“润滑油”,上下楼不费劲!全靠“养膝汤”

不甜的李子
2026-02-16 10:29:58
又翻车!新加坡知名公司捞鱼生视频惹众怒,网友:“这是玩疯了还是博流量?”

又翻车!新加坡知名公司捞鱼生视频惹众怒,网友:“这是玩疯了还是博流量?”

新加坡眼
2026-02-18 17:55:20
为什么说中国以后都不会再申办奥运会了?原因其实并不复杂。

为什么说中国以后都不会再申办奥运会了?原因其实并不复杂。

百态人间
2026-02-12 15:30:16
2026-02-19 08:03:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14551文章数 66630关注度
往期回顾 全部

科技要闻

怒烧45亿,腾讯字节阿里决战春节

头条要闻

男子租新能源车自驾因APP控车失灵返程 起诉索赔被驳

头条要闻

男子租新能源车自驾因APP控车失灵返程 起诉索赔被驳

体育要闻

首金!苏翊鸣唱国歌落泪 自信比1呐喊

娱乐要闻

明星过年百态!黄晓明等现身三亚

财经要闻

面条火腿香菇酱!上市公司这些年请你吃

汽车要闻

量产甲醇插混 吉利银河星耀6甲醇插混版申报图

态度原创

房产
本地
手机
游戏
军事航空

房产要闻

三亚新机场,又传出新消息!

本地新闻

春花齐放2026:《骏马奔腾迎新岁》

手机要闻

谷歌Pixel 10a正式发布:纯平摄像头 极致简约

《死或生》新作女性角色引争议 被LGBT人士痛批

军事要闻

菲海警在南海投放不明物体 被中国海警全程监控并拍下

无障碍浏览 进入关怀版