网易首页 > 网易号 > 正文 申请入驻

LVM 是噱头还是通用视觉的新突破?

0
分享至

机器之心PRO · 会员通讯 Week 49

---- 本周为您解读 ④ 个值得细品的 AI & Robotics 业内要事 ----

1. LVM 是噱头还是通用视觉的新突破?

LVM 是什么?LVM的「AGI火花」是什么?LVM 与其他视觉模型有什么不同?LVM 离视觉的「GPT 时刻」更近了吗?在 LVM 之前,视觉基础模型都是如何发展的?...

2. AGI 的到来究竟还要几年?

马斯克为何说 AGI 到来还有 3 年?黄仁勋的 5 年预测从何而来?现在的大模型离他们说的 AGI 还有多远?LeCun 为何觉得 AI 会先变成猫狗?...

3. 奥特曼投资的 NPU 会是取代 GPU 的种子选手吗?

OpenAI 花 5100 万美元定的 NPU 真能取代 GPU 吗?Rain AI 又是何方神圣?NPU 与 TPU 孰强?XPU 版摩尔定律了解一下?...

4. 人形机器人技术进入稳定发展期,行业前景如何?

中国的人形机器人技术专利情况如何?人形机器人技术有哪些细分方向?发展情况如何?头部人形机器人产品及其公司的专利情况如何?人形机器人行业未来的技术发展走向?...

...本期完整版通讯含 4 项专题解读 + 31 项本周 AI & Robotics 赛道要事速递,其中技术方面 13 项,国内方面 7 项,国外方面 11项...

本期通讯总计 26966 字,可免费试读至 6 %

消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)

要事解读 ①LVM 是噱头还是通用视觉的新突破?

日期:12 月 4 日

事件:UC 伯克利和约翰霍普金斯大学的研究者提出了大型视觉模型 (LVM) ,无需任何自然语言输入或输出,引起了广泛的关注和讨论。

LVM 和 LLM 有什么关系?下一代的最强大模型一定是 LVM 吗?

在视觉任务中,传统的视觉-语言模型主要用于需要共同理解视觉和文本模式的任务。伴随大语言模型的突破,学术界和工业界均开始尝试采用「文本」来扩大视觉模型的规模。这种方法在训练时会给模型提供图片样例(如一个水果的照片),并附上文字描述(如:这是 XX 水果)。但在面对更加复杂的图片时,这种模型很容易忽略其中大量的信息。

1、LVM,全称 Large Vision Model(大型视觉模型),仅使用图像数据进行训练和推理,无需自然语言输入或输出。

2、现有的 LLM(大型语言模型)具备两种关键特性。即:在大数据环境下的扩展能力;通过提示(上下文学习)灵活地指定任务(即时学习)。

3、LVM 的研究目标在于仅从像素出发,探索视觉模型如何模仿上述 LLM 的两个关键特性。研究者为此指定了「数据」、「架构」、「损失函数」3 个核心组件。

① 数据方面:研究者定义了一种通用格式,称为 「视觉句子」(visual sentence),用它来表征不同的注释(如包括语义分割、深度重建、关键点等),而不需要任何像素以外的元知识。

② 架构方面:研究者采用 30 亿参数的 Transformer 架构,在表示为 token 序列的视觉数据上进行训练,并使用学得的 tokenizer 将每个图像映射到 256 个矢量量化的 token 串。

③ 损失函数方面:研究者从自然语言社区汲取灵感,即掩码 token 建模已经「让位给了」序列自回归预测方法。一旦图像、视频、标注图像都可以表示为序列,则训练的模型可以在预测下一个 token 时最小化交叉熵损失。

4、在测试中,研究者称 LVM 显示出了通用人工智能(AGI)的「火花」,表现出了一些跨领域和跨模态的能力。

① 简单来说,LVM 通过视觉 Prompt 进行学习,成功理解并答对了类似公务员考试中的图形推理题?

图:"AGI 的火花?"研究者用一个遮蔽的推理视觉句子提示 LVM(图中红框左侧),让它推断出智商测试中常见的非语言推理题的答案。研究者发现,该模型通常能正确推断并应用抽象的视觉模式。因此,研究者「谦逊」地向读者抛出了一个问题:LVM 是否也表现出了备受赞誉的 "AGI 火花"。

LVM 将视觉上下文学习能力推到了新的维度?[1] [4]

1、LVM 的可扩展性使其能够处理并学习从原始图像到语义分割和深度重建等标注数据集的各种视觉数据类型。

① 这种多样化的数据输入增强了模型对复杂视觉场景的理解,同时可扩展的 LVM 能更好地在各种任务中泛化,并更有效地适应新挑战,对于视觉输入高度变化的实际应用至关重要。

② 但目前预训练的纯视觉模型在扩展到诸如 LAION 真正大的数据集时,仍然存在困难。

2、知乎的年度新知答主谢凌曦评价 LVM 称:它将视觉 in-context learning 扩展到了序列上,相当于提升了一个维度,所以能够支持的 prompt 形式也更加丰富,能够完成更复杂的推理。往远处看,在视觉交互环境构建起来后,我们也需要一种能够「预测下一帧」的基础模型,届时这篇文章的技术很可能会发挥更大的作用。

LVM 与其他视觉模型有什么不同?[1]

1、LVM 仅使用图像数据进行训练和推理,不依赖于任何自然语言输入或输出。这使得 LVM 更接近于人类的视觉学习方式,并且具有更高的通用性和灵活性。

2、通过增加模型的参数量和扩大训练数据的规模,LVM 可以提高其性能和泛化能力。这种扩展性与大语言模型(如 GPT 系列)的方法相似。

3、LVM 采用了一种基于序列的建模方法,将图像序列编码为低维向量,并使用自回归模型来预测下一帧的向量。这种方法在视觉模型中较为少见。

LVM 离视觉的「GPT 时刻」更近了吗?[4]

LVM 因其仅采用图像数据训练而引起了大量讨论,许多网友对其所带来的贡献和影响发表了评论。下面是知乎的年度新知答主谢凌曦的看法。

1、目前,要想达成视觉的 GPT 时刻,现在的基础设施建设还远远不够。特别是,视觉需要一个充分复杂的交互环境和足够丰富的任务(包括收集各种 instruction),目前还未实现。

2、现有的数据规模还不足以将视觉模型建模好,数据是一大难点。训练大规模视觉和语言模型需要大量数据和计算资源。这些模型的计算要求限制了它们在许多实际应用中的可访问性和可扩展性。

① LVM 的的核心贡献之一,就是构建了一个统一视觉数据集 UVDv1。

3、LVM 与 LLM 同样存在幻觉问题,生成的输出是不真实或无意义的,通常基于假设场景。为控制幻觉,可以向对话型 LLM 提供明确的指令,要求其基于提供的上下文提供答案。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国博士后遭美方执法人员约谈盘问后自杀,去世当天最新论文在顶刊发表……

中国博士后遭美方执法人员约谈盘问后自杀,去世当天最新论文在顶刊发表……

新民周刊
2026-04-17 20:00:11
负债60亿!年销8.4万台豪车的百亿巨头破产,浙商大佬全被套牢

负债60亿!年销8.4万台豪车的百亿巨头破产,浙商大佬全被套牢

青眼财经
2026-04-16 22:01:48
不许中国买伊朗石油,不到24小时,伊外长致电中国,中方斩钉截铁

不许中国买伊朗石油,不到24小时,伊外长致电中国,中方斩钉截铁

军机Talk
2026-04-17 18:44:06
“天津突发8.8级地震”?警方通报

“天津突发8.8级地震”?警方通报

大象新闻
2026-04-16 17:41:08
郑丽文访陆经费报销,韩国瑜最终没有顶住压力,张亚中站了出来

郑丽文访陆经费报销,韩国瑜最终没有顶住压力,张亚中站了出来

DS北风
2026-04-17 18:20:14
北影节座位暴露地位:于和伟仅第三排,高叶有排面,但C位争议大

北影节座位暴露地位:于和伟仅第三排,高叶有排面,但C位争议大

八卦南风
2026-04-17 10:45:58
老百姓大药房董事长被曝婚外生子,上市公司业绩承压

老百姓大药房董事长被曝婚外生子,上市公司业绩承压

大风新闻
2026-04-17 16:49:09
每升降幅0.42元,国内油价或迎大幅下调

每升降幅0.42元,国内油价或迎大幅下调

金融界
2026-04-17 14:36:41
爷爷生前录音赠孙女109万元遗产,六个姑姑不服要求平分,法院:录音无效,重新分配,患小儿麻痹症姑姑拿大头

爷爷生前录音赠孙女109万元遗产,六个姑姑不服要求平分,法院:录音无效,重新分配,患小儿麻痹症姑姑拿大头

鲁中晨报
2026-04-17 17:00:03
78岁蔡志忠:每天要画800张画,一场直播能卖100多万元,“我过了普通人十辈子的人生”

78岁蔡志忠:每天要画800张画,一场直播能卖100多万元,“我过了普通人十辈子的人生”

澎湃新闻
2026-04-17 10:54:06
王传福官宣:比亚迪全固态电池已造出,续航超1200公里

王传福官宣:比亚迪全固态电池已造出,续航超1200公里

生活魔术专家
2026-04-17 13:47:08
雷军拼了!15小时直播1265公里只充一次电,京沪高速全程无剪辑

雷军拼了!15小时直播1265公里只充一次电,京沪高速全程无剪辑

听心堂
2026-04-17 10:37:54
许家印多出的两个私生子!跟谁生的?再扒恒大歌舞团

许家印多出的两个私生子!跟谁生的?再扒恒大歌舞团

大江看潮
2026-04-16 22:20:58
港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

港独、骂中国人,如今却还想来内地捞金,这3位香港明星令人作呕

橙星文娱
2026-04-17 16:04:52
15连胜队史第一!贺希宁30分深圳胜宁波 王浩然21分史密斯准三双

15连胜队史第一!贺希宁30分深圳胜宁波 王浩然21分史密斯准三双

醉卧浮生
2026-04-17 21:28:49
亏了也要卖!武汉一老板娘最终决定:专供中东!首款5天全部卖光

亏了也要卖!武汉一老板娘最终决定:专供中东!首款5天全部卖光

新浪财经
2026-04-17 15:19:51
海牛0-0西海岸仍负分!海牛4中柱+叶博亚进球被吹 VAR半场4度介入

海牛0-0西海岸仍负分!海牛4中柱+叶博亚进球被吹 VAR半场4度介入

我爱英超
2026-04-17 21:08:02
茅台的苦日子,可能才刚开始

茅台的苦日子,可能才刚开始

大猫财经Pro
2026-04-17 14:01:05
156.9元收了157元 广东一餐厅“反向抹零”多收0.1元 系统设置金额向上取整 被立案查处

156.9元收了157元 广东一餐厅“反向抹零”多收0.1元 系统设置金额向上取整 被立案查处

闪电新闻
2026-04-17 10:38:59
中石X某入职刚4年员工年收入,实名羡慕了啊。

中石X某入职刚4年员工年收入,实名羡慕了啊。

微微热评
2026-04-17 17:33:38
2026-04-17 21:59:00
AI好好用 incentive-icons
AI好好用
探索人工智能应用场景及商业化
2095文章数 4429关注度
往期回顾 全部

科技要闻

7家头部平台被罚没35.97亿元

头条要闻

特朗普:感谢伊朗开放霍尔木兹海峡

头条要闻

特朗普:感谢伊朗开放霍尔木兹海峡

体育要闻

遭网暴后,22岁大满贯冠军反击:我的头发足够好

娱乐要闻

刘德华挚友潘宏彬离世 曾一起租房住

财经要闻

"影子万科"2.0:管理层如何吸血万物云?

汽车要闻

又快又稳的开挂动力! 阿维塔06T全系搭分布式电驱

态度原创

数码
本地
房产
艺术
公开课

数码要闻

AOC新款百元电竞显示器25G51F开售了

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

房产要闻

重磅利好!2500个学位,海口滨江片区,要建九年一贯制学校!

艺术要闻

潘石屹、王石、许家印、王健林的审美比较,结局已注定?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版