NielsenIQ与西班牙自治大学联手：AI实现超大规模商品智能分类|编码器

分享至

这项由NielsenIQ公司的Diego Ortego和西班牙马德里自治大学的Marlon Rodríguez等人领导的研究团队，于2025年11月发表在国际人工智能协会会议期刊上，论文编号为arXiv:2511.13189v1。对于普通人来说，这项研究解决的是一个我们每天都会遇到却可能从未仔细思考过的问题：当你在购物网站搜索"跑步鞋"时，系统是如何从数百万种商品中精准找到你想要的那几双的？

在我们生活的数字购物世界里，每个商品都像是茫茫人海中的一个人，而我们的搜索需求就像是在这人海中寻找最适合的朋友。传统的商品推荐系统就像是一个只会听声音的导盲犬，虽然能根据文字描述找到商品，但常常会漏掉很多重要信息。而这项研究的突破在于，他们教会了这只"导盲犬"不仅会听声音，还能看图片，就像给它装上了一双敏锐的眼睛。

研究团队发现了一个令人惊讶的现象：在处理超大规模的商品分类任务时，哪怕是一张小小的商品图片，其价值竟然相当于数十亿个文字参数。就像是在茫茫书海中寻找一本特定的书时，封面的一张图片往往比厚厚的文字描述更能帮我们快速定位。

这项研究的核心创新体现在两个方面。首先，他们成功地让原本只擅长生成文字的大型语言模型学会了处理商品分类任务。这就像是让一个专门写小说的作家突然学会了画画，不仅没有丢掉原有技能，反而变得更加全能。其次，他们开发了一个名为ViXML的多模态框架，这个框架就像是一个超级翻译官，能够同时理解文字和图片，并将两者完美结合起来进行商品匹配。

更让人印象深刻的是，他们的实验结果显示，一个仅有6600万参数的小型编码器模型配合图片信息，居然能够超越那些拥有数十亿参数的纯文字模型。这个发现就像是发现了一个瘦小的运动员通过巧妙的技巧战胜了肌肉发达的对手，充分证明了"技巧胜过蛮力"的道理。

一、从文字世界到图文并茂的智能革命

在理解这项研究之前，我们首先需要了解什么是极端多标签分类。设想你是一个超大型在线购物平台的管理员，平台上有数百万种商品，从日常用品到专业设备应有尽有。每当用户搜索一个词汇时，系统需要从这数百万种商品中找出最相关的几十个推荐给用户。这个过程就像是在一个巨大的图书馆里，根据读者的简单需求描述，从几百万本书中挑选出最合适的几本。

传统的解决方案就像是雇佣了一个只能阅读文字的图书管理员。当用户说"我想要红色的运动鞋"时，这个管理员只能通过商品的文字描述来寻找匹配项，而完全忽略了商品图片中包含的丰富信息。显然，如果管理员能够同时看到商品的图片，他就能更准确地理解商品的特征，从而做出更好的推荐。

这正是研究团队想要解决的核心问题。他们观察到，尽管大型语言模型在各个领域都表现出了强大的能力，但在极端多标签分类这个特定任务上，这些模型的潜力还没有得到充分发挥。就像是拥有超强计算能力的超级计算机，却一直在用最基础的算法处理复杂问题。

研究团队的第一个重要发现是关于模型规模的影响。他们测试了从小型的1700万参数模型到大型的76亿参数模型，结果发现模型规模的增加确实能带来性能的显著提升。这就像是从普通的放大镜升级到高倍显微镜，观察的精细度有了质的飞跃。

更有趣的是，他们发现传统的编码器模型和新兴的解码器模型在这个任务上表现出了不同的特点。编码器模型就像是一个专业的文本分析师，擅长快速理解和分类文本信息。而解码器模型则像是一个博学的学者，具有更强的推理能力和更丰富的知识储备，但处理速度相对较慢。

研究团队巧妙地解决了如何让解码器模型适应这个特定任务的问题。他们设计了一种特殊的提示模板，就像是给学者提供了一份详细的工作指南。通过在输入文本前添加"这个产品文本"这样的前缀，并在末尾加上结束标记，模型能够更好地理解任务的要求。这个简单的技巧就像是在复杂的机器上贴了一个操作说明，让原本可能迷茫的模型瞬间找到了方向。

二、图片的力量：一图胜过千言万语

研究的第二个重大突破来自对视觉信息的有效利用。想象一下，如果你在网上购买一件衣服，仅凭"蓝色T恤"这四个字，你很难确定这是什么样的蓝色，是什么款式，是什么材质。但如果你能看到衣服的照片，所有这些疑问都能瞬间得到解答。

ViXML框架就是基于这个简单而深刻的洞察而设计的。这个框架的名字听起来很复杂，但实际功能却很直观：让计算机能够同时理解商品的文字描述和图片信息，然后做出更准确的匹配决策。

整个过程就像是培训一个双语导游。首先，研究团队使用了一个预训练的视觉编码器，这就像是给导游配备了一副高质量的望远镜，让他能够清晰地观察和理解图片内容。然后，他们设计了一个线性映射层，这相当于给导游提供了一本图文对照词典，帮助他将看到的视觉信息翻译成文字系统能够理解的语言。

最巧妙的设计在于，ViXML框架为每张图片只生成一个嵌入向量。这就像是将一整张复杂的图片浓缩成一个包含所有重要信息的精华胶囊。这种做法有两个明显的优势：一是计算效率高，不会因为处理图片而大幅增加计算负担；二是信息密度高，能够保留图片中最关键的特征信息。

在处理编码器模型时，ViXML采用了直接连接的策略。就像是将图片信息和文字信息并排放置，让模型能够同时阅读两种类型的信息。而在处理解码器模型时，研究团队使用了更加精心设计的提示模板。他们在原有的文字提示基础上，增加了"图片"相关的标识，告诉模型接下来的信息包含视觉内容。

这种设计的精妙之处在于，它充分利用了解码器模型的单向注意力机制。就像是在阅读一个故事时，前面的情节会影响对后面内容的理解。通过将图片信息放在文字信息之后，模型能够在理解图片内容时参考前面的文字描述，从而形成更加全面和准确的理解。

三、实验验证：数字背后的惊人真相

为了验证他们的方法是否真的有效，研究团队进行了大量的实验。他们使用了四个不同的数据集，就像是在四个不同的城市测试一款新的导航系统，确保在各种环境下都能正常工作。

这些数据集涵盖了从十几万到上百万个商品标签的不同规模，就像是从小镇的杂货店到国际大都市的购物中心。研究团队特别值得称赞的是，他们不仅测试了现有的包含图片信息的数据集，还主动扩展了三个原本只有文字信息的数据集，为每个商品添加了相应的图片信息。这就像是为原本只有文字菜单的餐厅拍摄了精美的菜品照片。

实验结果令人印象深刻。在最大的数据集上，ViXML框架的表现比之前的最佳方法提高了8.21个百分点。这个数字可能听起来不大，但在机器学习领域，特别是在已经高度优化的任务上，这样的提升是相当显著的。就像是在一场激烈的赛跑中，领先者突然又加速了8%，这足以从激烈的竞争中脱颖而出。

更加令人震惊的发现是关于模型规模和图片信息的相对重要性。研究团队发现，一个只有6600万参数的小型模型配合图片信息，竟然能够超越拥有数十亿参数的大型纯文字模型。这个发现颠覆了"越大越强"的传统认知，就像是发现一个轻便的电动自行车在某些情况下比大型汽车更实用。

这个现象背后的原理其实很好理解。文字描述虽然能够传达很多信息，但在描述视觉特征时往往力不从心。比如，要用文字准确描述一种特定的蓝色是非常困难的，但一张图片就能瞬间传达这个信息。因此，即使是少量的视觉信息，也能够为模型提供大量的额外洞察。

研究团队还发现了一个有趣的规律：随着图片数量的增加，模型性能会持续提升，但提升的幅度会逐渐减小。使用一张图片能带来显著的性能提升，使用三张图片会有进一步的改善，但继续增加图片数量的收益会越来越小。这就像是吃饭时的边际效用递减，第一口饭最香，第十口就没那么突出了。

四、技术细节：让复杂变得简单

虽然ViXML框架的核心思想很直观，但实现起来需要解决许多技术挑战。研究团队在这些细节上展现了高超的工程技巧。

首先是关于视觉编码器的选择。研究团队使用了SigLIPv2这样的预训练模型，这就像是选择了一个已经接受过专业训练的摄影师来拍摄商品照片。这些预训练模型已经学会了如何识别和理解各种视觉特征，因此能够为商品分类任务提供高质量的图片表示。

为了保持计算效率，研究团队采用了冻结视觉编码器的策略。这意味着他们不会改变这个"摄影师"的基本技能，而只是教会系统如何更好地使用摄影师提供的照片。这种做法不仅节省了计算资源，还避免了过度拟合的风险。

在训练过程中，研究团队使用了对比学习的方法。这种方法就像是教导一个学生通过比较来学习。系统会看到一个查询和多个候选标签，然后学习将查询与正确的标签匹配起来，同时避免与错误的标签匹配。这种学习方式模拟了人类学习的过程：通过比较好的例子和坏的例子来理解什么是正确的。

研究团队还发现了提示工程的重要性。对于解码器模型，不同的提示模板会带来不同的性能表现。他们测试了多种提示方式，从简单的"这个产品文本"到更复杂的描述性提示。结果发现，适当的提示能够显著提升模型性能，就像是给一个助手提供清晰的工作指令能够让他工作得更好。

特别有趣的是，研究团队发现在解码器模型中，图片信息的放置位置很重要。如果将图片信息放在文字信息之前，模型性能会显著下降。这是因为解码器模型使用单向注意力，只能看到前面的信息。通过将图片信息放在后面，模型能够在处理图片时参考前面的文字上下文，从而形成更好的理解。

五、实际应用：改变我们的购物体验

这项研究的成果不仅仅停留在学术层面，它有着广泛的实际应用前景。在电子商务领域，ViXML框架能够显著改善商品推荐系统的准确性。当你在购物网站上搜索"红色连衣裙"时，系统不再仅仅依赖文字描述，还会考虑商品图片中的颜色、款式、面料等视觉特征，从而推荐出真正符合你需求的商品。

在内容推荐系统中，这项技术也能发挥重要作用。比如在视频平台上，系统不仅能够根据视频标题和描述进行推荐，还能够分析视频缩略图，理解视频的视觉风格和内容特征，从而提供更精准的个性化推荐。

对于企业级的文档管理系统来说，ViXML框架能够处理包含图片的复杂文档，实现更智能的文档分类和检索。想象一个建筑公司的图纸管理系统，它不仅能够根据项目名称和描述来分类图纸，还能够理解图纸中的建筑风格、结构特征等视觉信息。

在医疗健康领域，这项技术可能会带来革命性的变化。医生在查阅病例时，系统能够同时考虑病历文字描述和医学影像，提供更准确的诊断建议和相似病例推荐。这就像是给医生配备了一个既能读懂文字又能看懂图像的智能助手。

研究团队还展示了他们的方法在不同规模数据集上的稳定表现。无论是处理十万级别的小型数据集，还是百万级别的大型数据集，ViXML框架都能保持优异的性能。这种可扩展性对于实际应用来说至关重要，因为现实世界的数据规模往往是动态变化的。

六、挑战与局限：完美路上的小石子

尽管这项研究取得了显著成果，但研究团队也诚实地承认了一些局限性和未来需要改进的地方。就像任何创新技术一样，ViXML框架也面临着一些实际挑战。

首先是计算资源的问题。虽然ViXML框架已经在效率方面做了很多优化，但使用大型解码器模型仍然需要相当的计算资源。对于资源有限的小公司来说，可能需要在性能和成本之间做出权衡。这就像是豪华跑车虽然性能卓越，但维护成本也相对较高。

其次是关于图片质量和可用性的问题。ViXML框架的性能很大程度上依赖于高质量的商品图片。在实际应用中，可能会遇到图片缺失、质量较差或者误导性图片的情况。研究团队在实验中发现，当图片信息不可用时，多模态模型的性能可能不如专门优化的纯文字模型。

训练时间也是一个考虑因素。虽然研究团队通过减少训练轮数等方法控制了训练时间，但大型解码器模型的训练仍然比传统编码器模型耗时更长。这就像是培养一个更全能的员工需要更长的培训时间一样。

在数据集方面，研究主要集中在商品推荐这一特定领域。虽然框架本身具有通用性，但在其他领域的应用效果还需要进一步验证。每个领域都有其特殊的特征和挑战，需要针对性的调整和优化。

研究团队还指出，当前的视觉表示方法相对简单，每张图片只使用一个嵌入向量。虽然这种做法在计算效率上有优势，但可能会丢失一些细节信息。未来的研究可能会探索更精细的视觉表示方法，在效率和表达能力之间找到更好的平衡点。

七、未来展望：更广阔的应用前景

这项研究为未来的发展指出了几个有前景的方向。首先是模型规模的进一步扩展。随着计算技术的发展和优化方法的改进，使用更大规模的模型将变得更加可行。研究团队已经展示了模型规模增加带来的性能提升，未来可能会看到更加强大的多模态分类系统。

在视觉信息处理方面，未来的研究可能会探索更加精细的图片理解方法。比如，不仅仅提取整张图片的特征，还可能会分析图片中的具体区域，理解商品的不同部分和细节特征。这就像是从粗粒度的观察升级到精密的解剖分析。

跨模态的信息融合也是一个有趣的研究方向。除了文字和图片，未来的系统可能还会整合音频、视频、三维模型等多种类型的信息。想象一个能够同时理解产品说明、图片、演示视频和用户评价的智能推荐系统，它的理解深度将远超现有的任何单一模态系统。

个性化推荐是另一个值得关注的发展方向。当前的系统主要关注商品本身的特征，未来可能会更多地考虑用户的个人偏好和历史行为。比如，系统不仅知道某件衣服是红色的，还知道这个用户特别喜欢这种特定的红色调。

在技术优化方面，研究团队提到了几个具体的改进方向。更好的提示工程可能会进一步提升解码器模型的性能，就像是为工人提供更详细和清晰的工作指南。模型压缩和加速技术可能会让大型模型在资源受限的环境中也能高效运行。

实时学习和适应也是一个重要方向。当前的系统需要预先训练，然后部署使用。未来的系统可能会具备实时学习能力，能够根据用户反馈和新数据持续改进自己的性能。

说到底，这项研究展示了人工智能技术在理解和处理多模态信息方面的巨大潜力。通过让机器同时"看"和"读"，我们不仅能够构建更准确的商品推荐系统，还为人机交互开辟了新的可能性。当机器能够像人类一样综合处理文字和图像信息时，它们就能够更好地理解我们的需求，提供更贴心和智能的服务。

这项研究的意义不仅在于技术上的突破，更在于它向我们展示了一个未来的图景：在那里，人工智能系统不再是冷冰冰的文字处理器，而是能够真正理解我们的多感官智能助手。无论是在购物、学习、工作还是娱乐中，这样的技术都将让我们的数字生活变得更加便捷和愉快。对于那些对技术细节感兴趣的读者，可以通过论文编号arXiv:2511.13189v1查询完整的研究论文，深入了解这项令人兴奋的技术创新。

Q&A

Q1：ViXML框架是如何同时处理文字和图片信息的？

A：ViXML框架就像一个智能翻译官，它使用预训练的视觉编码器将每张图片转化为一个包含关键信息的数字向量，然后通过线性映射层将这个视觉向量与文字信息结合。对于编码器模型，它直接将图片和文字信息并排处理；对于解码器模型，它使用特殊的提示模板，告诉模型接下来会有图片信息需要理解。

Q2：为什么小型模型配合图片信息能超越大型纯文字模型？

A：这是因为图片信息包含了文字难以准确描述的丰富视觉特征。就像用文字描述一种颜色很困难，但一张图片就能瞬间传达。研究发现，一张图片提供的视觉信息价值相当于数十亿个文字参数，所以即使是6600万参数的小模型，配合图片信息后也能超越数十亿参数的纯文字模型。

Q3：ViXML技术在日常生活中有哪些实际应用？

A：ViXML技术最直接的应用是改善网购体验。当你搜索商品时，系统不仅读懂商品描述，还能看懂商品图片，推荐更准确。此外，它还能用于视频平台的内容推荐、企业文档管理、医疗影像辅助诊断等领域。基本上任何需要同时理解文字和图片信息的智能系统都能受益于这项技术。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.