上海AI实验室突破SVG图形难题：让AI像艺术家一样创作矢量图形|动画|svg|新模型|ai实验室

分享至

这项由上海AI实验室、上海交通大学、南京大学等多家机构联合开展的研究发表于2025年10月的arXiv预印本平台，论文编号为arXiv:2510.11341v1。研究团队包括王浩敏、尹金辉、魏奇等多位研究人员，他们共同开发了名为InternSVG的创新系统，专门用于处理SVG矢量图形的理解、编辑和生成任务。

要理解这项研究的重要性，我们先来聊聊什么是SVG图形。SVG就像是绘画界的"数字食谱"，它不是用像素点拼凑图像，而是用数学公式描述图形的每一个元素。比如，普通的照片放大后会变糊，但SVG图形无论放多大都保持清晰，就像用数学公式画出的完美圆形一样。这种特性让SVG在网页设计、图标制作和科学图表中广泛应用。

然而，让AI理解和操作SVG图形一直是个难题。这就好比让一个只会看照片的人突然去理解建筑图纸一样困难。传统的AI模型在处理SVG时，往往只能应付简单的任务，面对复杂的图形编辑或创作就力不从心了。更麻烦的是，现有的数据集规模小、任务单一，就像用几本薄薄的练习册想要培养出大师级画家一样不现实。

针对这些问题，研究团队开发了一个完整的解决方案。他们不仅创建了迄今为止最大规模的SVG数据集SAgoge，包含超过1600万个训练样本，还建立了全面的评测基准SArena，最终推出了统一的AI模型InternSVG。这个系统可以同时处理SVG的理解、编辑和生成三大任务，就像培养出了一位既能读懂图纸、又能修改设计、还能从零创作的全能设计师。

一、数据宝库的建设：从零开始打造SVG世界地图

要让AI学会处理SVG图形，首先需要大量高质量的训练数据。研究团队构建的SAgoge数据集就像是为AI准备的一座包罗万象的图形博物馆。这个数据集涵盖了四个主要领域：简单的图标、复杂的插图、化学分子结构图，甚至还有动态的SVG动画。

在图标领域，团队收集了280万个SVG文件，生成了1100万个训练样本。这些图标就像是图形世界的"基础汉字"，虽然结构相对简单，平均只需要846个"字符"来描述，但数量庞大，为AI提供了扎实的基础训练。插图部分虽然数量较少，只有60万个文件和160万个样本，但每个插图都要复杂得多，平均需要8673个字符来描述，就像是从简单的汉字进阶到复杂的诗词文章。

最有趣的是化学分子结构图部分。研究团队从PubChem数据库中提取了化学分子信息，然后用专门的工具将它们转换成SVG格式。这部分包含了170万个文件和340万个样本，每个分子图平均需要1752个字符描述。这就像是教AI学会读懂化学家的"分子食谱"，理解原子之间的连接关系。

动画部分虽然规模最小，只有6.1万个文件和12.2万个样本，但却最具挑战性。SVG动画不仅要描述图形的静态结构，还要描述它们如何随时间变化。这就像是从静态的建筑图纸进阶到动态的机械装配图，需要AI理解时间维度的概念。

为了确保数据质量，研究团队采用了精心设计的数据处理流程。对于插图，他们先用GPT-4o生成多样化的文本描述，然后用专门的图像生成模型创建具有矢量风格的图像，最后用VTracer工具将图像转换为SVG格式。这个过程就像是先写剧本，再拍电影，最后转换成连环画的制作流程。

对于动画数据，由于高质量的开源SVG动画极其稀缺，团队利用Claude-Sonnet-4的代码生成能力，按照SMIL标准合成了大量SVG动画。他们设计了明确的约束条件，如固定的画布尺寸和必需的动画元素，确保生成的动画既能正常播放，又适合用于大规模训练。

二、评测体系的建立：为AI设计全方位考试

有了丰富的训练数据，还需要一套公平客观的评测标准。研究团队开发的SArena评测基准就像是为AI设计的一套综合性考试，涵盖了理解、编辑和生成三大类任务。

在理解任务中，AI需要像阅读理解考试一样，仅凭SVG代码就能回答关于图形内容的问题。这些问题分为四个类别：颜色识别、几何形状分析、数量统计和语义理解。比如，给AI一个描述红色圆形的SVG代码，它需要能够回答"这个图形是什么颜色"、"有几个圆形"、"整体是什么物体"等问题。

编辑任务则更像是实际操作考试。研究团队设计了十种不同难度的编辑任务，从简单的颜色修改到复杂的风格转换。简单任务包括八种基础操作：改变颜色、添加边框、平移位置、缩放大小、旋转角度、镜像翻转、调整透明度和裁剪范围。这些就像是图形编辑的"基本功"，任何称职的图形编辑AI都应该掌握。复杂任务则包括语义层面的颜色编辑和风格转换，比如"把左边的人物换成女性，保持其他元素不变"，这就需要AI具备更高层次的语义理解能力。

生成任务分为四种类型：根据文本生成SVG、根据图像生成SVG、根据文本生成SVG动画，以及根据视频生成SVG动画。这就像是给AI出不同形式的作文题，看它能否根据不同的输入创作出合适的图形作品。

为了确保评测的公平性，团队精心筛选了评测数据，移除了质量低下、损坏或语义不清的文件。同时，他们为每种任务设计了专门的评价指标。比如，编辑任务使用视觉相似度指标来评判结果质量，生成任务则综合考虑图像质量、语义一致性和文本匹配程度等多个维度。

三、统一模型的构建：打造全能的SVG艺术家

有了丰富的数据和完善的评测体系，研究团队开始构建核心的AI模型InternSVG。这个模型的设计理念是"统一建模"，就是用一个模型同时处理理解、编辑和生成三大任务，而不是分别训练三个专门的模型。

模型的架构采用了当前流行的"视觉-语言多模态"设计，就像给AI配备了一双"眼睛"（视觉编码器）和一个"大脑"（语言模型）。视觉编码器负责处理输入的图像，语言模型则负责理解指令和生成SVG代码。这种设计让AI既能看懂图像，又能理解文本指令，还能输出结构化的代码。

为了更好地处理SVG这种特殊的代码格式，研究团队设计了专门的"SVG词汇表"。传统的语言模型把文本按字符或词语切分，但SVG代码有其独特的结构。团队添加了55个标签词汇（如svg、path、circle等）和42个属性词汇（如fill、stroke、viewBox等），还包括247个整数词汇和110个小数词汇。这就像是为AI准备了一套专门的"SVG方言字典"，让它能更高效地理解和生成SVG代码。

更巧妙的是，这些新词汇的初始表示不是随机设置的，而是基于已有词汇的含义推导出来的。比如，"circle"这个新词汇的初始表示就是从构成这个单词的子词"c-i-r-c-l-e"的表示平均得出的。这种做法就像是让AI从已知的简单词汇推断新词汇的含义，大大加快了学习速度。

训练策略也很有讲究，采用了"循序渐进"的两阶段方法。第一阶段只使用简单的图标和化学结构数据进行训练，让模型先掌握基础的SVG处理能力。第二阶段再加入复杂的插图和动画数据，逐步提升模型的综合能力。这就像是先让学生练习写简单的汉字，掌握基本笔画后再学习复杂的诗词，符合人类学习的认知规律。

四、实验验证：全面超越现有方法

为了验证InternSVG的有效性，研究团队进行了大规模的对比实验。他们不仅与传统的SVG生成方法进行了比较，还测试了多个主流的大语言模型，包括开源的Qwen2.5-VL、InternVL3等，以及商业化的GPT-4o、Claude-4-Sonnet等。

在理解任务上，InternSVG的表现尤为出色。在图标理解测试中，它的总体准确率达到85.1%，比第二名的Claude-4-Sonnet高出8个百分点。特别是在语义理解这个最困难的子任务上，InternSVG达到了99.7%的惊人准确率，几乎接近完美。这意味着AI已经能够准确理解SVG代码所描述的图形含义，而不只是机械地识别几何形状。

编辑任务的结果同样令人印象深刻。在简单的颜色编辑、缩放、旋转等基础操作上，InternSVG在多个子任务中达到了完美的100%准确率。即使在复杂的语义层面编辑任务中，它也保持了很高的性能水平。例如，在语义颜色编辑任务中，InternSVG的视觉质量指标达到0.996，远超其他模型。

生成任务的评测更加全面，涵盖了图像质量、语义一致性等多个维度。在图标生成任务中，InternSVG在多个关键指标上都取得了最佳成绩。比如，在衡量生成图像质量的FID指标上，InternSVG得分为8.715，显著优于第二名的14.931。在文本-图像匹配度指标上，它也表现出色，说明生成的SVG图形能够准确反映文本描述的内容。

更重要的是，InternSVG生成的SVG代码非常简洁高效。平均来说，它生成的图标代码只需要约1000个字符，而传统的优化方法可能需要上万个字符。这种效率优势不仅减少了存储空间，也提高了渲染速度，在实际应用中具有重要价值。

在插图和化学结构图生成任务中，InternSVG同样展现出强大的能力。特别是在化学结构图领域，由于现有的通用模型缺乏相关训练数据，表现普遍较差，而InternSVG凭借专门的训练数据取得了显著优势。在动画生成这个最具挑战性的任务中，InternSVG也达到了接近商业化模型的性能水平。

五、统一建模的优势：一个模型胜过三个专家

研究团队特别关注"统一建模"这一核心理念的验证。他们进行了详细的对比实验，比较了分别训练单任务模型和联合训练统一模型的效果。结果表明，统一建模不仅简化了系统架构，还带来了实质性的性能提升。

在只有10万样本的小规模实验中，三任务联合训练的模型在各项指标上都超过了单任务和双任务训练的模型。这种现象被称为"正向迁移"，即不同任务之间的知识可以相互促进。比如，理解任务帮助模型更好地掌握SVG的结构规律，编辑任务提升了对图形细节的敏感度，生成任务则增强了创造性思维能力。

两阶段训练策略的有效性也得到了充分验证。与直接使用所有数据进行一阶段训练相比，两阶段方法在复杂任务上取得了显著改进。特别是在插图生成任务中，FID-C指标从25.67改善到5.14，DINO指标从0.830提升到0.924。这说明循序渐进的学习策略确实符合AI模型的学习特点。

六、技术创新的深层意义：重新定义图形AI的边界

InternSVG的成功不仅仅是技术指标上的提升，更重要的是它重新定义了图形AI的可能性边界。传统上，图形处理AI往往专注于单一任务，比如图像识别、图像编辑或图像生成。InternSVG证明了一个统一的模型可以同时胜任理解、编辑和创作三大任务，这为未来的图形AI发展指明了方向。

从技术角度看，InternSVG的创新主要体现在三个方面。首先是数据层面的突破，SAgoge数据集的规模和质量都达到了新的高度，特别是在动画和化学结构图等专业领域填补了空白。其次是模型层面的创新，通过专门的SVG词汇表和两阶段训练策略，显著提升了模型对SVG这种特殊格式的处理能力。最后是评测层面的完善，SArena提供了全面系统的评测标准，为后续研究奠定了基础。

从应用角度看，InternSVG的潜在价值非常广阔。在网页设计领域，它可以根据设计师的文字描述自动生成高质量的SVG图标和插图，大大提高设计效率。在科学研究中，它可以帮助化学家快速绘制分子结构图，或者根据实验数据自动生成科学图表。在教育领域，它可以将复杂的概念转化为直观的矢量图形，辅助教学和理解。

更具前瞻性的是，InternSVG为"代码即创意"的新型设计范式提供了技术基础。传统的图形设计往往依赖于可视化的操作界面，而SVG代码提供了一种更精确、更灵活的表达方式。随着AI对SVG理解能力的提升，设计师可能会更多地通过自然语言与AI对话来完成设计工作，而不是拘泥于传统的点击和拖拽操作。

七、面向未来的思考：挑战与机遇并存

尽管InternSVG取得了显著成果，但研究团队也坦承存在一些局限性和挑战。首先是计算资源的需求，统一模型虽然性能强大，但训练和推理都需要大量的计算资源。其次是数据质量的控制，虽然SAgoge数据集规模庞大，但确保每个样本的质量仍然是一个挑战。此外，在某些复杂的风格转换任务中，模型的表现还有提升空间。

从更广阔的视角看，InternSVG的成功也引发了一些深层次的思考。随着AI在图形设计领域能力的不断增强，传统设计师的角色可能会发生变化。他们可能更多地承担创意策划和美学指导的角色，而具体的图形制作工作则交给AI来完成。这种变化既带来了效率提升的机遇，也带来了就业结构调整的挑战。

另一个值得关注的问题是版权和原创性。虽然InternSVG生成的图形在技术上是原创的，但它们是基于大量现有作品训练得出的。如何在利用AI提升创作效率的同时，保护原创作者的权益，将是未来需要深入探讨的问题。

从技术发展趋势看，InternSVG代表了多模态AI向更加专业化、精细化方向发展的重要步骤。未来的AI系统可能会在更多专业领域实现类似的突破，比如3D建模、音乐创作、建筑设计等。这些发展将推动AI从通用工具向专业助手的转变，更深度地融入各个专业领域的工作流程。

说到底，InternSVG的意义不仅在于解决了SVG处理这一特定问题，更在于为AI系统如何更好地理解和创作结构化内容提供了范例。它证明了通过精心设计的数据、模型和训练策略，AI可以在复杂的创意任务中达到接近人类的表现水平。这为未来的人机协作创作模式指明了方向，也为AI在创意产业的应用开辟了新的可能性。

随着技术的不断成熟和普及，我们有理由相信，像InternSVG这样的系统将成为设计师、开发者和内容创作者的得力助手，帮助他们更高效地将创意转化为现实。同时，这项研究也为其他研究者提供了宝贵的经验和基础，推动整个AI创作领域的快速发展。

Q&A

Q1：InternSVG是什么？它能做什么？

A：InternSVG是由上海AI实验室等机构联合开发的人工智能系统，专门用于处理SVG矢量图形。它的核心能力包括三个方面：理解SVG代码的含义、根据指令编辑SVG图形，以及从文字描述或图像生成新的SVG图形。就像一个全能的数字设计师，既能读懂现有的设计，又能修改设计，还能从零开始创作。

Q2：SAgoge数据集有什么特别之处？

A：SAgoge是目前最大规模的SVG多模态数据集，包含超过1600万个训练样本，涵盖图标、插图、化学分子结构图和动画四大领域。它的特别之处在于不仅规模庞大，而且任务全面，支持理解、编辑和生成三种不同类型的任务。这就像为AI准备了一座包罗万象的图形博物馆，让它能够全面学习SVG图形的各种形态和应用场景。

Q3：InternSVG的性能表现如何？

A：InternSVG在各项测试中都取得了优异成绩，显著超过了现有方法。在理解任务中准确率达到85.1%，在语义理解子任务中更是达到99.7%的惊人水平。在生成任务中，它不仅图像质量出色，生成的代码也非常简洁高效，平均只需要约1000个字符就能描述一个图标，而传统方法可能需要上万个字符。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.