IT之家 4 月 18 日消息,小米大模型团队刚刚宣布提出了一种具有方向感知的对角蛇形扫描自回归图像生成框架(DAR,diagonal snake-likeorder),有效地确保相邻索引的 token 在空间上紧密相邻。
相对于传统的逐行生成方式,它可以沿着图像的对角线、像蛇一样灵活地生成每个像素,比传统方法更自然,也更接近人类绘画时的直觉。
小米大模型团队表示,DAR在 256×256 的 ImageNet 基准测试中取得了 1.37 的 FID 分数,刷新了当前同类技术的最好成绩(SoTA)。
小米官方表示将进一步支持更灵活的多种分辨率图像生成。鉴于本方法与 LLM 的训练和推理方式高度兼容,小米大模型团队还将持续探索更加统一的多模态理解与生成技术方案。
目前,相关的论文、训练代码、模型权重已经开源,IT之家附官方地址:
- 训练代码:https://github.com/ xiaomi-research / dar
- 模型参数:https://huggingface.co/ wbh123 / dar
- 论文 arxiv 地址:https://arxiv.org/ abs / 2503.11129
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.