网易首页 > 网易号 > 正文 申请入驻

告别云端依赖!字节开源新作DreamLite让手机秒变 AI 画板

0
分享至



近日,字节跳动智能创作部门(Intelligent Creation Lab)提出新作 DreamLite,一个主干网络仅有 0.39B 参数的轻量级统一扩散模型,在单一网络内同时支持文生图(Text-to-Image) 和图像编辑(Text-guided Image Editing)两个任务,是目前已知首个实现这一能力的端侧模型。



DreamLite 在 iPhone 17 Pro 上实现了约 3 秒生成或编辑一张 1024×1024 图像,完全在设备端运行,无需云端。在 GenEval、DPG、ImgEdit 等主流基准上,DreamLite 全面超越现有端侧模型,并与参数量大 10-30 倍的服务端模型表现相当。

目前,DreamLite 论文与推理代码已开源。



  • 论文链接:https://arxiv.org/abs/2603.28713
  • 项目主页:https://carlofkl.github.io/dreamlite/
  • GitHub 链接:https://github.com/ByteVisionLab/DreamLite
  • 在线 Demo:https://huggingface.co/spaces/carlofkl/DreamLite

当扩散模型想 "搬进手机":两大痛点亟待解决

在使用 FLUX、HunyuanImage、Qwen-Image 这类大模型创作或修图时,用户正在习惯 "提词即生图、一句话改图" 的体验。但当这些能力想真正走进手机、走向离线场景时,却遇到两个现实的拦路虎:

痛点一:生成与编辑,要装两个模型

现有方案中,文生图和图像编辑往往依赖两个独立的 pipeline: 一个负责 "从零生成",一个负责 "看图改图"。对本就内存紧张、存储有限的移动设备而言,同时装下两套数十亿参数的模型,几乎不可承受。

痛点二:质量和速度,难以兼得

把大模型压缩到端侧可用的体量后,生成质量往往断崖式下跌;而如果追求画质和指令跟随能力,推理延迟又会退回到 "按下按钮等待十几秒",彻底丧失实时交互的意义。

更关键的是,真实产品场景里,用户需要的是同一套应用里无缝切换 "生成一张图片" 和 "修改这张图片"。两个模型意味着两份显存占用、两份下载流量、两份维护成本,这在端侧尤其奢侈。

DreamLite:一个模型,两种能力



DreamLite 的核心思想非常直接:将把 "生成" 和 "编辑" 统一压进一个轻量级网络里,而不是分别训练两个模型。围绕这个思路,团队做了三项关键设计。

1. In-Context 空间拼接:用 "占位符" 统一两类任务

DreamLite 在剪枝后的 SDXL U-Net 主干上,引入了一种空间维度的 in-context 条件注入机制。具体而言,模型的输入始终是一对左右拼接的潜变量。对于文生图,输入的右侧参考图为全黑占位图,相当于 "没有视觉条件";对于编辑,输入的参考图为待编辑的原图。

在此之上,团队还在文本 prompt 前插入显式任务 token([Generate] 或 [Edit]),作为一种零参数的任务路由信号。这样一来,同一个 U-Net 就能根据输入自动分辨当下是 "文生图" 还是 "编辑",无需新增任何分支、适配器或额外模块,天然适配紧凑主干。

2. Task-Progressive Joint Pretraining(渐进式联合预训练)

直接联合训练生成和编辑任务会导致小模型的训练不稳定。团队提出了分阶段的渐进式策略:

  • 阶段一|T2I 预训练:用大规模图文数据,以及经典的文生图范式,训练模型的生成能力;
  • 阶段二|编辑预训练:激活 in-context 条件,让模型在保留原图结构的前提下,学会 "指令编辑";
  • 阶段三|统一联合预训练:在同一 in-context 范式下继续联合优化生成与编辑。

这种分阶段的策略,让一个 0.39B 的小模型也能稳定习得 "生成 + 编辑" 双重能力。

3. RLHF 对齐 + DMD2 步数蒸馏

预训练之后,DreamLite 还经历两轮 "打磨":

  • 高质量 SFT + RLHF 对齐:在精选高质量数据上监督微调,再通过强化学习做偏好对齐。生成任务以 HPSv3 作为 reward model,编辑任务以 EditReward 作为 reward model,并采用 ReFL 完成扩散模型的偏好优化。这一步显著提升了美学质量和指令跟随能力。
  • DMD2 步数蒸馏:通过 Distribution Matching Distillation 2,将采样步数从数十步压缩到仅 4 步。

两者叠加,DreamLite 真正具备了 "端侧实时" 的现实可行性。最后通过量化和部署,实现在手机端生成 / 编辑(如下图)。



实验结果:跻身轻量化模型第一梯队

1. 指标:同级压制,越级对标



在文生图侧,DreamLite 在 GenEval 拿到 0.72、DPG 拿到 85.8;在图像编辑侧,在 ImgEdit 拿到 4.11、GEdit 拿到 6.88。在一众基线的对比中,DreamLite 作为端侧模型,不仅领先于 SnapGen、SANA 等轻量级的单任务模型,与参数量高出其 10–30 倍的服务端统一模型(如 FLUX、OmniGen2)相比,也展现出了极具竞争力的表现。

2. 手机实机演示:全程离线、无需联网

在 iPhone 17 Pro 的实机演示中,DreamLite 可稳定支持以下典型工作流:

  • 人像生成 + 风格迁移:先生成人像写真,再一键转换为油画风格;



视频链接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

  • 风景生成 + 背景替换:先生成自然风景,再完成冬夏的季节切换;



视频链接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

  • 商品场景 + 增删替换:生成日常桌面场景,灵活替换物体。



视频链接:https://mp.weixin.qq.com/s/QbATASScSyD6AX7nF2dsWw

完整流程全程端侧运行、无需联网、用户数据不出设备,对隐私敏感场景尤其友好。

意义与展望

DreamLite 给端侧生成式 AI 的落地,提供了一条相当工程化、也相当有说服力的路径:

  • 一个模型替代两个:统一生成与编辑,直接砍掉端侧 "双模型部署" 的内存、存储与调度开销;
  • 4 步出图、秒级可用:DMD2 步数蒸馏让实时交互成为可能,真正贴合 App 级别的产品体验;
  • 完全端侧、零数据外传:所有计算在设备本地完成,既降低云端推理成本,又从根本上规避了用户数据上传带来的隐私风险;
  • 硬件门槛大幅降低:0.39B 主干意味着在更广泛的中低端设备上,也有机会享受到扩散模型级别的创作能力。

DreamLite 的意义,不只是 "在手机上又能跑一个扩散模型"。它更像是在回答一个更根本的问题:当扩散模型进入生产级的移动端时代,"生成" 和 "编辑" 能否作为同一个能力、由同一个小模型来承担?

随着端侧算力的持续提升、模型组件的持续轻量化,像 DreamLite 这样的轻量统一模型,很可能成为 AI 创作工具走向大规模、人人可用的关键一步 —— 把生成式 AI 从 "云端算力密集型服务",变成 "口袋里随时可用的画板"。

作者介绍

Kailai Feng 为字节跳动实习生,Yuxiang Wei, Bo Chen, Yang Pan, Hu Ye, Songwei Liu, Chenqian Yan, Yuan Gao 均为字节跳动研究员

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中俄都来吊唁,但最该来的人没来,伊朗知道这时候沉不住气就完了

中俄都来吊唁,但最该来的人没来,伊朗知道这时候沉不住气就完了

共工之锚
2026-07-04 00:02:54
任贤齐发文晒照感谢刘宇宁:收到你家乡特产!谢谢你的心意了!

任贤齐发文晒照感谢刘宇宁:收到你家乡特产!谢谢你的心意了!

韩小娱
2026-07-04 07:26:46
汉密尔顿杆位!法拉利也好起来了!

汉密尔顿杆位!法拉利也好起来了!

五星体育
2026-07-04 05:14:20
被马蓉横刀夺爱6年后,宋喆前妻杨慧,已成为了他们高攀不起的人

被马蓉横刀夺爱6年后,宋喆前妻杨慧,已成为了他们高攀不起的人

九天揽月1
2026-07-02 20:41:25
烧烤店老板娘遭醉酒男摸臀,店主已报警,恶心评论又来了!

烧烤店老板娘遭醉酒男摸臀,店主已报警,恶心评论又来了!

川渝视觉
2026-07-03 09:38:21
印度一家五口带着9万卢比闯入上海,以为能买半条街,一顿火锅后彻底懵了

印度一家五口带着9万卢比闯入上海,以为能买半条街,一顿火锅后彻底懵了

黎兜兜
2026-07-03 00:12:36
医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

医生提醒:若长期一天只吃两顿饭,用不了半年,或患上这4种疾病

路医生健康科普
2026-06-29 12:05:03
大陆最新统一提议引关注,国民党回应,民进党表态遭打脸

大陆最新统一提议引关注,国民党回应,民进党表态遭打脸

春之寞陌
2026-07-04 07:30:10
黄一鸣旧号被封后为女儿开新号,闪闪继续当流量筹码

黄一鸣旧号被封后为女儿开新号,闪闪继续当流量筹码

仙味少女心
2026-07-03 23:56:34
《欧洲药理学杂志》:咖啡因或通过肠-脑轴,减轻长期压力下的抑郁样情绪

《欧洲药理学杂志》:咖啡因或通过肠-脑轴,减轻长期压力下的抑郁样情绪

肠菌科普
2026-07-04 07:03:16
三大主力集体失速,长城汽车站在了十字路口

三大主力集体失速,长城汽车站在了十字路口

ZAKER新闻
2026-07-03 17:51:57
北京七胞胎相关争议从未停歇,众人最关心孩子是否为同一母亲所生

北京七胞胎相关争议从未停歇,众人最关心孩子是否为同一母亲所生

西楼知趣杂谈
2026-07-03 21:24:45
詹姆斯不喜欢和哈登同队?富保罗:并非贬低哈登,詹姆斯喜欢加兰

詹姆斯不喜欢和哈登同队?富保罗:并非贬低哈登,詹姆斯喜欢加兰

爱体育
2026-07-03 23:17:19
远离造神陷阱!高考699分韩雅平爆火不到7天,苦难一家遇恶心一幕

远离造神陷阱!高考699分韩雅平爆火不到7天,苦难一家遇恶心一幕

临云史策
2026-07-03 14:06:30
养路费大变天!油车加油更便宜,电车上路要缴费,算账才知亏赚

养路费大变天!油车加油更便宜,电车上路要缴费,算账才知亏赚

华庭讲美食
2026-07-01 08:53:34
美加墨世界杯上座率99.7%!但投入花费仅是卡塔尔世界杯的1/28

美加墨世界杯上座率99.7%!但投入花费仅是卡塔尔世界杯的1/28

林子说事
2026-07-03 06:29:46
高市早苗临时改航线,访印绕开东北邦,刻意远离我国藏南区域

高市早苗临时改航线,访印绕开东北邦,刻意远离我国藏南区域

他走我心既空
2026-07-04 06:39:56
内鬼浮出水面!柬埔寨电诈园区幕后黑手,竟是我们信任的商会会长

内鬼浮出水面!柬埔寨电诈园区幕后黑手,竟是我们信任的商会会长

梦史
2026-06-22 23:45:10
星光大道多位冠军现状:大多已无人问津,有人负债累累当搬运工

星光大道多位冠军现状:大多已无人问津,有人负债累累当搬运工

雅儿姐游世界
2026-04-14 16:52:38
2交易日后!西部实力一目了然:S档2队、A档B档各4支!

2交易日后!西部实力一目了然:S档2队、A档B档各4支!

老汆古装影视解说
2026-07-04 03:49:40
2026-07-04 08:39:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13427文章数 142686关注度
往期回顾 全部

科技要闻

万亿富豪马斯克 舍不得特斯拉员工敞开用AI

头条要闻

牛弹琴:很罕见 普京突然穿上了军装

头条要闻

牛弹琴:很罕见 普京突然穿上了军装

体育要闻

C罗穿已故队友若塔球衣谢场 眼中含泪

娱乐要闻

海来阿木孕期出轨指控掀起全网热议

财经要闻

千亿茶市场无赢家:澜沧巨亏 八马停"蹄"

汽车要闻

方程豹钛9内饰曝光 用上了长联屏设计/下半年上市

态度原创

本地
手机
房产
健康
公开课

本地新闻

国内足球之旅?这座小城给你高分答案

手机要闻

iPhone 18/e首发9GB内存:无法使用iOS 27两大新功能

房产要闻

总裁空缺17个月、现金缺口超1000亿:金融局“局外人”入局万科

听说少吃点能抗衰老?专家讲解!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版