网易首页 > 网易号 > 正文 申请入驻

从部分到整体:可控人体图像生成的统一参考框架

0
分享至

在人体图像可控生成领域,尽管在控制姿态和人物身份等方面取得了显著进展,但要通过不同人体部位实现精准控制仍面临重大挑战,尤其是在涉及多重可控条件时,控制效果往往难以保证。

针对这一问题,北京航空航天大学的研究团队提出了一种新颖的研究方法“从部分到整体”(Parts2Whole)。这项技术能够利用多个参考图像,包括姿势图和不同的人体部位外观,生成高度可控的人体图像。

该研究方法的核心在于其创新的语义感知外观编码器,共享自注意力机制和掩膜引导的主题选择机制,使得从多个参考图像中精确抽取目标特征成为可能。


论文标题: From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation 论文链接: https://arxiv.org/pdf/2404.15267 代码链接: https://github.com/huanngzh/Parts2Whole 项目主页: https://huanngzh.github.io/Parts2Whole/

一、Parts2Whole做的任务是什么?

在图像生成领域,可控的人体生成技术正逐步展现其重要性。这一技术不仅能够按照特定的文本描述或结构信号(比如姿态等信息)来合成人像,还能够根据更精确的外观条件(比如人脸)进行调整,从而为用户提供了一种全新的定制化肖像解决方案。

然而,当前的研究主要集中在使用单一图像或文本条件进行生成,难以同时控制多种人体外观特征的合成,这些方法往往忽视了如发型、服装等其他关键外观特征的综合控制,且在保持生成图像与多部分条件一致性上仍存在挑战。


针对以上问题,研究者们提出了一个全新的框架:Parts2Whole。该框架旨在实现从多个参考图像中生成高质量、高一致性的完整人体图像,这些参考图像可以包括不同的人体部分,如头发/头饰、面部、服装和鞋子等。

Parts2Whole不仅可以从多个不同人体部分来进行完整人体图像的生成,还可以使用不同数量的人体部分进行生成,比如可以只根据一张人脸的参考图像进行生成,也可以使用一个人脸加衣服的参考图像作为控制条件来进行生成。总的来说,Parts2Whole可以根据不同数量的人体部分图作和给定的目标姿态图,生成与控制条件高一致性,高质量的人体图像。

二、Parts2Whole是如何构建数据的?


研究者在开源数据集DeepFashion-MultiModal 的基础上进行了后处理操作,主要包括:对数据集进行id清洗;使用清洗后的同一id,同一衣服,不同姿态的人体图像来构建训练对(pair);提取对应图像的人体姿态(pose)图;根据人体解析图(human parsing) 来指导分割;分割后的参考图像进行图像超分。最重构建出约41,500条数据。

三、Parts2Whole的关键技术是什么?


Parts2Whole采用了一种独特的语义感知外观编码器,该编码器能够将每个参考图像及其文本标签编码成多尺度的特征图,保留了丰富的外观细节和空间信息。此外,通过在扩散过程中使用共享自注意力机制,该框架能够在保持参考特征的位置关系的同时,将这些特征精确地注入到图像生成过程中。同时,为了更精确的从参考图像中选取关键特征,Parts2Whole还提出了增强的遮罩引导主体选择机制。

3.1 语义感知外观编码器(Semantic-Aware Appearance Encoder)

语义感知外观编码器是框架的一个关键部分,它可以处理多个参考图像,每个图像对应不同的人体部分(如头发、面部、上身衣物等)。每个参考图像及其对应的文本标签被编码成一系列多尺度的特征图。这种编码方式不仅保留了图像的细节和空间信息,还通过文本标签提供了类别指导,帮助编码器理解不同部分的语义信息,从而更好地保持图像的细节和现实感。这一过程采用了与去噪U-Net相同的网络结构,并使用了预训练的权重。

3.2 共享自注意力机制(Shared Self-Attention)

在获取了N个参考图像的多层特征图之后,框架并不是简单地将这些特征直接加入去噪U-Net,而是采用共享的键(keys)和值(values)在自注意力层中进行特征注入。这种设计允许每个特征位置不仅关注自身的特征,还能关注其他参考图像的特征,且该注意力操作在图像维度开展,能够保留参考图像的外观细节。此外,通过借鉴IP-Adapter在Stable Diffusion模型中额外加入的交叉注意力层,可以进一步引入参考图像的CLIP特征和文本输入,增强生成图像的控制能力。

3.3 增强的遮罩引导主体选择(Enhanced Mask-Guided Subject Selection)

为了从多个参考图像中精确选择目标部分,框架增加了一个遮罩引导的自注意力机制。这个机制通过引入参考图像中的主体遮罩,可以更准确地将注意力限定在特定的部分,避免由于背景或其他不相关元素的干扰导致生成的人体图像出现不自然的外观。这一设计不仅提高了生成图像的质量,也增强了对生成过程的控制性和精确性。

通过这个统一参考框架,Parts2Whole能够有效地处理和整合多个参考图像的特征,生成与输入条件高度一致且细节丰富的人体图像,显著提高了人像生成技术的灵活性和实用性。

四、Parts2Whole的效果怎么样?


研究者在构建数据中的测试集上进行了实验,可以看出Parts2Whole能够从多个参考图像中精准的提取出颜色、纹理和图案细节,具有较高的图像生成质量。

Parts2Whole还可以根据不同人物的图片部分来组合定制全身图像和支持任意的控制条件数量。

4.1 轻松定制全身图像


Parts2Whole能够有效地处理和整合多个不同人体的参考图像,比如想试试自己的外观搭配人物A的发型,人物B的上衣,人物C的裤子会是什么样子的,通过Parts2Whole,可以轻松的实现这一目标。

4.2 任意控制条件数量


Parts2Whole不仅可以从多个不同人体部分来进行完整人体图像的生成,还可以使用不同数量的人体部分进行生成,比如可以只根据一张人脸的参考图像进行生成,也可以使用一个人脸加衣服的参考图像作为控制条件来进行生成。

五、总结

Parts2Whole技术在人体图像可控生成领域取得了显著进展。该技术突破了传统方法在处理多重可控条件下的限制,实现了从多个参考图像精准抽取并整合人体部位特征的能力。通过利用创新的语义感知外观编码器、共享自注意力机制和增强的遮罩引导主题选择机制,Parts2Whole可以生成与输入条件高度一致且细节丰富的人体图像,显著提升了人像生成技术的灵活性和实用性。

研究的未来方向将集中于进一步提升生成图像的ID保持度和图像的生成质量,同时拓展该技术的应用场景,比如在自然场景、虚拟现实以及个性化时尚设计中的应用。此外,团队也计划探索更高效的泛化算法来提高生成效果的泛化性,比如图片的风格等。综合来看,Parts2Whole为高质量、高一致性的定制化人体图像生成开辟了新的可能性,期待未来在此基础上的更多创新和应用。

llustration From IconScout By Pablo Stanley

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com


点击右上角,把文章分享到朋友圈


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南医大处罚教师后续:举报者身份被扒,上课画面曝光,校方再回应

南医大处罚教师后续:举报者身份被扒,上课画面曝光,校方再回应

一口娱乐
2024-06-16 22:58:05
国家统计局:5月份一线城市中仅上海新房价格上涨,“5·17”新政满月,业内称不会立刻扭转房价走势

国家统计局:5月份一线城市中仅上海新房价格上涨,“5·17”新政满月,业内称不会立刻扭转房价走势

华夏时报
2024-06-17 16:24:26
俄军被困沃夫昌斯克!投降呈规模趋势?

俄军被困沃夫昌斯克!投降呈规模趋势?

项鹏飞
2024-06-16 16:32:38
刚刚官宣!中国对澳洲免签!互推五年多次签证!新西兰这一居民签99%获批!不过,旅游签今天变难...

刚刚官宣!中国对澳洲免签!互推五年多次签证!新西兰这一居民签99%获批!不过,旅游签今天变难...

新西兰天维网
2024-06-17 13:01:04
妻子和网友睡3次,被网友转走5万多,2021年妻子:寂寞才找男人的

妻子和网友睡3次,被网友转走5万多,2021年妻子:寂寞才找男人的

汉史趣闻
2024-06-15 10:48:04
老年人在3件事上太勤快,并不是好事,可能会招来疾病

老年人在3件事上太勤快,并不是好事,可能会招来疾病

医者真言
2024-06-16 16:17:54
他是原浙江省长,在浙躬耕42年,痛击温州假冒伪劣产品,今年83岁

他是原浙江省长,在浙躬耕42年,痛击温州假冒伪劣产品,今年83岁

李姐历史
2024-06-17 09:47:38
上海滞销楼盘排行榜

上海滞销楼盘排行榜

上海新房暗场
2024-06-17 11:20:45
美媒:西方保护主义难阻全球化大势

美媒:西方保护主义难阻全球化大势

参考消息
2024-06-16 18:17:09
阿泰谈绿凯冠军数或超湖人:湖人明年会夺冠 我不会赌詹姆斯输

阿泰谈绿凯冠军数或超湖人:湖人明年会夺冠 我不会赌詹姆斯输

直播吧
2024-06-17 12:45:16
中俄已签字,普京要访问越南,新的格局或成形,中资订单转移越南

中俄已签字,普京要访问越南,新的格局或成形,中资订单转移越南

通文知史
2024-06-16 18:00:03
美国一声令下,23国枪口对向中国,不到24小时,中方宣布双反调查

美国一声令下,23国枪口对向中国,不到24小时,中方宣布双反调查

叮当当科技
2024-06-16 16:40:56
随着成都蓉城1-1申花,中超第15轮全部结束,最新积分榜如下!

随着成都蓉城1-1申花,中超第15轮全部结束,最新积分榜如下!

林子说事
2024-06-17 09:06:43
首次被认定毒品,我国仍有6000万人对这种水果上瘾!

首次被认定毒品,我国仍有6000万人对这种水果上瘾!

华人星光
2024-06-16 09:46:17
马斯克:一面是天才一面是疯子,从小混乱的家庭关系让他无法正常

马斯克:一面是天才一面是疯子,从小混乱的家庭关系让他无法正常

照见古今
2024-01-06 18:43:16
因对浙江大学回应姜萍想报考发了几句牢骚,被禁言三天!

因对浙江大学回应姜萍想报考发了几句牢骚,被禁言三天!

谈芯说科技
2024-06-15 06:13:07
章子怡压轴出席红毯!惊喜偶遇梁静管虎,气场强大似女王

章子怡压轴出席红毯!惊喜偶遇梁静管虎,气场强大似女王

综艺拼盘汇
2024-06-16 23:09:45
刷到个细思极恐的帖子,请警惕那个想让你帮忙做贷款证明的朋友!

刷到个细思极恐的帖子,请警惕那个想让你帮忙做贷款证明的朋友!

周兆成律师
2024-06-17 16:35:36
税太高了?一家企业要交13%增值税、25%企业所得税、20%分红税

税太高了?一家企业要交13%增值税、25%企业所得税、20%分红税

小蜜情感说
2024-06-16 07:50:02
数学老师说姜萍属于勤奋型选手,中考数学没答完卷,数学天赋在中专才逐渐显现出来

数学老师说姜萍属于勤奋型选手,中考数学没答完卷,数学天赋在中专才逐渐显现出来

封面新闻
2024-06-15 15:40:29
2024-06-17 17:04:49
将门创投
将门创投
加速及投资技术驱动型初创企业
1825文章数 585关注度
往期回顾 全部

科技要闻

为什么你的iPhone,肯定用不上"苹果AI"?

头条要闻

乘客"开门杀"致路人八级伤残 网约车司机被判赔82万

头条要闻

乘客"开门杀"致路人八级伤残 网约车司机被判赔82万

体育要闻

豪华阵容,原始战术 英格兰10亿天团就这?

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

省市级税务人士:目前没有全国性查税

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

本地
艺术
教育
游戏
家居

本地新闻

能动司法尽“执”履责 ——“交叉执行”高效能

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

教育要闻

全民禁毒宣传月 | “6.26”中小学生禁毒绘画大赛开赛啦!

总监称《宇宙机器人》不一定要和PS绑定:IP很灵活

家居要闻

研己实景 古典与现代的交融

无障碍浏览 进入关怀版