网易首页 > 网易号 > 正文 申请入驻

浙大团队突破:AI实现多人脸精准生成

0
分享至


这项由浙江大学计算机科学与技术学院吴涛、江逸博等研究人员领导的团队,联合浙江大学软件技术学院和华为技术有限公司,于2025年9月发表的研究成果,解决了AI绘画领域一个令人头疼的技术难题。该研究成果以论文形式发表,论文编号为arXiv:2509.21953v1,为多主体图像生成技术带来了突破性进展。

当前的AI绘画技术已经能够根据用户提供的照片,生成单个人物的精美图像。但是,当我们要求AI在同一张图片中绘制多个不同的人物时,问题就出现了。就像一个初学画画的孩子,AI经常会把不同人的特征混在一起,比如把张三的眼睛画到了李四脸上,或者让王五戴上了赵六的帽子。这种现象被研究人员称为"属性泄漏",就好比调色板上的颜料不小心混合了,原本清晰分明的色彩变得模糊不清。

更令人困扰的是,即使AI勉强画出了多个人物,生成的图像往往无法满足人们的审美期待,缺乏真实感和艺术美感。这就像一位厨师虽然知道所有的食材,但却不知道如何搭配才能做出令人满意的佳肴。

面对这些挑战,浙江大学的研究团队开发了一套名为"MultiCrafter"的全新框架。这个框架就像一位经验丰富的导演,能够精确指挥每个"演员"在画面中的位置和表现,确保他们各自保持独特的特征,同时又能和谐地共存于同一个场景中。

研究团队首先发现了问题的根源。他们通过深入分析发现,当AI试图同时处理多个人物时,其内部的"注意力机制"会发生混乱。可以把这种注意力机制想象成摄影师的取景器,本来应该分别对焦不同的人物,但却出现了焦点模糊,导致不同人物的特征相互干扰。

为了解决这个问题,研究团队提出了三个创新性的解决方案。

一、精确分离技术:让AI学会"各司其职"

研究团队开发的第一个核心技术叫做"身份解耦注意力正则化"。听起来很复杂,但原理其实很简单。就像在一个嘈杂的聚会上,我们需要专注听某个特定朋友说话时,会自动过滤掉其他人的声音。研究团队教会了AI类似的技能,让它在处理每个人物时,能够专注于该人物的特征,而不被其他人物干扰。

具体来说,研究团队在AI的训练过程中加入了明确的位置监督信息。这就像给每个演员在舞台上划定了专属的表演区域,确保他们不会互相干扰。通过这种方法,AI学会了为每个人物分配独立的"注意力区域",从根本上避免了特征混淆的问题。

更令人印象深刻的是,这种监督只在训练阶段使用,就像演员在排练时需要导演的指导,但正式演出时就能独立发挥。在实际使用时,AI已经内化了这种分离技能,无需额外的计算开销。

二、专家团队架构:用"专业分工"提升能力

认识到单一模型难以应对各种复杂场景,研究团队引入了"混合专家"架构。这就像组建一个专业团队,每个专家都擅长处理特定类型的任务。

在这个系统中,AI不再是一个"全能选手",而是由多个专门的"专家网络"组成。当遇到不同的场景时,系统会自动选择最合适的专家来处理。比如,当需要绘制两个人并肩站立的场景时,会调用擅长处理这种布局的专家;而当需要绘制多人围桌而坐的场景时,则会启用另一个专门的专家。

这种设计的巧妙之处在于,虽然系统内部包含多个专家,但在实际运行时只激活其中一个,因此并不会增加计算负担。这就像一个工具箱,里面有各种专用工具,但每次只需要拿出最合适的那一个。

三、人性化偏好学习:让AI懂得什么是"好看"

传统的AI训练方法主要关注技术指标,比如图像的清晰度或者与原始照片的相似度。但研究团队意识到,真正优秀的AI绘画作品还需要符合人类的审美观念和情感期待。

为此,他们开发了一套创新的"身份保持偏好优化"框架。这个框架就像一位资深的艺术评论家,能够从三个维度评估生成的图像:美学质量、文本匹配度和人物保真度。

在美学质量方面,系统学会了什么样的构图、色彩搭配和光影效果更符合人类的审美偏好。在文本匹配度方面,它确保生成的图像准确反映了用户的文字描述。而在人物保真度方面,它保证每个人物都保持了原始照片中的关键特征。

特别值得一提的是,研究团队还开发了一套"多身份对齐奖励"机制。这个机制使用了匈牙利算法这一数学工具,能够精确地评估生成图像中的每个人物与原始参考照片的匹配程度。就像一位严格的质检员,它会仔细核对每个细节,确保没有张冠李戴的错误。

研究团队通过大量实验验证了MultiCrafter框架的有效性。他们构建了专门的数据集,包含多人场景的图像和相应的文字描述。实验结果显示,与现有的最先进方法相比,MultiCrafter在保持人物特征方面有了显著提升,人脸相似度指标提高了28.3%。

更重要的是,这种提升不是以牺牲其他方面为代价的。生成的图像在文本匹配度和整体美学质量方面都保持了竞争力,有些指标甚至有所提高。这就像一位厨师不仅学会了做出更美味的菜肴,还保持了营养均衡和卖相精美。

在定性评估中,研究团队展示了大量对比案例。可以明显看出,使用MultiCrafter生成的图像中,每个人物都保持了鲜明的个人特征,避免了其他方法中常见的特征混淆问题。无论是两个女性站在山顶观景,还是两个男性在咖啡厅交谈,每个人都保持了独特的面部特征和个人风格。

这项技术的应用前景非常广阔。在电影和电视制作领域,它可以帮助快速生成概念艺术和分镜头,大大缩短前期制作时间。在社交媒体和个人创作方面,用户可以轻松创建包含多个朋友或家人的创意图像,无需复杂的图像编辑技能。在广告和营销行业,品牌可以更灵活地创建多样化的宣传素材,满足不同场景的需求。

当然,研究团队也坦诚地指出了当前技术的局限性。首先,高质量训练数据的稀缺仍然是一个挑战。目前公开可用的多主体生成数据集数量有限,这在一定程度上限制了模型的训练效果。为了解决这个问题,团队设计了完整的自动化数据处理流水线,从视频中提取训练样本,但数据规模和多样性仍有改进空间。

其次,目前的实验主要集中在两个主体的场景中,因为现有的数据集主要包含这类样本。虽然框架在设计上支持更多主体的场景,但在三个或更多主体的复杂场景中的表现还需要进一步验证和优化。

尽管存在这些局限性,MultiCrafter已经在多主体图像生成领域树立了新的标杆。研究团队表示,他们将继续致力于数据集的扩展和模型的优化,努力让这项技术能够处理更加复杂和多样化的场景。

从技术发展的角度来看,这项研究不仅解决了一个具体的技术问题,更重要的是提出了一种新的思路:如何让AI系统既能保持技术精确性,又能符合人类的审美和情感需求。这种"技术与人文并重"的理念,可能会影响未来AI技术的发展方向。

说到底,MultiCrafter的成功在于它找到了一个巧妙的平衡点。它既解决了技术层面的"属性泄漏"问题,又通过人性化的偏好学习满足了用户的实际需求。就像一位优秀的艺术家,不仅要掌握精湛的技法,还要理解观众的情感和期待。

随着这项技术的不断完善和推广,我们可以期待看到更多高质量、个性化的AI生成内容。无论是专业的创意工作者,还是普通的社交媒体用户,都将从这项技术的进步中受益。而这,正是科技进步的真正意义所在:让复杂的技术服务于人类的创造力和想象力,让每个人都能成为自己故事的艺术家。

Q&A

Q1:MultiCrafter技术和现有的AI绘画工具有什么区别?

A:MultiCrafter最大的特点是能够在同一张图片中准确绘制多个不同的人物,避免"串脸"问题。现有的AI绘画工具在处理单个人物时表现不错,但绘制多人场景时经常会把不同人的特征混合,比如把一个人的眼睛画到另一个人脸上。MultiCrafter通过创新的注意力分离技术和专家网络架构,确保每个人物都保持独特特征。

Q2:普通用户什么时候能使用到MultiCrafter技术?

A:目前MultiCrafter还处于研究阶段,论文刚刚发表。研究团队来自浙江大学和华为,相信随着技术的进一步优化和产业化推进,未来可能会集成到各种AI绘画应用中。不过具体的商业化时间表还需要等待进一步的技术验证和产品开发。

Q3:MultiCrafter技术对计算机性能有什么要求吗?

A:研究团队在设计时特别考虑了效率问题。虽然系统内部包含多个专家网络,但实际运行时只激活其中一个,因此不会显著增加计算负担。而且注意力分离机制只在训练阶段使用,实际生成图像时已经不需要额外的计算开销,这意味着对硬件要求相对合理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
3月17日重庆新桥医院 广西女子求医挂不上号 医生下班蹲地看片暖哭

3月17日重庆新桥医院 广西女子求医挂不上号 医生下班蹲地看片暖哭

观星赏月
2026-03-26 05:17:03
服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

服务犬第一次坐飞机,不忘叼着自己的阿布布,全程乖巧像小玩偶

Magic宠物社
2026-03-25 19:11:59
极氪,不慌了

极氪,不慌了

autocarmax
2026-03-25 20:47:24
初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

初代丑男何润东的突然爆火,狠狠抽了内娱一巴掌

娱乐圈笔娱君
2026-03-24 16:08:36
炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美伊

炸毁美雷达和直升机后,伊拉克官方下令:民兵可放开打美伊

阿龙聊军事
2026-03-25 17:43:37
高考录取线TOP100高校,排名发布!

高考录取线TOP100高校,排名发布!

麦可思研究
2026-03-25 09:51:31
“霍尔木兹决战”,不打了

“霍尔木兹决战”,不打了

中国新闻周刊
2026-03-25 18:43:08
《浪姐7》糊咖扎堆,大牌只有两位,3人成流量担当,4人有黑马相

《浪姐7》糊咖扎堆,大牌只有两位,3人成流量担当,4人有黑马相

八卦南风
2026-03-25 17:32:20
张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

张雪峰去世,“跑完步就不行了”:苏州独墅湖医院外的生死4小时

哲学船
2026-03-25 00:44:19
36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

36岁中国大哥在非洲开“手机网吧”,生意火爆到需要排队取号,当事人:投入很小,仅花了点流量钱,最火的时候10来个人看一个手机

观威海
2026-03-26 09:19:03
通用丰田等联名致函:敦促美国继续限制进口中国车

通用丰田等联名致函:敦促美国继续限制进口中国车

快科技
2026-03-24 11:18:08
欧尔班的好日子到头了

欧尔班的好日子到头了

民间胡扯老哥
2026-03-25 05:22:48
马布里,48岁,刚领着一位中国姑娘去领了证。

马布里,48岁,刚领着一位中国姑娘去领了证。

南权先生
2026-02-28 15:50:16
曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

曝张雪峰去年3月已立遗嘱,遗产由女儿单独继承,他真的很爱女儿

观鱼听雨
2026-03-26 10:43:02
特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

特朗普希望破灭了,但是福特号航母上4500名美军士兵却彻底安全了

安安说
2026-03-26 11:41:14
高铁直达!比起昆明和大理,我更爱这个被严重低估的云南小城!

高铁直达!比起昆明和大理,我更爱这个被严重低估的云南小城!

匿旅
2026-03-25 23:05:23
不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

不可思议,德国人急了,日本急了,美国也急了,中国这下赢麻了。

阿七说史
2026-03-09 16:01:03
2.4亿成全你!詹姆斯降薪2000万?双詹合体咋办!

2.4亿成全你!詹姆斯降薪2000万?双詹合体咋办!

柚子说球
2026-03-25 11:44:10
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

不吹不黑!iOS 26.4正式版体验,老iPhone直接封神

叮当当科技
2026-03-26 01:51:54
2026-03-26 14:04:49
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7745文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

时尚
艺术
房产
手机
亲子

2026年了,最好看的还是“这件针织”!

艺术要闻

哪一座桥不是风景?

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

手机要闻

三星One UI 9前瞻:小部件更方正、Now Bar动画更丝滑

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

无障碍浏览 进入关怀版