网易首页 > 网易号 > 正文 申请入驻

浙大团队突破:AI实现多人脸精准生成

0
分享至


这项由浙江大学计算机科学与技术学院吴涛、江逸博等研究人员领导的团队,联合浙江大学软件技术学院和华为技术有限公司,于2025年9月发表的研究成果,解决了AI绘画领域一个令人头疼的技术难题。该研究成果以论文形式发表,论文编号为arXiv:2509.21953v1,为多主体图像生成技术带来了突破性进展。

当前的AI绘画技术已经能够根据用户提供的照片,生成单个人物的精美图像。但是,当我们要求AI在同一张图片中绘制多个不同的人物时,问题就出现了。就像一个初学画画的孩子,AI经常会把不同人的特征混在一起,比如把张三的眼睛画到了李四脸上,或者让王五戴上了赵六的帽子。这种现象被研究人员称为"属性泄漏",就好比调色板上的颜料不小心混合了,原本清晰分明的色彩变得模糊不清。

更令人困扰的是,即使AI勉强画出了多个人物,生成的图像往往无法满足人们的审美期待,缺乏真实感和艺术美感。这就像一位厨师虽然知道所有的食材,但却不知道如何搭配才能做出令人满意的佳肴。

面对这些挑战,浙江大学的研究团队开发了一套名为"MultiCrafter"的全新框架。这个框架就像一位经验丰富的导演,能够精确指挥每个"演员"在画面中的位置和表现,确保他们各自保持独特的特征,同时又能和谐地共存于同一个场景中。

研究团队首先发现了问题的根源。他们通过深入分析发现,当AI试图同时处理多个人物时,其内部的"注意力机制"会发生混乱。可以把这种注意力机制想象成摄影师的取景器,本来应该分别对焦不同的人物,但却出现了焦点模糊,导致不同人物的特征相互干扰。

为了解决这个问题,研究团队提出了三个创新性的解决方案。

一、精确分离技术:让AI学会"各司其职"

研究团队开发的第一个核心技术叫做"身份解耦注意力正则化"。听起来很复杂,但原理其实很简单。就像在一个嘈杂的聚会上,我们需要专注听某个特定朋友说话时,会自动过滤掉其他人的声音。研究团队教会了AI类似的技能,让它在处理每个人物时,能够专注于该人物的特征,而不被其他人物干扰。

具体来说,研究团队在AI的训练过程中加入了明确的位置监督信息。这就像给每个演员在舞台上划定了专属的表演区域,确保他们不会互相干扰。通过这种方法,AI学会了为每个人物分配独立的"注意力区域",从根本上避免了特征混淆的问题。

更令人印象深刻的是,这种监督只在训练阶段使用,就像演员在排练时需要导演的指导,但正式演出时就能独立发挥。在实际使用时,AI已经内化了这种分离技能,无需额外的计算开销。

二、专家团队架构:用"专业分工"提升能力

认识到单一模型难以应对各种复杂场景,研究团队引入了"混合专家"架构。这就像组建一个专业团队,每个专家都擅长处理特定类型的任务。

在这个系统中,AI不再是一个"全能选手",而是由多个专门的"专家网络"组成。当遇到不同的场景时,系统会自动选择最合适的专家来处理。比如,当需要绘制两个人并肩站立的场景时,会调用擅长处理这种布局的专家;而当需要绘制多人围桌而坐的场景时,则会启用另一个专门的专家。

这种设计的巧妙之处在于,虽然系统内部包含多个专家,但在实际运行时只激活其中一个,因此并不会增加计算负担。这就像一个工具箱,里面有各种专用工具,但每次只需要拿出最合适的那一个。

三、人性化偏好学习:让AI懂得什么是"好看"

传统的AI训练方法主要关注技术指标,比如图像的清晰度或者与原始照片的相似度。但研究团队意识到,真正优秀的AI绘画作品还需要符合人类的审美观念和情感期待。

为此,他们开发了一套创新的"身份保持偏好优化"框架。这个框架就像一位资深的艺术评论家,能够从三个维度评估生成的图像:美学质量、文本匹配度和人物保真度。

在美学质量方面,系统学会了什么样的构图、色彩搭配和光影效果更符合人类的审美偏好。在文本匹配度方面,它确保生成的图像准确反映了用户的文字描述。而在人物保真度方面,它保证每个人物都保持了原始照片中的关键特征。

特别值得一提的是,研究团队还开发了一套"多身份对齐奖励"机制。这个机制使用了匈牙利算法这一数学工具,能够精确地评估生成图像中的每个人物与原始参考照片的匹配程度。就像一位严格的质检员,它会仔细核对每个细节,确保没有张冠李戴的错误。

研究团队通过大量实验验证了MultiCrafter框架的有效性。他们构建了专门的数据集,包含多人场景的图像和相应的文字描述。实验结果显示,与现有的最先进方法相比,MultiCrafter在保持人物特征方面有了显著提升,人脸相似度指标提高了28.3%。

更重要的是,这种提升不是以牺牲其他方面为代价的。生成的图像在文本匹配度和整体美学质量方面都保持了竞争力,有些指标甚至有所提高。这就像一位厨师不仅学会了做出更美味的菜肴,还保持了营养均衡和卖相精美。

在定性评估中,研究团队展示了大量对比案例。可以明显看出,使用MultiCrafter生成的图像中,每个人物都保持了鲜明的个人特征,避免了其他方法中常见的特征混淆问题。无论是两个女性站在山顶观景,还是两个男性在咖啡厅交谈,每个人都保持了独特的面部特征和个人风格。

这项技术的应用前景非常广阔。在电影和电视制作领域,它可以帮助快速生成概念艺术和分镜头,大大缩短前期制作时间。在社交媒体和个人创作方面,用户可以轻松创建包含多个朋友或家人的创意图像,无需复杂的图像编辑技能。在广告和营销行业,品牌可以更灵活地创建多样化的宣传素材,满足不同场景的需求。

当然,研究团队也坦诚地指出了当前技术的局限性。首先,高质量训练数据的稀缺仍然是一个挑战。目前公开可用的多主体生成数据集数量有限,这在一定程度上限制了模型的训练效果。为了解决这个问题,团队设计了完整的自动化数据处理流水线,从视频中提取训练样本,但数据规模和多样性仍有改进空间。

其次,目前的实验主要集中在两个主体的场景中,因为现有的数据集主要包含这类样本。虽然框架在设计上支持更多主体的场景,但在三个或更多主体的复杂场景中的表现还需要进一步验证和优化。

尽管存在这些局限性,MultiCrafter已经在多主体图像生成领域树立了新的标杆。研究团队表示,他们将继续致力于数据集的扩展和模型的优化,努力让这项技术能够处理更加复杂和多样化的场景。

从技术发展的角度来看,这项研究不仅解决了一个具体的技术问题,更重要的是提出了一种新的思路:如何让AI系统既能保持技术精确性,又能符合人类的审美和情感需求。这种"技术与人文并重"的理念,可能会影响未来AI技术的发展方向。

说到底,MultiCrafter的成功在于它找到了一个巧妙的平衡点。它既解决了技术层面的"属性泄漏"问题,又通过人性化的偏好学习满足了用户的实际需求。就像一位优秀的艺术家,不仅要掌握精湛的技法,还要理解观众的情感和期待。

随着这项技术的不断完善和推广,我们可以期待看到更多高质量、个性化的AI生成内容。无论是专业的创意工作者,还是普通的社交媒体用户,都将从这项技术的进步中受益。而这,正是科技进步的真正意义所在:让复杂的技术服务于人类的创造力和想象力,让每个人都能成为自己故事的艺术家。

Q&A

Q1:MultiCrafter技术和现有的AI绘画工具有什么区别?

A:MultiCrafter最大的特点是能够在同一张图片中准确绘制多个不同的人物,避免"串脸"问题。现有的AI绘画工具在处理单个人物时表现不错,但绘制多人场景时经常会把不同人的特征混合,比如把一个人的眼睛画到另一个人脸上。MultiCrafter通过创新的注意力分离技术和专家网络架构,确保每个人物都保持独特特征。

Q2:普通用户什么时候能使用到MultiCrafter技术?

A:目前MultiCrafter还处于研究阶段,论文刚刚发表。研究团队来自浙江大学和华为,相信随着技术的进一步优化和产业化推进,未来可能会集成到各种AI绘画应用中。不过具体的商业化时间表还需要等待进一步的技术验证和产品开发。

Q3:MultiCrafter技术对计算机性能有什么要求吗?

A:研究团队在设计时特别考虑了效率问题。虽然系统内部包含多个专家网络,但实际运行时只激活其中一个,因此不会显著增加计算负担。而且注意力分离机制只在训练阶段使用,实际生成图像时已经不需要额外的计算开销,这意味着对硬件要求相对合理。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

为什么WTO很少被提起了?中国入世谈判花了15年,如今几乎被架空

顾史
2025-11-08 18:34:04
巴总统:已正式通知中国,退出一带一路计划,我方回应4个字

巴总统:已正式通知中国,退出一带一路计划,我方回应4个字

花花娱界
2025-11-07 20:53:23
阿卡独揽518万为恋爱绯闻画上句号,紫薇不想和辛纳同组遭趣评

阿卡独揽518万为恋爱绯闻画上句号,紫薇不想和辛纳同组遭趣评

网球之家
2025-11-10 22:34:21
龙头 | 锂电池原材料最核心的 10 家上市公司

龙头 | 锂电池原材料最核心的 10 家上市公司

飞跑的鹿
2025-11-10 21:27:26
东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

冰点历史
2025-07-15 09:33:13
“华人圈最红女优”被全网“开盒”荡妇羞辱,她却用恶评赚6000万

“华人圈最红女优”被全网“开盒”荡妇羞辱,她却用恶评赚6000万

诗意世界
2025-11-07 10:23:31
美国大豆又被中国查出问题?这回不是找茬,是抓住美国痛脚!

美国大豆又被中国查出问题?这回不是找茬,是抓住美国痛脚!

李博世财经
2025-11-10 10:26:55
五角大楼彻底懵了!大陆不动一兵一卒,竟让日本自卫队军官零距离参观解放军军营

五角大楼彻底懵了!大陆不动一兵一卒,竟让日本自卫队军官零距离参观解放军军营

健身狂人
2025-11-08 06:03:18
湘江惨败后,毛主席在担架上幡然醒悟,一个'世界巨人'从此苏醒

湘江惨败后,毛主席在担架上幡然醒悟,一个'世界巨人'从此苏醒

何氽简史
2025-11-10 12:31:58
郭晶晶开幕式举火炬,小叔子霍启山疯狂鼓掌,霍震霆一家来了五口

郭晶晶开幕式举火炬,小叔子霍启山疯狂鼓掌,霍震霆一家来了五口

疯说时尚
2025-11-10 14:02:11
“死神”嘲讽鸽武缘:太可怕!能把人脑浆扇出来,国内禁止他比赛

“死神”嘲讽鸽武缘:太可怕!能把人脑浆扇出来,国内禁止他比赛

念洲
2025-11-09 10:31:07
飞行7600公里 梅西时隔4年重回诺坎普 深情凝望:愿再归来

飞行7600公里 梅西时隔4年重回诺坎普 深情凝望:愿再归来

叶青足球世界
2025-11-10 19:35:18
副院长祖雄兵塌房后,原配护士长彭某某靠3个细节,赢得全网怒赞

副院长祖雄兵塌房后,原配护士长彭某某靠3个细节,赢得全网怒赞

热风追逐者
2025-11-10 04:45:03
六氟翻倍引爆唯一原料:磷矿!未来缺口 2000 万吨!机构 15 亿抢先卡位!

六氟翻倍引爆唯一原料:磷矿!未来缺口 2000 万吨!机构 15 亿抢先卡位!

娱乐八卦木木子
2025-11-10 04:24:22
知名网红夫妻,已被正式逮捕!

知名网红夫妻,已被正式逮捕!

财经三分钟pro
2025-11-09 17:14:40
银行App迎来关停潮

银行App迎来关停潮

澎湃新闻
2025-11-10 16:54:07
红军城一丢,捷克扯旗、波兰骂街、美国摆烂:泽连斯基满手是血

红军城一丢,捷克扯旗、波兰骂街、美国摆烂:泽连斯基满手是血

今日养生之道
2025-11-08 15:13:35
16GB+1TB!新机官宣:11月14日,正式全新开售!

16GB+1TB!新机官宣:11月14日,正式全新开售!

Q科技基地
2025-11-08 12:05:11
以总理称将以强硬手段执行加沙和以黎停火协议

以总理称将以强硬手段执行加沙和以黎停火协议

财联社
2025-11-11 01:48:02
被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

被剪刀差剪掉的一生:1.8亿农村老人为何只能靠百元养老金度日?

霹雳炮
2025-11-02 20:52:08
2025-11-11 03:31:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6176文章数 541关注度
往期回顾 全部

科技要闻

荷兰“玩脱”后,大众本田终于拿到芯片了

头条要闻

德军司令:柏林已做好与莫斯科开战的准备

头条要闻

德军司令:柏林已做好与莫斯科开战的准备

体育要闻

重返诺坎普!梅西:希望有一天能回来

娱乐要闻

51岁周迅的现状 给中年女性提了个醒?

财经要闻

北大医药董事长被抓 巨额资金去向不明

汽车要闻

智能又务实 奇瑞瑞虎9X不只有性价比

态度原创

家居
手机
房产
健康
军事航空

家居要闻

四方食事 不过人间烟火

手机要闻

一加Ace 6T被确认:骁龙8 Gen5+8000mAh,联名款悬念拉满

房产要闻

封关倒计时!三亚主城 2.3 万 /㎡+ 即买即住,手慢无!

超声探头会加重受伤情况吗?

军事要闻

美媒承认:乌重镇即将被攻克

无障碍浏览 进入关怀版