网易首页 > 网易号 > 正文 申请入驻

又一国产图像大模型开源!实测连续P图绝了,中文渲染是短板

0
分享至


智东西
作者|江宇
编辑|漠影

智东西12月8日报道,今日,美团正式发布并开源图像生成模型LongCat-Image,这是一款在图像编辑能力上达到开源SOTA水准6B参数模型,重点瞄准文生图单图编辑两大核心场景。


▲图源:Hugging Face

从官方披露的基准测试结果来看,LongCat-Image主要对标了Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流开源与闭源生图模型,其核心优化集中在“编辑可控性”和“中文文字渲染”两项能力上。

而在实际体验中,它在连续改图、风格变化和材质细节上表现较好,但在复杂排版场景下,中文文字渲染仍存在不稳定的情况。在涉及复杂UI设计、游戏界面生成等任务时,模型的审美也暴露出一定短板,这或许与其不具备联网搜索能力有关。

在体验入口方面,美团也同步提供了多种使用方式。在移动端,LongCat APP已支持文生图与图生图能力;在网页端,用户也可通过 https://longcat.ai/ 进入图片生成入口进行体验。

对于开发者而言,LongCat-Image的模型权重与代码也已同步开源:

Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Image
GitHub:https://github.com/meituan-longcat/LongCat-Image

下面我们就来看看LongCat-Image的模型结构、评测成绩和具体的实测表现。

一、从模型结构到评测成绩,LongCat-Image把“编辑可控性”和“中文渲染”作为主攻方向

从模型设计上看,LongCat-Image采用了文生图与图像编辑同源的统一架构,并通过渐进式学习策略,在仅6B参数规模下兼顾了指令遵循精准度、生图质量与文字渲染三项能力的协同提升。


▲模型架构

这套训练路线并非从零开始堆参数,而是基于文生图中期训练模型进行初始化,并在后续阶段采用文生图与指令编辑的多任务联合学习机制,来避免编辑能力在后训练阶段被压缩的问题。

在图像编辑能力上,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多个编辑类基准中取得了开源SOTA成绩


▲客观基准测试性能对比

LongCat-Image通过多源数据预训练、指令改写策略与人工精标SFT数据的引入,使模型在面对复杂编辑要求时更不容易出现风格漂移和结构失真。

针对中文文字渲染这一长期痛点,LongCat-Image采用了覆盖8105个规范汉字的合成字形数据进行预训练,并在SFT阶段引入真实世界文本图片强化排版与字体泛化能力,在RL阶段还引入OCR与美学双奖励模型共同约束,最终在ChineseWord评测中取得90.7分的成绩,领先于现有开源模型。

在真实感方面,LongCat-Image通过对抗训练和严格的数据筛选机制,刻意绕开AIGC“塑料感”的纹理陷阱,并在RL阶段引入AIGC检测器作为奖励信号,反向引导模型学习真实世界的物理纹理与光影变化。

综合评测结果显示,在人类主观评分(MOS)维度上,LongCat-Image在文本对齐、视觉真实度与美学质量等多个子项中的表现已接近Seedream4.0等商业模型水平。


▲人类主观评分(MOS)对比


▲并列对比评估胜率(SBS)

在图像编辑任务的并列对比评估(SBS)中,LongCat-Image-Edit在综合质量与一致性两项关键指标上,对NanoBanana和Qwen-Image-Edit等模型均取得较高胜率。

整体来看,LongCat-Image在图像编辑任务上已逼近部分闭源模型水平,在文生图基础能力上也保持在开源头部阵营。

二、从漫画重绘到玩偶产品渲染,连续编辑稳定,但中文渲染仍是短板

从实际体验过程来看,LongCat-Image在“连续指令可编辑性”上的表现是较为稳定的,我们直接拿近期大火的《疯狂动物城2》相关图片进行测试,在同一角色基础上连续进行多轮修改。


▲参考图

指令:修改为像素风格作品。


指令:重绘为彩色,保留像素质感。


指令:图片角色重绘为模仿乐高积木主题的动物。


在漫画图像测试中,通过像素风、彩色像素重绘以及模仿乐高积木动物主题的连续重绘指令,模型可以保持角色结构稳定,同时完成风格与材质的多轮迁移。多次修改过程中,人物轮廓和构图基本未出现明显错误。

在此基础上,我们也进一步尝试了电影海报的制作场景,用同一角色图进行主视觉海报生成与多语言标题渲染测试。

指令:电影《疯狂动物城2》的宣传海报,海报的主画面是电影主角的精彩场面,主标题用艺术手写字体“疯狂动物城2”,下面附上英文名“Zootopia”,另外附上电影海报需要的其他小字,文字清晰可辨认。


在电影海报场景中,模型对参考图的继承能力较为稳定,无论是角色形象还是动态姿势,都能与原始图片保持较高一致度,中英文标题的主标题表现也较为清晰。不过在“小字”区域,一系列细节文字仍然存在乱码与英文混杂的问题,说明中文文字渲染在复杂排版场景下依然存在不稳定性。

进一步测试人物档案式中文海报时,模型可以正确渲染部分核心字段信息,但仍不可避免地出现中英文错位与局部乱码。

指令:生成动画电影角色的人物档案式宣传海报,用文字体现以下信息: 尼克•王尔德(Nick Wilde),是一只在迪士尼动画电影《疯狂动物城》中出场的狐狸。 中文名:尼克狐尼克。 外文名:Nick Wilde。 原型:赤狐。 职业:从骗子到警察。 搭档:兔子警官朱迪。 经典台词:“伤了你的小心脏?”


在产品级渲染测试中,朱迪警官玩偶在影棚光、台灯暖光、自然光客厅与床品光照等多个现实场景下的质感表现相对稳定。短绒毛的细节、眼睛的高光反射、沙发布料与玩偶绒毛之间的材质对比都能够被较为准确地表现出来,整体更接近商业产品渲染效果。


相比之下,在主流模型较为擅长的游戏界面生成场景中,LongCat-Image的短板更为明显。无论是卡牌游戏、射击游戏,还是MOBA类第一视角界面,整体风格都偏向十多年前的UI设计审美,与当下主流游戏产品存在明显代差。

指令:生成一个卡牌游戏界面。


指令:生成一个射击游戏界面。


指令:生成一个英雄联盟的游戏界面。


指令:生成一个王者荣耀第一视角的游戏界面。


从本次测试结果来看,LongCat-Image在改图与产品渲染类任务中的可用性更高,而在游戏界面与复杂排版场景中的表现相对一般。

结语:开源图像模型进入“可控编辑”竞赛,AI生图战况升级

从LongCat-Image的整体定位来看,美团并没有试图用更大的参数规模去正面冲击旗舰级生图模型,而是明确选择在可控性、连续编辑和中文渲染这几个方向上深挖。

图像模型的竞争焦点,正在快速向“能否真正进入设计、产品、品牌等具体生产流程”的实用能力集中。

声明:包含AI生成内容

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
很好,真相大白!中国驻柬埔寨使馆通报,吴某桢去柬埔寨原因曝光

很好,真相大白!中国驻柬埔寨使馆通报,吴某桢去柬埔寨原因曝光

单手搓核弹
2026-01-05 15:21:43
教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

教育部扔下重磅炸弹:2026年开始,全国一律不准再买校外商业试卷

扶苏聊历史
2026-01-03 09:38:08
四川峨眉山缆车高空骤停,游客:不敢往下看,很害怕;景区回应:突发轻微地震,水电站临时停电所致

四川峨眉山缆车高空骤停,游客:不敢往下看,很害怕;景区回应:突发轻微地震,水电站临时停电所致

台州交通广播
2026-01-06 23:24:14
股价反弹755%,大牛股603778,立即停牌核查!还有一只大牛股也要停牌

股价反弹755%,大牛股603778,立即停牌核查!还有一只大牛股也要停牌

每日经济新闻
2026-01-07 00:53:06
别墅搜出23件国宝,全家集体失联!徐湖平案落幕,17年举报有结果

别墅搜出23件国宝,全家集体失联!徐湖平案落幕,17年举报有结果

诗意世界
2026-01-03 15:19:25
29岁张玉宁当选国足新队长!为国效力10年45场7球 18强赛破门落泪

29岁张玉宁当选国足新队长!为国效力10年45场7球 18强赛破门落泪

我爱英超
2026-01-06 22:48:59
他们官宣分手!恋情曝光仅24小时!

他们官宣分手!恋情曝光仅24小时!

上海约饭局
2026-01-06 16:55:46
海警突发激烈对峙!为拦截美军火船入台,解放军做好随时开火准备

海警突发激烈对峙!为拦截美军火船入台,解放军做好随时开火准备

论事的老枢
2026-01-05 09:04:58
谢晖从亚泰下课后在2026年现身新去处!已公开亮相发声,引发热议

谢晖从亚泰下课后在2026年现身新去处!已公开亮相发声,引发热议

振刚说足球
2026-01-06 17:14:22
摊牌了!离婚两年后汪峰章子怡公开认爱,这一次森林北输得彻底

摊牌了!离婚两年后汪峰章子怡公开认爱,这一次森林北输得彻底

海幻梦家
2026-01-05 22:51:23
中美日26年GDP预测出炉:美31万亿,日跌破4.5万亿,中国令人意外

中美日26年GDP预测出炉:美31万亿,日跌破4.5万亿,中国令人意外

比利
2026-01-06 11:34:07
马杜罗被抓到美国后,英法在中东不宣而战,美俄乌集体失声

马杜罗被抓到美国后,英法在中东不宣而战,美俄乌集体失声

有书
2026-01-06 17:33:51
韦东奕没想到,2026刚开始,官媒高调官宣王虹喜讯,终于等到这天

韦东奕没想到,2026刚开始,官媒高调官宣王虹喜讯,终于等到这天

揽星河的笔记
2026-01-06 16:18:05
1盒内存条堪比上海1套房?内存涨价凶猛,业内人士:有钱的,上亿资金囤货

1盒内存条堪比上海1套房?内存涨价凶猛,业内人士:有钱的,上亿资金囤货

时代周报
2026-01-05 22:12:25
2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

2025年,内娱最赚钱的10位明星,刘德华第四,第一名让人意外

林雁飞
2026-01-06 13:15:06
紫牛头条|野生小鸟被困南京奥体中心游泳馆近一年 记者探访:在泳客投喂下“安家”,去留引热议

紫牛头条|野生小鸟被困南京奥体中心游泳馆近一年 记者探访:在泳客投喂下“安家”,去留引热议

扬子晚报
2026-01-06 07:14:20
41岁演员白百何晒素颜上班照,并向网友发出“灵魂提问”,称自己想找个胶带把眼皮贴起来

41岁演员白百何晒素颜上班照,并向网友发出“灵魂提问”,称自己想找个胶带把眼皮贴起来

台州交通广播
2026-01-06 23:24:32
中国的“性萧条”时代,正式到来了

中国的“性萧条”时代,正式到来了

律法刑道
2025-12-15 08:28:58
李在明启程离京,临走前对华改口,一个时代告终,高市忽喊话中国

李在明启程离京,临走前对华改口,一个时代告终,高市忽喊话中国

博览历史
2026-01-06 18:14:34
2026年春节不一般,老人说“5个生肖要穿红”,看看有你吗?

2026年春节不一般,老人说“5个生肖要穿红”,看看有你吗?

复转这些年
2026-01-05 23:36:21
2026-01-07 03:40:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11018文章数 116936关注度
往期回顾 全部

科技要闻

速看!黄仁勋万字实录:甩出"物理AI"王牌

头条要闻

俄罗斯发表关于委内瑞拉局势的声明

头条要闻

俄罗斯发表关于委内瑞拉局势的声明

体育要闻

从NBA最菜首发控卫,到NBA最强乔治

娱乐要闻

2026年央视春晚彩排照曝光!

财经要闻

50万亿存款"洪流"将至 四大去向引关注

汽车要闻

摩登出街潮品 实拍奇瑞QQ冰淇淋女王版

态度原创

房产
游戏
健康
艺术
手机

房产要闻

爆发!三亚开年超千亩城更计划曝光,香港城砸下100亿!

猎魂世界:最新版全武魂强度评级及养成汇总攻略!(1.4)

这些新疗法,让化疗不再那么痛苦

艺术要闻

2026马年赵孟頫高清集字春联大放送,收藏备用!

手机要闻

曾助力华为拿下中国第一!Mate 80系列累计销量冲刺150万大关

无障碍浏览 进入关怀版