网易首页 > 网易号 > 正文 申请入驻

被吹爆的GPT-4o真有那么强?这有23个案例实测

0
分享至

距离OpenAI正式发布GPT-4o生图功能(2025年3月25日),已经过去两周多了。这段时间里,“ChatGPT-4o颠覆了AI图像生成的逻辑”这句话大家应该都听腻了。但说实话,因为区域限制、付费制这些门槛,真正能上手用一用的朋友可能并不太多。

不过,在GPT-4o生图功能上线后的第一周,见实就组织了一场深度体验分享直播。邀请到了铭文鼎成科技创始人陈一铭,他直接拿出了23个不同行业、不同场景的具体案例分享了使用心得和优化技巧

从这些案例来看,GPT-4o生成的电商产品主图已经达到了商用品质,基础场景下基本不用再改了,但要是涉及到精细细节,那还是得人工调整一番。

具体来说,GPT-4o在以下几个方向表现较好:产品方向,比如模特背景替换、指定元素替换;渲染方向,比如图片上色、空间渲染、风格化等。

但GPT-4o在以下方面表现一般:连续性的主体一致性、精细化输出、场景细节识别等,这些方面还是有一些不完美的地方。

陈一铭在直播中分享了大量实操细节和思考直播回放已上传到见实资料库了,供见实会员随时下载学习。也欢迎新朋友文末订阅会员,获取这些资料,及享有更多专属权益。以下是对这场直播的回顾(第一人称),如下,enjoy:

陈一铭,铭文鼎成科技创始人

先说说“ChatGPT-4o是怎么颠覆传统AI图像生成逻辑的?

以前我们要是想用AI生图,得先学各种AI工具,研究素材排版、结构,设计工作流,还得反复调整节点参数。现在用GPT-4o,只需要用简单的自然语言,把素材丢给它,告诉它你想要的效果,它就能直接生成。

继续看看GPT-4o的基础生图能力。

我们准备好一套儿童衣服,然后输入自然语言:“让一个10岁的小男孩,站在校园里,穿着这身衣服。”大概一分钟左右,GPT-4o就能生成。

假设我们需要换一个模特,也不用重新提交复杂的生图指令,依然可以用自然语言搞定。比如“换一个同龄的女生,重新穿上这身衣服”,它就能满足需求。以前我们做电商服装,成本较高,但现在用GPT-4o,成本大大降低了

所以,GPT-4o主要两个方面的能力:一是理解自然语言,二是可以进行上下文结合理解。

现在有一套装备,包括上装、下装、手表和帽子。我们用自然语言指定地域和肤色,结合四张图完成穿搭。虽然GPT-4o生成了结果,但下身的短裤并没有精准识别,其他方面识别得还不错。

我们再换一个长裤试试,用一位亚洲女模特,肤色有调整,结合四张图完成穿搭。这次效果好一些,不过牛仔裤颜色稍微有差别。

我们继续给出服装,用自然语言让GPT-4o生成一个匹配的模特,它就能直接生成。现在模特在办公室场景,我们用自然语言把场景换成餐厅,它就能替换对应的穿搭,不需要拆分图片,只要把衣服丢给GPT-4o就行。

可能有人会问,在穿搭时部分服装识别错误,该如何修改呢?

首先,你可以重新上传这张图并强调重点。比如刚才提到的裤子没有识别出来,你可以精准地告诉它,重新上传这张裤子的图片,并说明现在需要把裤子参照图二进行替换,可以试一下。基本上,GPT-4o能够做出来的,一两次就能成功。

如果它做不到,你反复尝试十次、二十次,也是没用的。GPT-4o并不是抽卡逻辑,它没有我们之前做生图时的那种“抽卡”概念。它能做一两次就出来的,就能做;做不了的,再多试也没用。

接下来我们来看看GPT-4o精细化处理方面的能力。

可以看到这里有个耳机,我们先用这个耳机生成一个欧美面孔的女生,运动风的模特,它直接就能生成。从这个案例可以看出,它对整体产品的识别相对还是可以的。

不过,它有一个问题。现在我们假设让这张图重新生成,你会发现一个小问题:耳机的细节丢失了,这说明它的主体一致性没有保持好。

测试中我有尝试让它精准修改,比如耳机两侧的金属标志需要修改,同时我们上传一个图片作为参考。但是,当我们继续修改后,基于一致性的修改依然不尽如人意。

所以这里出现了两个问题:一是GPT-4o的连续生图使得它的主体一致性保持不够稳定;二是它对非常精细化的调整,还没有那么完善。

接下来看一个椅子的案例。我们先找到一个椅子,然后用自然语言告诉它,“把这把椅子放在一个温馨的房间里,并突出椅子的质感”。按照正常的逻辑,我们是需要专门去找场景,把场景放进去拍摄的,但现在不需要了,直接用自然语言就可以搞定。

继续,我们现在需要在椅子上“加模特”,让他坐在这里,整体呈现出来。同样,直接就出现了。

那么,能不能让它生成在指定的场景里?大家可以看下图的左下角,现在有一间房间的图片,我们告诉它要把这把椅子放进这个房间里。大家可以看一下下图中最右侧,整个效果就出来了。也就是说,GPT-4o对这种大轮廓的图形、大轮廓的产品,支持程度都非常好,基本上一次性成功率都很高。

我们再看下一个案例,是一个衣柜的三视图,基本全部由线条构成。现在我们告诉GPT-4o,“根据图片中的柜子三视图,生成一个柜子,材质为胡桃木”。中间这个图是GPT-4o基于左侧三视图生成的,大家可以详细对比一下它的结构,参照左侧的三视图。一眼就能看出,基本没有什么误差。

现在假设这个实物图比较单调,我们再来试试,告诉GPT-4o“把柜子放在一个书房,上面有书和插花”。基本上也没有什么误差。

假设你是做家居或者类似逻辑的工作,这套工作流是可以直接复用的

那反向操作可不可以?假设我们现在有一把椅子,告诉GPT-4o“参考图片中的风格,生成太师椅的三视图”,它也是可以直接出来的。所以说,现在假设你在做一些家居方向的产品,用GPT-4o的话,基本上对工作的提效程度是很高的。

接下来我们尝试用GPT-4o做局部重绘。

正常情况下,我们用其他生图模型做局部重绘时,需要做标记。但现在我们用自然语言让GPT-4o做局部重绘基本上用自然语言全部可以搞定。

我们上传两张图,第一张是骑着白色摩托车的,第二张是绿色摩托车。我们用自然语言告诉GPT-4o:“把图一骑的车换成图二的摩托车”。我们可以看到生成的结果,比如耐克的鞋子得到了保留,车的花纹(黑色花纹)也得到了保留,车子最下方的英文“Kawasaki”也得到了保留。

现在我们聚焦到电商领域。

假设我们有一条项链,是金黄色,上面还有一个“小闪电”的吊坠。这个图很模糊,并不是高清图。我现在用自然语言说:“为这条项链生成一个拍摄场景,场景风格与项链契合,近距离特写。”大家可以看效果,整个背景全部按照我们的要求生成了金黄色,搭配了沙粒感的质感。假设我们用它来做电商图,这种图基本上是可以直接使用的。

假设我们再做一个有趣的小动作。现在我说:“把项链形状换成爱心”,可以看到,它依然可以按照我们的逻辑去做对。GPT-4o的生成逻辑并不是很僵硬地按照指令生成,而是先理解再生成。它明白我们的自然语言想目的,所以它进行了准确的更换,而不是把其他地方换成那种小爱心的圆环。

可见,在电商方向,GPT-4o的支持程度已经很高,效率和逻辑都超过了传统AI生图工作流。

我们再看一个护肤品实拍产品的案例。我们说:“把这个化妆品,放在一个场景中,实拍特写,环境需要符合产品的质感。”出来的效果背景是黑色的,和玻璃的磨砂感完美结合在一起。

假设我们还需要让它生成一个更好的图片,说:“把这个化妆品放在一堆黑曜石中拍摄,近距离特写,黑曜石在海水之中。”我们可以看到,GPT-4o的支持度已经非常高了。

刚才我们主要看了GPT-4o在图像生成方面的表现,接下来咱们换个角度,看看它的渲染能力到底如何。

先从调色能力说起。我们手头有一张写真的照片,里面的模特也是AI生成的。这张照片的光线感有点平淡,不够生动。于是,我们对GPT-4o说:“调整光线,让阳光洒在脸上,再让一只蝴蝶落在肩膀上。”结果GPT-4o真的按照我们的要求,把光线调整成了阳光打在脸上的效果,画面一下子就有了生机。不过,它也有个让人头疼的问题——模特的面孔变了。我们用同一个主体做了两次调整,每次面孔都不一样,一致性保持得不太好。

再来看看GPT-4o的上色能力。给一张黑白图片上色,这事儿其实挺简单的,很多模型都能做到。不过,GPT-4o的表现还是值得一看。

我还尝试了一个挺有意思的项目——老照片修复。

我们给GPT-4o下指令:“修复这张老照片,让它变得更清晰,并还原它的颜色,为它增加颜色。”修复后的效果让人眼前一亮。GPT-4o不仅能识别照片当时的衣服风格、颜色和质感,还能还原出符合那个时代的风格。它不会给你那种大红大绿大紫的鲜艳效果,而是恰到好处地还原了老照片的韵味。这可真是大模型生图能力的一大优势,和其他模型比起来,高下立见。

接下来我们继续看一些比较轻松的案例。

现在很多人都喜欢把自己的头像换成各种风格,比如奥特曼风格。GPT-4o在这方面可是一把好手,能一键生成各种风格的头像,涂鸦风格、朋克风格、像素风格……基本上都能轻松搞定。

再来看看一些具体的商业场景。

我有个朋友做全屋定制家装,他问我能不能用GPT-4o对毛坯房的照片进行改变。结果还真可以!GPT-4o有一定的空间识别感知能力,我们说“对这间屋子进行装修,我需要一个鱼缸”,它就能把鱼缸放在客厅中间,而不是像传统逻辑那样,把鱼缸莫名其妙地放在某个角落。

再看一个更精准的。我们有一个已经渲染好的图,想做一个精准调控。比如,“屋顶上需要增加吊扇,然后楼梯上墙面,红框位置需要挂一幅油画(梵高的向日葵)”。结果大家可以看到,GPT-4o生成的效果完全按照我们的需求来。

做全屋定制或者其他专业项目的时候,完全可以借鉴GPT-4o的能力,它能帮你省下不少时间和精力。

再比如做表情包。下图左边是我们公司的卡通IP形象,我们想让它模仿哪吒的表情做一批表情包。以前这得请专业设计师来定制,费时又费力。现在用GPT-4o,基本可以一键搞定。右侧生成的表情包和中间的原图效果几乎一致。

对于创业者来说,GPT-4o更是个好帮手。比如我们有一个logo,想对它进行优化。我们可以做一个对比,比如把文字前面的图标修改成3D风格,把主色调换成橙色。要是我们不想按照指定的颜色调整,还可以给GPT-4o一个色卡,让它根据色卡进行调控,它也能轻松做到。

不过,GPT-4o也不是万能的。

我们再看看漫画生成。现在这种需求很常见。不过,GPT-4o在逻辑性方面表现得并不像大家想象的那么强。虽然它在视觉层面表现不错,但一旦涉及逻辑性,可能就不够准确了。

我们还尝试用GPT-4o做小红书封面。我们可以做一些简单的图,但会发现它的字体都是比较简单的。现阶段一旦涉及复杂字体,就会出现问题。

我想分享一个自己的感受。GPT-4o的生成逻辑并不是简单地调用图像模型,而是先理解再生成。这意味着它生成的图并不是原图。

我之前看到一个短视频,说GPT-4o可以用于手术辅助画线之类的功能,我觉得这有点夸张。虽然不能完全否定,但大家在看到这类内容时还是要理性一些。

GPT-4o主要理解三个方向:一是主体识别,比如原来是汽车,现在还是汽车;原来是飞机,现在还是飞机;原来是宠物,现在还是宠物。二是相对位置,比如原来主体在中间,新图片中它依然在中间。三是大致的颜色和环境,新图会遵循这些逻辑。

我们还做了一个实验,把官网的图片放到电脑样机里,按照PS的逻辑,这是一个非常简单的操作,但GPT-4o却无法完成。这说明GPT-4o的生成逻辑是先理解再生成,而不是简单地贴图合成。

我们尝试把图片换成更简单的,结果发现支持度反而提高了。这说明GPT-4o在处理复杂、精细或涉及大量中文内容时,会显得有些吃力。

我们再做一个很细致的案例,可以完美地佐证这个观点。

这里有一个停车场,停车场里大概有三种颜色的车——黑色、红色和白色。最下面一排,前面是黑色的。现在我提个要求,“将图片中的红色汽车,用绿色框标记出来,并显示位置”。

我们可以看到,生成的图片看起来确实像那么回事,有了绿色标记,但新图片已经完全不一样了。这说明GPT-4o的生图并不是原图,而是完全重新合成的新图。

所以,有时候我们看到一些结论,比如GPT-4o可以在图上画线、做标记、识别各种目标,因为生成的图片已经不是原图了,大家还是要理性对待这类结论。

最后给大家分享一个比较有趣的测试。

我们知道GPT-4o是有频率限制的,连续测试后,它会提示你“三分钟后”“五分钟后”“十分钟后再重新测试”。有一次我测试时,它提示我18分钟后才能生成新的图像。我告诉它,我已经等了60分钟(虽然我实际只等了几分钟)。结果它就帮我生成了。这可能只是我实验中的一个有趣发现,不知道是否具有普遍性。

我猜测,因为它是一个大模型,本身具有推理和逻辑能力,所以我误导它说我等了60分钟,让它判定等待操作已经完成。这是我实际测试的截图,它原本让我等18分钟,但我告诉它我已经等了60分钟(实际并没有),它就开始帮我生成了。

最最后,见实需要提醒的是,以上测试仅截止到分享日。就在此刻GPT-4o的中文能力已经相对发布时有了明显的提升,AI的能力时刻在快速进步,作为AI从业者需要时刻关注新变化,适应新能力。(

本次测试中用到的所有图片,都仅供测试学习使用,请勿商用。

就如陈一铭在见实会员群里所感叹的:“以前早上一睁眼,可以想哪些事可以领先去做。现在早上一睁眼,先看有没有更新,看看自己有没有落后。”

PS.

客服智能体搭建教程、
全域文案生成器搭建教程、
小红书爆款内容飞书模版
等),及一起游学各大品牌、展开主题私享会。

↘私域服务对接

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
京东推出黄金手机壳11299元起售,最高售价112299元,不支持七天无理由退货,客服工作人员:可接受检测

京东推出黄金手机壳11299元起售,最高售价112299元,不支持七天无理由退货,客服工作人员:可接受检测

鲁中晨报
2026-01-22 17:15:27
上映56天,仅38个观众,片方分账390元,2026年最惨电影诞生

上映56天,仅38个观众,片方分账390元,2026年最惨电影诞生

胡一舸南游y
2026-01-21 17:19:09
中国队为决赛留了一手!20岁中场猛将复出:身价45万欧高于蒯纪闻

中国队为决赛留了一手!20岁中场猛将复出:身价45万欧高于蒯纪闻

小火箭爱体育
2026-01-22 18:41:14
王励勤辞任!3大问题摆桌面,樊振东成焦点,孙颖莎王楚钦新核心

王励勤辞任!3大问题摆桌面,樊振东成焦点,孙颖莎王楚钦新核心

体育就你秀
2026-01-23 14:04:34
快船击败湖人,赛后4个好消息和1个坏消息,冲击前六有希望

快船击败湖人,赛后4个好消息和1个坏消息,冲击前六有希望

邹维体育
2026-01-23 14:07:30
火箭评估交易芬尼-史密斯!引援瞄准四大后卫 明确两项运作原则

火箭评估交易芬尼-史密斯!引援瞄准四大后卫 明确两项运作原则

罗说NBA
2026-01-23 06:01:34
深度揭秘 | 中海油原总经理李勇坦白受贿细节:外国代理商开车来,拿个箱子给钱

深度揭秘 | 中海油原总经理李勇坦白受贿细节:外国代理商开车来,拿个箱子给钱

一分为三看人生
2026-01-23 00:08:36
xAI工程师播客聊太嗨,马斯克解雇了他

xAI工程师播客聊太嗨,马斯克解雇了他

量子位
2026-01-21 18:10:26
被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

被双开的胡继勇:在四川工作十四年,当年的上级曾任中石油副总裁

叹为观止易
2026-01-21 10:21:06
002865,一分钟涨停!

002865,一分钟涨停!

中国基金报
2026-01-23 10:40:14
给徐州没有官宣GDP破万亿点个赞

给徐州没有官宣GDP破万亿点个赞

谭浩俊
2026-01-23 06:41:34
央视春晚联排阵容惊喜,该来的都来了狠狠期待,这次真的不一样

央视春晚联排阵容惊喜,该来的都来了狠狠期待,这次真的不一样

娱乐圈十三太保
2026-01-20 16:23:43
王石不再沉默,硬刚婚变传闻,称没必要带妻子亮相,精神状态回春

王石不再沉默,硬刚婚变传闻,称没必要带妻子亮相,精神状态回春

阿纂看事
2026-01-21 15:39:15
我前几年确诊二糖,现在空腹血糖4.4:就靠两点,建议进来了解下

我前几年确诊二糖,现在空腹血糖4.4:就靠两点,建议进来了解下

路医生健康科普
2026-01-23 10:31:56
TikTok正式剥离美国业务

TikTok正式剥离美国业务

蓝洞新消费
2026-01-23 08:55:44
“国民神车”连续两个月 0 销量之后,搞了个骚操作

“国民神车”连续两个月 0 销量之后,搞了个骚操作

蓝字计划
2026-01-20 15:13:01
超级大瓜!清华学霸公司搞“后宫”,和情人3年搞钱2个亿

超级大瓜!清华学霸公司搞“后宫”,和情人3年搞钱2个亿

大猫财经Pro
2026-01-16 18:26:09
300万年薪震动乒坛!张本宇携女归乡,是圆梦还是暗藏玄机?

300万年薪震动乒坛!张本宇携女归乡,是圆梦还是暗藏玄机?

苏甩甩
2026-01-23 08:03:23
恭喜广东队!崔永熙携手麦考尔确认复出,力保杜锋躺进总决赛!

恭喜广东队!崔永熙携手麦考尔确认复出,力保杜锋躺进总决赛!

绯雨儿
2026-01-23 12:01:58
带状疱疹致死病例增多!倡议:1不喝、3不碰、2坚持,别马虎了!

带状疱疹致死病例增多!倡议:1不喝、3不碰、2坚持,别马虎了!

垚垚分享健康
2026-01-19 20:30:10
2026-01-23 15:40:49
见实科技 incentive-icons
见实科技
见识他人经验,提高自己实力
4632文章数 2146关注度
往期回顾 全部

科技要闻

TikTok守住了算法"灵魂" 更握紧了"钱袋子"

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

头条要闻

32岁猝死程序员一人干六七人的工作 上月到手薪资披露

体育要闻

跑个步而已,他们在燃什么?

娱乐要闻

刘大锤曝料 将王星越的“体面”撕粉碎

财经要闻

茂名首富,这次糟了

汽车要闻

“四十不惑”的吉利 信力不信命

态度原创

手机
艺术
游戏
本地
公开课

手机要闻

Windows Phone精神回归!新款手机同时支持Windows、Android和Linux

艺术要闻

现在的春联太俗了,还是过去的“老对联”高雅!

还是太敢想了!外媒称:GTA6或首发登录NS2

本地新闻

云游中国|格尔木的四季朋友圈,张张值得你点赞

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版