网易首页 > 网易号 > 正文 申请入驻

DALL·E 3必应开测!马骑宇航员难题攻破,一张画指定50个物体

0
分享至

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

DALL·E 3限量测试,已由微软Bing抢先开启,看看你是欧皇之一吗?

来自WindowsLatest

没收到资格也没关系,再加上第三方研究预览、OpenAI员工的内部试玩,各种测试案例纷纷涌现,包看过瘾。

最夸张的一个,要数“指定画面中出现50个不同物体”,结果足足画出了几百个。

除了简单平铺排列,更可以把这些物体组合得更有创意一些。

马骑宇航员这种反事实概念,过去OpenAI和谷歌的各种模型都只能画出宇航员骑马

在论文一般当成失败案例,当时还被AI悲观主义者马库斯好一顿嘲讽。

现在,DALL·E 3在ChatGPT加持下轻松搞定。

DALL·E 3这次这么大进步,不仅仅是OpenAI自己的努力,而是与微软通力合作的结果。

虽然没有明确说明,但贡献名单中研究部分就有至少3位微软工程师与研究员参与,推理优化部分更是大部分成员来自微软DeepSpeed团队。

回看GPT-4时还是主要由OpenAI内部研发,再给微软和其他研究机构开放权限一同测试。

这次合作模式的变化,也代表两家公司关系进一步加深

一张画指定50个物体

由微软Bing首席执行官Mikhail Parakhin确认,最幸运的百分之几用户已经获得测试资格了。

由于名额着实有限,等不及的网友纷纷在线提出脑洞,请有号的人帮忙测试。

提出画50个不同物体的网友,就是想测试DALL·E 3一张画中能容纳多少物体,类似大语言模型的“上下文窗口”

收到研究预览版的第三方设计师Nathan Shipley接下了这个挑战。

首先他先让ChatGPT随机列出50个日常物体,然后直接要求把这些物体都画在一幅画里就可以了。完整的提示词是ChatGPT自己补全,再由DALL·E 3画出来。

接下来Nathan问:“你能创建一个冲浪者在努力冲浪时将这些物体堆成一堆的图像吗?”

ChatGPT在提示词中补充了一些细节:

一名中年波利尼西亚男性冲浪者有被阳光吻过的皮肤,他举着50种物品,奋力冲浪,其中包括茶杯、自行车、雨伞……海浪在他周围拍打,他的表情充满决心和轻微的恐慌,试图平衡这些物体和他的冲浪板。

结果一次尝试就得到了基本符合要求的图像,只是人物表情看起来更像是非常恐慌,而不是轻微恐慌。

后来Nathan又提出换一个更低的视角的要求,这回ChatGPT把提示词中的人物描述换成了“一名西班牙老年女性”。

围观网友都觉得非常惊人,但也指出为什么铅笔的大小与其他物体不成比例。

有人猜测模型只是知道某样物体长什么样子,但不知道其相对大小,尤其钢笔宣传图片通常会采用近景。

此外Nathan还从ChatGPT嘴里拷问出了用户都能控制画面的哪些参数。

ChatGPT回复如下:

  • 描述:您可以提供所需图像的详细描述。您越具体和详细,生成的图像就越接近您的愿望。
  • 风格和媒介:您可以指定图像的风格或媒介,例如“油画”、“照片”、“插画”、“卡通”、“水彩画”、“3D渲染”等。
  • 分辨率:默认情况下,图像以1729x1024分辨率生成。但如果您的描述建议使用全身肖像或更适合高纵横比的内容,则将以1024x1792生成图像。如果需要,您还可以请求正方形分辨率 (1024x1024)。
  • 图片数量:如果您没有指定,我通常会根据您的描述创建四个不同的图片。但是,您可以请求特定数量(最多四个)。
  • 修改:如果您对初始结果不满意,可以提供反馈并请求修改。虽然我无法直接修改现有图像,但我可以使用您的反馈来生成更符合您的愿景的新图像。
  • 随机种子:如果您想修改以前的图像,我可以使用该图像元数据中的种子来生成新版本。这确保了原始图像和修改后的图像之间的一定一致性。
  • 请注意,存在某些限制。例如公众人物的形象,以及最近100年内的艺术家的风格,都无法直接创建。

重点在后面:

然而,我可以提供替代方案或使用形容词来捕捉特定风格的本质,而无需直接引用它。

马骑宇航员难题破解

OpenAI内部员工中,Will DePue是最积极公开DALL·E 3试玩结果的了。

在马骑宇航员测试中,他表示其实也不是100%成功。

两至三次尝试之内就能搞定,因为GPT-4在与你一起完善提示词,直到写对为止。
只要付出一些努力,你就能得到几乎所有想要的。

有网友尝试用MidJourney获得相同的结果,只能说也不是完全不行,就是要费老大劲了。

几乎不可能,需要大量的提示工程,而且很难复现。

如果你是MidJourney资深用户,不妨试试能不能成。

网友提出的“8个长颈鹿喝水”挑战中,DALL·E 3再一次展现出很难把数字准确的弱点

数数图中一共有几个长颈鹿

更多错误尝试中还出现了一个双头长颈鹿。

让AI正确计数这次没有解决,但至少解决了理解空间关系的问题。

网友提出的“四匹斑马在草原上奔跑,一头狮子在后面追赶,上面有一只鹰,图片中没有其他动物”挑战中,空间关系基本正确,但是多了一只斑马。

相比之下,DALL·E 2和Stable Diffusion对空间关系的理解都要更差。

OpenAI负责ChatGPT企业版的Adam Goldberg也晒出不少高质量结果,不过没有分享提示词。

负责AI写代码和调用工具的Jerry Tworek则搞出不少抽象概念画,如“机械细胞的分裂”

以及“横跨银河系的计算机程序树”

微软OpenAI通力合作

DALL·E 3这次巨大提升,除了整合ChatGPT,图像生成部分具体是怎么做到的呢?

很可惜,鉴于OpenAI越来越Close的趋势,很可能不会像前两代那样公布论文了,只能从贡献名单中略作猜测。

DALL·E 2论文共有5位作者。

而DALL·E 3暂且不看产品、安全、公共沟通和法律等团队,光研究部分就有18人参与

其中提出一致性模型(Consistency Models)的清华校友宋飏(Yang Song)在列。

一致性模型比当前最流行的扩散模型速度更快,3.5秒就能生成64张256*256的图像。

但宋飏此次属于次要研究贡献,不确定是否DALL·E 3使用了一致性模型,更可能是在改良扩散模型中借鉴了他的方法。

此外,除了DALL·E 2作者和ChatGPT团队的欧阳龙等,至少有3位研究者来自微软。

Jianfeng Wang博士毕业于中科大,在微软任主任研究员。

Lijuan Wang博士毕业于清华大学,在微软任主任研究经理。

两人曾参与无限画布图片生成NUWA-Ininity的研究。

李琳婕(Lindsey Li)是北理工校友,分别从普渡大学和UC圣地亚哥获得两个硕士学位,在微软任资深研究员,在多模态领域有多篇顶会论文。

除了研究方面,DALL·E 3的推理优化微软DeepSpeed团队深度参与。

Deepspeed是开源的深度学习优化库,减少计算功耗和内存使用,在现有硬件上通过更好的并行来训练和推理大规模分布式模型。

其中不少人都表示很高兴能参与这项工作,并对DALL·E 3的发布很激动。

最后,在特别贡献中,微软的Bing首席执行官Mikhail ParakhinAzure云首席副总裁Misha Bilenko都在其中。

微软之前的发布活动中也确认了Bing会直接集成DALL·E 3。

按照现在规则,Bing上的DALL·E 2是免费的。会发放99个加速代币,没代币只是需要更长时间排队。

虽然10月份DALL·E 3在ChatGPT Plus要收费每月20美元。

但既然GPT-4在Bing上是免费提供的,将来DALL·E 3免费玩也可以期待一波了~

参考链接:
[1]https://x.com/willdepue/status/1705005718666158107
[2]https://x.com/CitizenPlain/status/1705248617131291032
[3]https://x.com/MParakhin/status/1704563792645079143

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
价格飙涨6000%!原研药集体撤离中国的影响,开始出现了...

价格飙涨6000%!原研药集体撤离中国的影响,开始出现了...

牛锅巴小钒
2026-03-21 19:20:35
10 位翻车的科技人员!涉核工业、导弹、歼击机等领域,能力不再是护身符

10 位翻车的科技人员!涉核工业、导弹、歼击机等领域,能力不再是护身符

风向观察
2026-03-21 14:12:53
刚到越南,我就被恶心到了,远比想象的恶心百倍,不能直视

刚到越南,我就被恶心到了,远比想象的恶心百倍,不能直视

番外行
2026-03-22 00:05:09
后续!壶口瀑布事件:景区已上门道歉,内部在查投诉人,网友辣评

后续!壶口瀑布事件:景区已上门道歉,内部在查投诉人,网友辣评

奇思妙想草叶君
2026-03-21 20:56:23
医保新规4月1日执行,1965-1985年人群注意,6项操作越早办越好!

医保新规4月1日执行,1965-1985年人群注意,6项操作越早办越好!

另子维爱读史
2026-03-20 22:25:31
人贩子“梅姨”落网,和画像判若两人,她拐卖孩子的数量能判死刑

人贩子“梅姨”落网,和画像判若两人,她拐卖孩子的数量能判死刑

汉史趣闻
2026-03-21 20:38:28
一票否决!欧盟内部集体暴怒,德国总理当场发话:这事没完

一票否决!欧盟内部集体暴怒,德国总理当场发话:这事没完

策略述
2026-03-21 14:58:28
岛国40+现役熟女天花板盘点,魅力无人能挡,你最爱谁?

岛国40+现役熟女天花板盘点,魅力无人能挡,你最爱谁?

碧波万览
2026-03-22 01:34:51
3月使劲吃这菜,一助消化,二安神,三润肺,四健脾胃,错过可惜

3月使劲吃这菜,一助消化,二安神,三润肺,四健脾胃,错过可惜

阿龙美食记
2026-03-07 12:52:40
李梓萌,私生活传闻太荒唐

李梓萌,私生活传闻太荒唐

做一个合格的吃瓜群众
2026-03-21 19:20:55
销售帮男子摇中“贵A·A88888”顶级“豹子号”车牌,两人激动到当场大喊,网友直呼:黄金右手

销售帮男子摇中“贵A·A88888”顶级“豹子号”车牌,两人激动到当场大喊,网友直呼:黄金右手

极目新闻
2026-03-21 19:30:27
上海德云社开业三天被举报,只因社门口放了一大蒜形状的咖啡杯子

上海德云社开业三天被举报,只因社门口放了一大蒜形状的咖啡杯子

蜜桔娱乐
2026-03-21 09:37:34
太恶劣!来沪王某(女,00后)被判刑,被捕后毫无悔意,“为啥非揪着我不放”

太恶劣!来沪王某(女,00后)被判刑,被捕后毫无悔意,“为啥非揪着我不放”

环球网资讯
2026-03-21 16:29:13
后续来了!壶口瀑布景区已致歉,但网友却为何不买账?

后续来了!壶口瀑布景区已致歉,但网友却为何不买账?

哄动一时啊
2026-03-21 11:48:24
鹿晗关晓彤齐登热搜榜,百万大V爆料分手内幕,女方已开始新恋情

鹿晗关晓彤齐登热搜榜,百万大V爆料分手内幕,女方已开始新恋情

潮鹿逐梦
2026-03-21 19:36:49
我发现,杠精基本上都是穷人

我发现,杠精基本上都是穷人

洞见
2026-03-20 12:38:11
“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

“这次穿得算保守了”,女老师短裙配蕾丝袜,学生上课头都不敢抬

妍妍教育日记
2026-03-21 10:05:03
女儿相中599元的鞋,娘仨在店门口纠结半小时咬牙买下,母亲回应:女儿很懂事,旧鞋已穿到开胶,如果不买会很愧疚

女儿相中599元的鞋,娘仨在店门口纠结半小时咬牙买下,母亲回应:女儿很懂事,旧鞋已穿到开胶,如果不买会很愧疚

扬子晚报
2026-03-21 17:07:50
很多人把社保卡金融账户激活后就放在一边,却不知道它还能怎么用

很多人把社保卡金融账户激活后就放在一边,却不知道它还能怎么用

智慧生活笔记
2026-03-22 01:15:31
以色列迪莫纳被伊朗导弹“直接击中” 附近有敏感核设施

以色列迪莫纳被伊朗导弹“直接击中” 附近有敏感核设施

新华社
2026-03-22 02:48:03
2026-03-22 07:23:00
量子位 incentive-icons
量子位
追踪人工智能动态
12320文章数 176418关注度
往期回顾 全部

科技要闻

宇树招股书拆解,人形机器人出货量第一!

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

头条要闻

伊朗发射3800公里射程的导弹 最令美军战栗的细节披露

体育要闻

谁在决定字母哥未来?

娱乐要闻

田栩宁终于凉了?出轨风波影响恶劣

财经要闻

通胀警报拉响,加息潮要来了?

汽车要闻

小鹏汽车2025年Q4盈利净赚3.8亿 全年营收767亿

态度原创

家居
亲子
艺术
公开课
军事航空

家居要闻

时空交织 空间绮梦

亲子要闻

带娃宝妈用什么素颜霜,快速提气色不用卸妆?

艺术要闻

你的母校在吗?毛主席亲笔题名的 20 所大学合集

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

特朗普:正考虑逐步降级对伊朗的军事行动

无障碍浏览 进入关怀版