网易首页 > 网易号 > 正文 申请入驻

半壁华人!GPT Image 2团队曝光:无锡才俊带队,13人4个月封神

0
分享至

GPT Image2全网刷屏,但效果究竟为什么这么好?

研究负责人陈博远揭秘:底层架构已彻底重构。


但他又拒绝回答是否采用扩散模型或自回归技术,只是神秘的将其描述为“通用模型”或“图像领域的GPT”。


陈博远的一条推文还透露,从去年12月底的GPT Image 1.5算起,只用了四个月就有如此大的改进。


这样突破性的成果,核心团队只有13人

整个团队的负责人Gabriel Goh晒出了的团队成员AI全家福。


评论区有网友感叹:怎么全是亚洲人?


陈博远:从不懂Python到Research Lead

GPT Image 2究竟是什么架构?

OpenAI恐怕很长一段时间都不会公布了,但从核心团队成员的学术经历可以看出一些痕迹。

陈博远是团队的Research Lead,他和另一位成员Kiwhan Song在MIT读博时有同一位导师Vincent Sitzmann。


他博士期间的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入选了NeurIPS 2024。

这项研究提出Diffusion Forcing这一全新序列生成训练范式,将逐token独立噪声级扩散与因果下一个token预测结合,融合自回归模型的可变长度生成与全序列扩散模型的长程引导优势。


他在谷歌实习期间还以共同一作身份发表了SpatialVLM

通过过自动构建互联网规模的3D空间推理 VQA 数据集(1000 万图像、20 亿 QA 对),为视觉语言模型赋予定量 / 定性空间推理能力,可从单张 2D 图像输出米制距离、尺寸、方位等精确数值。

这项研究把思维链空间推理应用到了具身智能领域。


在谷歌实习期间,他开发的指令微调技术后续还被Gemini 2.0采用。

他在高中参加科研夏令营时,还不懂Python的基本语法,那时结识的谷歌DeepMind资深研究员夏斐把他引入了AI世界。

夏斐两次邀请他到DeepMind完成高质量实习,这些经历使陈博远积累了大规模模型训练的工程经验,也为他理解多模态系统的数据需求提供了宝贵视角。

博士毕业后,陈博远于2025年6月加入OpenAI,迅速成为GPT图片生成五人核心成员之一,负责GPT图像生成模型的所有训练,同时也是Sora视频生成团队的一员。

在演示中,他给家乡无锡做了一张海报。然后为来自首尔的队友做韩文海报,为来自Bangladesh的队友做孟加拉语海报。每一张中的文字渲染都精准无误。


中科大Jianfeng Wang:让生图AI理解世界知识

中科大博士毕业的Jianfeng Wang,在GPT Image 2团队负责的是另一个让人惊叹的能力:指令遵循和理解世界。


旧模型画的永远时钟永远指向10:10,源于网络上的钟表广告图,几乎清一色都是10:10。

这是因为钟表厂商找心理学家做过实验,认为这有助于刺激消费者买表的意愿。


他让新模型画2:25、3:30、9:10、7:45,基本精准。


这只是开胃菜。

更多复杂的空间布局,苹果在中心、杯子在右边、书在上面、相机在左边、篮球在下面。模型全部精准执行。


在加入OpenAI 之前,他在微软工作近9年。在微软期间就与OpenAI团队在DALLE-3上有合作。

他在计算机视觉领域发表了多篇学术论文,研究内容可能涵盖 图像分类、目标检测、语义分割、以及视觉表征学习 等方向

世界知识理解能力的大幅提升,对象的语义内容和功能结构 有正确的理解

JianFeng Wang在演示视频结尾说到:GPT Image 2正在消除你的意图和模型产出之间的差距。

真正做到你想要什么,模型就给你什么。

Yuguang Yang:生成高精度复杂信息图表

Yuguang Yang在GPT Image 2的发布活动中演示了生成信息图和PPT。


整整75页的GPT-3论文拖进ChatGPT,自动生成7张幻灯片。


他的经历可以说是团队成员中最丰富的,每换一个工作都是跨界,但都聚焦机器学习。

他本科在浙大竺可桢学院学的工程,博士在约翰斯霍普金斯大学期间学的是计算化学物理与机器学习。

他第一份全职工作是量化分析师,在清华做访问研究员期间研究的是用于纳米机器人的强化学习和控制算法。

后来他在亚马逊做过Alexa语音研究。

又在微软做过Bing搜索的查询理解和检索、文档理解。

2025年初加入OpenAI后,除了图像生成还参与过ChatGPT智能体项目。


他在个人账号上介绍GPT Image 2的信息图生成能力,可以为科研人员节省大量时间。


还反复提醒大家,要做信息图不要忘记选择思考模式。


从DALL-E到GPT Image 2.0

从团队成员Kenji Hata的自我介绍中得知,GPT Image 1.0也就是GPT-4o的图像生成部分。


有一个人从DALL-E开始参与了OpenAI多模态系列研究的全程。

他就是GPT Image 2.0团队负责人Gabriel Goh

从2019年加入OpenAI,他的早期研究更篇理论,专注于可解释性和凸优化等等。

从DALL-E开始慢慢转向了图像生成。


看到另一位团队成员Weixin Liang的研究履历,GPT Image 2的技术底色又揭开了一角。

他在Meta实习期间的代表作Mixture-of-Transformers,引入模态解耦的MoE和解耦注意力,显著降低多模态模型预训练的计算成本。


他博士毕业自斯坦福,本科也毕业自浙大竺可桢学院,不过比Yuguang Yang要晚好几年。

Weixin Liang与陈博远一样都是25年博士刚毕业就加入OpenAI,迅速成为团队的核心成员。


其他GPT Image 2.0团队成员还包括:

Ayaan Haque,之前在Luma AI 工作,参与过Luma的视频生成基础模型Dream Machine的训练。

Bing Liang,在Google干了5年多,参与Imagen3、Veo、Gemini Multimodal,2025年跳到OpenAI做图像生成研究。

Mengchao Zhong,本科上海交通大学校友,硕士毕业于得克萨斯农工大学,在Pinterest和Airtable做过软件工程师,在OpenAI负责多模态产品的工程。

Dibya Bhattacharjee,耶鲁大学,2015年IPhO铜牌,CIE A-Level数学和生物全球最高分。

Kiwhan Song是25年10月最晚加入的,除了做研究之外,他还是团队里的提示词大师,大家看到的官方演示图很多都出自他手。
……

从最早的DALL-E到今天的GPT Image 2.0,这只团团队先后解决了。画得出来、画得清楚、画得好看、画得准。


尽管近年来OpenAI的人才流动很大,但OpenAI还是那个能不断吸引各种有个性的人才,不限制专业、欢迎跨界,信奉自下而上涌现式研究的公司。

从一个小团队开始,有了突破后公司倾斜更多资源,直到改变世界。

One More Thing

曾经,GPT-4o图像生成模仿吉卜力风格生成的头像席卷了全世界。

如今GPT Image 2.0的团队成员,都把自己头像换成了这种奇脖子画风。


那么这种画风的提示词是什么?团队成员也公布了出来

Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.

参考链接:
[1]https://x.com/gabeeegoooh/status/2046674385407512687?s=20
[2]https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawlessly

文章来源:量子位。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国的阳谋:等中国的光刻机全坏掉,就无法完成高端芯片的制造了

美国的阳谋:等中国的光刻机全坏掉,就无法完成高端芯片的制造了

近史博览
2026-04-23 12:58:24
真蠢!居然相信印度和孟加拉能超越中国

真蠢!居然相信印度和孟加拉能超越中国

观云者
2026-04-27 09:40:49
印度曾反对中国建雅鲁藏布江水电站,现才彻底明白,真不是一般精

印度曾反对中国建雅鲁藏布江水电站,现才彻底明白,真不是一般精

掠影后有感
2026-04-06 11:40:04
屡教不改!跳水世界杯将开赛,陈芋汐迎坏消息,全红婵事件再上演

屡教不改!跳水世界杯将开赛,陈芋汐迎坏消息,全红婵事件再上演

以茶带书
2026-04-29 17:03:50
400亿,潮汕中专生去敲钟了

400亿,潮汕中专生去敲钟了

融资中国
2026-04-29 12:29:28
深圳这天,吴彦祖发福、周润发干瘪,郭富城穿10cm厚底鞋还矮半头

深圳这天,吴彦祖发福、周润发干瘪,郭富城穿10cm厚底鞋还矮半头

秋姐居
2026-04-27 19:35:02
为什么加速扒万科?

为什么加速扒万科?

鲁八两
2026-04-28 15:18:51
田永明被执行死刑

田永明被执行死刑

新京报
2026-04-28 12:52:08
中央定调,2026年养老金继续调整,工龄15年和40年调整差距多少?

中央定调,2026年养老金继续调整,工龄15年和40年调整差距多少?

潋滟晴方DAY
2026-04-29 18:25:40
查尔斯国王当面嘲讽特朗普:要不是因为英国,你们现在说的是法语

查尔斯国王当面嘲讽特朗普:要不是因为英国,你们现在说的是法语

南方都市报
2026-04-29 15:07:47
活塞被逼到绝境,史上60胜球队首轮淘汰有先例

活塞被逼到绝境,史上60胜球队首轮淘汰有先例

体育妞世界
2026-04-29 00:40:03
76人逆转大胜绿军追到2-3:恩比德33+8爆发 塔图姆24+16

76人逆转大胜绿军追到2-3:恩比德33+8爆发 塔图姆24+16

醉卧浮生
2026-04-29 09:34:32
人民日报:多带孩子去这4个能量强的地方,养出一生向阳的小孩

人民日报:多带孩子去这4个能量强的地方,养出一生向阳的小孩

新东方家庭教育
2026-04-29 15:50:55
余承东在华为权力排名

余承东在华为权力排名

生活新鲜市
2026-04-27 18:30:53
中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

中国男人在非洲有多欢迎?我在非洲创业十年,娶了三个老婆

千秋文化
2026-04-27 20:01:18
担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

担心的事还是发生,跑丢编制的女护士张水华,又回到了她的怪圈

金风说
2026-04-15 14:42:59
老色医要求女患者脱光衣服检查,并称“你都结婚了,别那么扭捏”

老色医要求女患者脱光衣服检查,并称“你都结婚了,别那么扭捏”

长安一孤客
2026-04-29 14:33:12
老人从81岁到91岁还清2077万的债,96岁“诚信奶奶”陈金英回应:不过是守住了做人的底线

老人从81岁到91岁还清2077万的债,96岁“诚信奶奶”陈金英回应:不过是守住了做人的底线

九州新闻
2026-04-28 12:44:14
炸裂!北京车展恶性事件!尚界展车惨遭人为损毁,法务部硬核发声

炸裂!北京车展恶性事件!尚界展车惨遭人为损毁,法务部硬核发声

天天热点见闻
2026-04-27 06:27:09
溥仪这气质哪像傀儡?抛开立场,那时的溥仪骨子里依然是傲慢的!

溥仪这气质哪像傀儡?抛开立场,那时的溥仪骨子里依然是傲慢的!

史之铭
2026-04-28 22:35:50
2026-04-29 20:51:00
算法与数学之美 incentive-icons
算法与数学之美
分享知识,交流思想
5502文章数 64624关注度
往期回顾 全部

科技要闻

今晨庭审纪实|马斯克当庭讲述OpenAI被偷走

头条要闻

男子诈骗熟人350万 朋友圈发文"我跑路了 你们报案吧"

头条要闻

男子诈骗熟人350万 朋友圈发文"我跑路了 你们报案吧"

体育要闻

一场九球狂欢,各路神仙批量下凡

娱乐要闻

马頔一句话,孙杨妈妈怒骂节目组2小时

财经要闻

苏州,率先进入牛市

汽车要闻

技术天花板再摸高 全能型的奕境X9首秀

态度原创

数码
健康
亲子
本地
公开课

数码要闻

追觅智能家电首秀硅谷!从空调到洗衣机,中国智造硬刚全球巨头

干细胞治烧烫伤能用了么?

亲子要闻

这个#户外大足球 真的是超推,爸爸跟娃今天都玩疯了,运动指拉满了,对视力也很好,真的是孩子开心,妈妈...

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版