网易首页 > 网易号 > 正文 申请入驻

GPT-5爆改时尚圈,让Excel原地复活!OpenAI黑客松大奖出炉

0
分享至


新智元报道

编辑:元宇 桃子

【新智元导读】刚刚结束的OpenAI黑客松上,全球共有六支团队冲进榜单。他们探索了GPT-5在营销活动、时尚AI、电子表格、电脑代理、知识学习、智能电网等场景的应用极限。

OpenAI刚发布GPT-5,便在旧金山举办了GPT-5黑客马拉松挑战赛。


这场比赛选择在周末,从8月9日上午10点开始,到8月9日下午5点结束。


OpenAI邀请了500多位黑客来到旧金山,挑战GPT-5的极限,共有95支队伍参赛,角逐5万美元奖金。

值得一提的是,来自韩国的AI初创公司Gentoo的团队勇夺大赛第一。

他们开发的系统,通过GPT-5让商家「预演」营销活动,不用真金白银试错,AI连退货率都能算准。


除Gentoo外,还有五支团队入围黑客松决赛。


那么,他们都用GPT-5做了啥?

AI让电商人「躺赚」,不再踩坑

创业公司Gentoo将GPT-5用于营销活动模拟,帮助电商平台上的商家把产品创意变成模拟实验。

简单来说,商家不用真正砸钱去做,只通过模拟,就可以判断哪些营销活动会有效。

借助GPT-5 thinking,Gentoo可以为真实用户创建真实的「数字分身」,帮助这些Shopify卖家预测他们的未来。

比如,「参与度分数」(engagement score)可以评估用户行为:分数越高,越可能产生购买、撰写评价行为,说明用户会越「投入」。

Gentoo还用GPT-5,在Cursor的CLI和IDE里,从零起步搭建了管理后台页面。

用户只要点击「如何卖掉那些不是畅销款的库存」,GPT-5就会给出策略。

既然是仿真模拟,需要先设定一个「假设」。当选择想要模拟的假设并点击运行时,那些基于你的真实用户构建的AI分身便会「投票」,判断这个假设是否有效。

更妙的是,如果缺乏足够的历史数据来验证某个假设,GPT-5会直接给出「unknown(无法确定)」的结论。

这有助于降低大模型幻觉,无疑是一个飞跃。

另外,Gentoo还做了一个很酷的功能,叫做「Vibe Operations」(氛围运营/编排),它可以生成直接落地的行动方案。

选择其中一个方案,并点击「部署到商店」,它就会一键自动部署到你的Shopify商店。


这意味着GPT-5可以接管你店铺的UI布局,比如一下生成「特价分类」专区、立刻突出展示「热销商品」模块等。

Gentoo的主产品是AI对话导购,也支持输入自定义提示词。

在新提示词注入后,会实际改变AI礼宾的对话风格与行为。

值得注意的是,这些AI分身都是基于真实用户构建的,所以每个分身都有档案信息,还会给出「为什么支持/为什么反对某个假设」的具体理由。

所有这些全由GPT-5驱动,用户可以清晰看到某个营销活动是否会在自己的店铺里奏效。

AI 穿搭「时装秀」,承包3D分身造型

Fashion AI结合扩散模型与GPT-5,基于AI服装推荐,为用户的3D虚拟形象搭配造型。

在比赛现场,Fashion AI展示了过去24小时赶出来的一款「小游戏」,现场观众可以在屏幕上选择不同的角色。

在现场,用GPT-5生成了一大堆穿搭分类,然后再通过一个GPT-5做的转盘随机抽取一种风格。

现场抽到的是「混搭风」,并以此为虚拟形象Sarah搭配造型。

确定了着装风格,智能体就会在GPT-5的驱动下去搜衣服、挑单品、做试穿。

整个操作过程,会实时在界面右侧的直播画面里显示出来,同步显示它的决策过程。

找到衣服后,接下来是为Sarah确定最喜欢的搭配。


在左上角,是用搜索功能生成的「衣橱」,背后是多个大语言模型协作完成的:它们会分析图片,然后找出最符合搜索关键词的结果。

确定搭配风格后,会有AI智能体给Sarah做试穿。

然后,由观众来决定选哪套。

选定衣服后,是风格化阶段,在这个阶段可以为Sarah加点造型。

这可以通过提示词来实现,比如什么颜色的帽子,什么款式的手表等。

最后,是生成最终的造型结果,这是GPT-5给Sarah做的风格化效果。

这个系统是参赛团队用24小时拼出来的,图像生成全程用的是GPT-5,写代码是在Cursor编辑器里配合GPT-5完成的,具体编码GPT-5也帮了很多忙。

演示者表示,这个项目中,最难的是智能体框架的设计,要把所有模块串起来。

比如评估的、找衣服的智能体等,找完衣服还要回头问评估智能体:这个够好吗?符合主题吗?怎么改?

这个流程打通是最难的,而且图像生成耗时很长,这要求团队要尽量把用户体验做得流畅。

当然,如果没有GPT-5,这个项目几乎不可能完成。GPT-5的工具调用又快又准,让整个体验不卡顿,让大家都觉得很好玩。

Excel「活了」,打工人狂喜

电子表格的后台智能体编排工具(Background Agent Orchestration for spreadsheets),这是一个面向Excel的Codex,它可以并行运行多个后台任务,自动回答问题并更新电子表格模型。

现场展示的是一个简单的财务模型,它会根据2025年损益表前7个月的数值,预测8月份的数值。


假如你是一名销售负责人,现在是8月10日,发现自己可能达不到预期销售目标,这时可以向电子表格提问,而它可以「看见」那些数据并把它拉进来,然后回答你的问题,或者执行更进阶的操作。

这些都是后台Asian编排,类似Codex,我们可以启动任务、查看它们的当前进度,还能看到我们其他的任务。

它的一大好处,是你不需要一直在电子表格里工作。

如果有问题或者想做修改,你可以把这些任务在后台发起,它们会运行,然后再回来审阅结果。

比如,你可以发起几个与损益表相关的问题。等这些任务发起之后,我们可以看到智能体的思考过程,看它在幕后做了什么步骤分解;我们能看到它调用了哪些工具,这让整个事情变得很简单。

对我们来说,GPT-5让我们能做一些过去必须用多个智能体、并且大量提示词才能「把工具调对」的事情。

它让模型和工具配合起来很容易,比如它可以和Sharepoint交互,直接和Excel表交互并进行修改。

它可以通过提示词,来修改模型的假设。

比如通过提示词,把模型更新为「用户费用降低10%」的假设。它会通过差异视图,来展示这个改动如何影响模型,我们可以继续提交并保存这些更改。

让书籍和论文,秒变视频

BeFreed是一家致力于让知识变得有趣且简单的公司。

它们在过去24小时内开发了一个知识可视化工具,把书籍与论文转化为引人入胜的教育视频。

你可以输入任意文本,它会解析其中的复杂概念,并将其转化为一个易于理解的解释视频。

他们利用GPT-5开发了一个指挥型智能体(Direct Agent)。

它会首先理解你输入的概念,并设计出完整的故事板,规划需要表达的内容。

同时,它会协调另外两个专用智能体,它们各自擅长使用特定工具来生成不同部分的内容,并对生成结果进行评估,确保准确无误。

也就是说,当你输入一段内容后,系统会解析文本,生成故事板,然后两个专用智能体分别生成所需的图像和动画,最后由指挥型智能体将所有内容整合、合成语音,并输出成品视频。

在用例1中,智能体用视频为我们解释了什么是「强化学习」,这适用于解释行业术语的场景。


智能体用视频解释「强化学习」

在用例2中,智能体根据《人类简史》中的一段文字,生成了解释性视频。这适用于沉浸式阅读场景。

因为这个世界上存在很多看似复杂的概念,它们的难点不在内容本身,而在表达形式不当;同时,不少学习者更擅长通过视觉去理解知识,这正是BeFreed开发Knowledge Visualizer的初衷:让更多人能更轻松地掌握知识。

GPT-5接管电脑,自主玩游戏

GPT-5「电脑使用」智能体,可在游戏与应用间自动化交互。

Serena Delarry,用GPT-5开发了一个「计算机使用模型」(computer use model)。

因为「计算机使用」涉及很多截图和高强度的交互操作,所以Serena Delarry录了一个简单的演示视频。

视频里他在玩GeoGuessr游戏,模型会观察地图、点击画面,试图猜出我们位于哪个地方。

接下来是另一个游戏,画面里有一只浣熊在捡蔬菜。

这个模型的流程是:先截图,然后借助GPT-5规划下一步操作,使用键盘和鼠标来执行计划,再不断调整。

还有一个游戏是经营柠檬水摊。它会理解屏幕内容,点击操作,尝试分析这个游戏并一步步推进。

在屏幕底部显示了一个提示词(prompt),整场操作就是由它驱动的,模型会边看边学,自己决定下一步。

快进到最后,它在这个游戏里获得了67%的顾客满意度。

Serena Delarry在回答评委问题时提到,这个智能体支持接管电脑界面。

比如从备忘录应用中输入一个提示词,模型就开始点击屏幕,尝试理解游戏内容。每隔几秒钟它会截一次图,然后基于这些截图来规划接下来的操作路径。

你可以看到它在分析规划,并尝试执行操作。

Serena Delarry表示,OpenAI曾经发布过一个计算机使用模型,但那个运行速度非常慢,效果也不太好。这次他开发的智能体,虽然还不算「非常优秀」,但至少已经「可用且顺畅」。

为了测试模型的性能,Serena Delarry还会发布一个操作系统层面的性能基准测试(OS-level benchmark)。

智能体「军团」作战,AI电网超决策

电力公司每天要服务数百万用户,管理数十亿美元的资产,同时,还受到各种约束:监管政策、市场机制、电网的物理运行极限等。

这意味着电力公司每分钟都要处理海量数据,并基于这些信息快速决策。

打开智能体式电网编排系统首页,你会看到一个调度员的典型界面:峰值负载、当前负载、电网压力状态、电网拓扑图等,还有不同数据源的详细信息。

同时你还可以看到哪些输电线路正在高负载运行、面临风险。

系统后端有五个独立智能体,每个都有自己的优化目标函数。同时还有一个主控智能体,负责综合所有智能体的建议,做出最终决策。

为了模拟真实的电网,演示中选择了加州某个区域的典型电网结构。系统中包含实际发电站、住宅区、商业负载中心,并且建模了各类故障场景——所以,这是一个实时、动态的电网仿真平台。

进入平台后可以开始模拟运行。过程中会考虑各种系统损耗,比如技术损耗、输电/配电损耗等。

系统的核心是五个智能体,对应现实中电力公司内部的各类角色:

战略规划智能体:确保在任何时候供需平衡;

战术调度智能体:以最低成本完成负载分配;

资产管理智能体:如处理树木倒塌导致电缆故障等突发情况;

以及其他支持型智能体,它们之间密切协同,而非各自为政。

每个智能体都有自己的目标函数和可调用的工具,它们会提前模拟未来10到12个时间步,预测自己的行动对电网系统造成的影响。

由于目前尚未对模型进行深入微调(fine-tuning),所以目前智能体在一些关键指标上表现不太理想。

当前一个主要挑战是:当我们直接使用GPT-5作为智能体核心时,它在每一个时间步往往无法真正实现目标最优,而是倾向于采取「最安全」的保守路径。


上图展示了每个时间点各个智能体的行为:战略规划智能体可能会尝试切换电容组(capacitor bank),战术调度智能体则可能会激活电池储能系统(BESS)进行放电。

演示者表示,针对上述问题的优化目标是,依次满足多层次的目标函数,比如:保证电力供应的可靠性;控制成本、提高运行效率;保证系统持续在线运行。

参考资料:

https://threadreaderapp.com/user/AlexReibman

http://threadreaderapp.com/

https://threadreaderapp.com/user/AlexReibman

https://x.com/jihyuk_gentoo/status/1954791809382518972

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《美国队长2》皮尔斯扮演者去世,享年89岁

《美国队长2》皮尔斯扮演者去世,享年89岁

红星新闻
2025-09-16 22:08:54
广东人唯一能接受的“预制菜”?网友:这个是真爱吃

广东人唯一能接受的“预制菜”?网友:这个是真爱吃

化州社区
2025-09-17 16:04:19
重大突破!英国发明治秃神器,20天长出90%毛发!

重大突破!英国发明治秃神器,20天长出90%毛发!

趣味探索
2025-07-11 23:47:13
正常的思想都失效了,人们慌不择路,然而只剩下纳粹和Max主义供人们选择

正常的思想都失效了,人们慌不择路,然而只剩下纳粹和Max主义供人们选择

阿罗汉不约
2025-09-16 22:59:16
尔冬升9岁女儿近况曝光,这个老年得来的女儿,已经成为全家团宠

尔冬升9岁女儿近况曝光,这个老年得来的女儿,已经成为全家团宠

睿鉴历史
2025-09-17 11:55:08
超级硬汉!陈雨菲脚踝韧带撕裂仅休2周:2-0晋级后直言还是有痛感

超级硬汉!陈雨菲脚踝韧带撕裂仅休2周:2-0晋级后直言还是有痛感

颜小白的篮球梦
2025-09-17 18:23:23
2010年,柳州女神莫菁不雅照事件,后来男友入狱,她怎样了?

2010年,柳州女神莫菁不雅照事件,后来男友入狱,她怎样了?

阿胡
2025-03-14 12:24:33
不明飞行物被击落后续:海事局发通报显端倪,身份快真相大白了!

不明飞行物被击落后续:海事局发通报显端倪,身份快真相大白了!

科普100克克
2025-09-15 02:28:33
玉米糊再次被关注!医生:常喝玉米糊的人,不用多久,或有4改善

玉米糊再次被关注!医生:常喝玉米糊的人,不用多久,或有4改善

小童历史
2025-09-12 16:35:52
扫地出门!曝皇马决定出售6000万“废柴”!钦点签两大“顶星”

扫地出门!曝皇马决定出售6000万“废柴”!钦点签两大“顶星”

头狼追球
2025-09-17 14:47:08
大家熟悉的他早离世,,一天吃几十片止痛药,去世半年公众才知道

大家熟悉的他早离世,,一天吃几十片止痛药,去世半年公众才知道

悦君兮君不知
2025-09-17 20:48:51
因为尿床爸爸把3岁女儿从窗户吊出去5分钟,妈妈发现已经太迟了

因为尿床爸爸把3岁女儿从窗户吊出去5分钟,妈妈发现已经太迟了

呱呱请你吃瓜
2025-09-03 06:09:33
郝龙斌将参选国民党主席,台媒体人:赵少康或为台湾“大选”让路

郝龙斌将参选国民党主席,台媒体人:赵少康或为台湾“大选”让路

海峡导报社
2025-09-17 21:12:04
一夜之间删帖,锁号,为21元冻馒头站台被炮轰的老于,他图什么?

一夜之间删帖,锁号,为21元冻馒头站台被炮轰的老于,他图什么?

爱写的樱桃
2025-09-16 23:57:04
什么梗?“丝瓜汤”一夜之间刷屏,无数人瞬间破防

什么梗?“丝瓜汤”一夜之间刷屏,无数人瞬间破防

环球网资讯
2025-09-17 14:14:19
东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

东风导弹泄密案:间谍郭万钧一家三口,全部被处以死刑

冰点历史
2025-07-15 09:33:13
安踏集团通报46人被移交司法机关,其中含总裁级1人

安踏集团通报46人被移交司法机关,其中含总裁级1人

新京报
2025-09-16 16:12:08
女儿的金手镯被婆婆拿去换手链,我没闹,金店来电:帮我加20克

女儿的金手镯被婆婆拿去换手链,我没闹,金店来电:帮我加20克

黄小乖的日记
2025-09-17 15:25:40
特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

特朗普连开3枪,公开否定台湾属于中国?国民党递出一句决绝的话

墨兰史书
2025-09-15 07:05:10
雷军公开小米17Pro最新设计:全新背屏设计自定义显示内容,可控制汽车、辅助拍摄;此前称对标iPhone正面迎战

雷军公开小米17Pro最新设计:全新背屏设计自定义显示内容,可控制汽车、辅助拍摄;此前称对标iPhone正面迎战

极目新闻
2025-09-17 12:03:33
2025-09-17 21:56:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
13466文章数 66156关注度
往期回顾 全部

科技要闻

网易评测iPhone 17系列:今年升级值得买吗

头条要闻

法院裁定没收李传良违法所得:涉案31亿 查封房产千套

头条要闻

法院裁定没收李传良违法所得:涉案31亿 查封房产千套

体育要闻

什么小火龙?申京已经是MVP水平!

娱乐要闻

第六代导演为什么没办法成为市场主流?

财经要闻

今晚,全球屏息:美联储重启降息……

汽车要闻

以用户为锚,“听劝”的岚图一路狂飙

态度原创

旅游
房产
艺术
数码
公开课

旅游要闻

热闻|清明假期将至,热门目的地有哪些?

房产要闻

当海口书包房卷向「未来」,这里的孩子和房价,都在高速超车!

艺术要闻

故宫珍藏的墨迹《十七帖》,比拓本更精良,这才是地道的魏晋写法

数码要闻

ONEXGPU Lite 显卡坞海外物料确认所谓 "USB 5.0" 实为 USB4 V2

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版