网易首页 > 网易号 > 正文 申请入驻

OpenAI内部智能体平台Kepler用于数据综合分析

0
分享至


对于OpenAI员工而言,即使是询问某个特定国家有多少ChatGPT Pro用户这样看似简单的问题,也可能出乎意料地困难,因为所需的数据可能分散在多个数据源中,每个数据源的访问方式都略有不同。

总体而言,OpenAI拥有70,000个不同的数据集,每天积累600PB的新数据。大约3,500名员工可以访问这些数据,使用15种工具中的任何一种。公司一直密切关注用户数量,但随着增加更多地区、计划和功能,统计数字变得更加困难。

但每个新查询都带来了自己的挑战。因此,分析师经常发现自己在Slack上进行长时间的对话,甚至与同事开会,只是为了弄清楚如何访问数据。

"简单的问题不应该如此困难或耗时,"OpenAI数据生产力团队技术成员Bonnie Xu在上个月在纽约举行的QCON AI会议上的演讲中说道。

Xu在会上讨论了公司创建的一个名为Kepler的工具,用于简化这一过程。

Kepler是一个有用的智能体,旨在为OpenAI员工回答问题,隐藏它为找到答案而必须承担的有时很多的任务。

最初,Kepler主要是为公司的数据科学家设计的,但自推出以来,用户群已扩展到财务、人力资源和其他部门的其他人员。

据Xu说,一位Kepler用户实际上表示,这是他们体验过的最接近通用人工智能的AI系统。

数据访问的复杂性

对于业务分析师来说,许多数据库表可能看起来非常相似。一个数据库可能包括未登录用户,而另一个则不包括。一些表包括加密用户,而其他表则不包括,必须将该数据连接到结果数据集中。使用哪一个?

编写正确的SQL代码来提取数据也可能很困难,特别是如果涉及跨不同表的连接。

"错过一个细节可能导致答案错误一个数量级,这在做出重要商业决策时可能是灾难性的,"Xu说。

Kepler的工作原理

Kepler是内部构建的数据分析师,可以利用OpenAI的所有内部数据存储来回答问题。OpenAI员工可以通过Slack或IDE(如Cursor)与Kepler交互,或通过与特定工作流程的集成,或通过移动或其他远程客户端。在后台,Kepler使用GPT-5来解析请求。

为了提供Kepler如何工作的示例,Xu演示了一个关于纽约出租车行程时间的问题。她想知道一天中哪些时间段的行程时间变化最大,以及哪些行程是"最不可靠的",即起点和终点位置对之间最短和最长行程时间的变化最大。

演示显示了Kepler执行的"思维链",或一系列评估和行动,以回答这个问题。

首先,它进行内部知识搜索,识别两个潜在相关的数据集,包括2016年纽约市出租车行程时间数据收集,其中包括上车和下车时间,以及目的地和出发地的邮政编码。

然后智能体计算每个邮政编码的中位数时间,识别第95和99百分位数。智能体对如何编写适当的查询来获取所需信息进行有根据的猜测,测试每一个,很快找到一个有效的。

"你可以想象,手动执行此操作需要大量时间,但智能体只是代表你执行这些查询和结果步骤,"Xu说。当查询看起来正确时,它对结果进行排序,然后进行一些轻微的格式化,甚至准备一个图表来向用户呈现数据。(答案显示高峰时间和深夜是最不可靠的时间。)

Xu提供的另一个演示显示Kepler处理一个关于为什么2025年3月ChatGPT用户激增的问题。它咨询了仪表板和任务文档以找到显示此数据的表。Kepler编写了不同的查询来尝试确定使用量的突然增加,例如按地区查询。它寻找错误,例如日志数据重复。

思维链确定了一个可能的原因,即新生成式图像功能的推出。他们进行了网络搜索来交叉引用假设,找到了发布说明和关于推出的新闻文章。

Kepler存储所有问题,因此你可以稍后继续后续线程。当被问及关于2月14日情人节出租车行程的后续问题时,显示智能体知道要使用哪些表和查询。

如果你从思维链中看到Kepler正在走错方向,你也可以中断它。

由于分析师倾向于提出相同类型的问题,例如产品分析和数据验证,Kepler为这些类型的问题保留了自定义工作流程集。

技术架构

在其核心,Kepler是一组直接与ChatGPT(目前是第5版)通信的API。Kepler还直接连接到一组预处理信息,包括内部数据知识库和内部文档服务。它还可以调用在Apache Spark、Airflow和其他平台上运行的数据仓库和其他数据服务。

使用Anthropic发明的模型控制协议(MCP)对Kepler"非常有帮助",Xu说。Kepler使用内部文档来理解如何查询数据库或在MCP上执行其他任务。如果结果没有按预期出现,它可以用轻微的修改重新运行查询。实际上,Kepler智能体正在自己推理。

"所以不是你提供反馈,而是Kepler运行工具,然后使用正确的工具来执行下一组步骤,取决于给定的任何反馈,"Xu说。

通常,自主运行的智能体可能返回完全不准确的结果,但有了额外的上下文,它们可以理解何时出了问题并尝试改变它们的方法。

"所以真正美妙的是Kepler可以交互式地探索数据本身,内容一直在传递,"她说。

元数据的重要性

帮助构建上下文的还有元数据。

"仅仅按原样查看表本身是不够的。你需要了解表是如何创建的以及它来自哪里,"Xu说。这是智能体真正理解表之间差异的秘密。

运行离线作业来编译关于每个表的这些信息。

这些数据大部分已经由公司编译。关于每个数据库表的丰富元数据已被捕获,例如为什么创建它以及正在用于什么,甚至其主键是什么。

它还使用代码生成从代码本身构建元数据。

"由于所有这些都由离线作业定期刷新,上下文保持新鲜,无需任何手动参与。"

如果Kepler或用户发现错误,它会将更正保存在内存中。

"对我们来说,内存确实是帮助智能体持续学习和改进的机制,"Xu说。"联系人将带你到80-90%的路程。但有时你需要那些真正难以推断的最终小修正。"

为了评估答案的质量,OpenAI运行一个Eval Grader,为每个测试的答案提供分数。它查看交付的结果与预期或正确结果的差异程度。

在许多情况下,正确答案的SQL查询可能与预期的略有不同,但开发团队为此做了规划。

"当我们比较解决测试时,我们实际上给那些不会有意义地影响答案的事情留了一点回旋余地,"Xu说。

用户将自己的凭据带到Kepler,从而确保他们看不到任何他们无权查看的数据。

未来展望

目前,OpenAI没有开源Kepler或将其作为企业产品提供的计划,Xu说,并指出她不在做出这些决定的位置上。

尽管如此,运行基于智能体的内部数据分析工具似乎为公司带来了很多价值。

"我认为至少从我们从用户那里听到的,直接使用Kepler要快得多。它更有生产力,只是因为当你查看不同来源时,你有很多事情要做,你必须连接点,"Xu说。"Kepler确实是顶层,为你做这件事的抽象。"

所有QCON AI演讲的视频将从1月15日开始通过视频会议通行证提供。

Q&A

Q1:Kepler是什么?它能解决什么问题?

A:Kepler是OpenAI内部开发的数据分析智能体,专门用于帮助员工快速访问和分析公司的海量数据。它解决了员工在查询分布在70,000个不同数据集中的信息时遇到的困难,避免了原本需要通过Slack对话或会议才能获取数据的复杂流程。

Q2:Kepler是如何工作的?

A:Kepler使用GPT-5作为核心引擎,通过"思维链"方式执行数据查询。它首先进行内部知识搜索识别相关数据集,然后生成和测试SQL查询,自动处理数据连接和格式化,最终提供结果和可视化图表。用户可以通过Slack、IDE或移动客户端与Kepler交互。

Q3:Kepler会对外开放使用吗?

A:目前OpenAI没有计划开源Kepler或将其作为企业产品对外提供。Kepler主要服务于OpenAI内部员工,包括数据科学家、财务和人力资源部门等,帮助他们更高效地进行数据分析工作。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
用户在APP上与AI聊“黄色内容”,两名开发者一审分别获刑四年、一年半,AI服务涉黄案今日二审

用户在APP上与AI聊“黄色内容”,两名开发者一审分别获刑四年、一年半,AI服务涉黄案今日二审

扬子晚报
2026-01-14 15:41:13
广东宝妈梁海燕因羊水栓塞去世,十天花费超50万

广东宝妈梁海燕因羊水栓塞去世,十天花费超50万

究竟谁主沉浮
2026-01-12 17:30:44
32TB,开始变态了

32TB,开始变态了

放毒
2026-01-13 18:16:00
1953年毛主席视察,目光突然聚焦谭震林:你到底在银行存了多少钱

1953年毛主席视察,目光突然聚焦谭震林:你到底在银行存了多少钱

历史龙元阁
2026-01-14 14:10:07
日本丰田汽车连续6年销量全球第一已成定局

日本丰田汽车连续6年销量全球第一已成定局

随波荡漾的漂流瓶
2026-01-13 16:38:46
2-3爆冷!9-0惨案!疯狂一夜,罗马出局,马赛狂胜,曼城掀翻纽卡

2-3爆冷!9-0惨案!疯狂一夜,罗马出局,马赛狂胜,曼城掀翻纽卡

足球狗说
2026-01-14 06:40:08
青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

青海4名评标专家被“除名”引关注,当事人独家回应:未见标书,传言不实

学申论的谈妹
2026-01-14 13:07:56
突发!宝能集团董事长姚振华实名举报

突发!宝能集团董事长姚振华实名举报

摩登财经
2026-01-14 15:06:48
三只羊大号正式复播!在线人数千人左右、粉丝总数降至951万……

三只羊大号正式复播!在线人数千人左右、粉丝总数降至951万……

柴狗夫斯基
2026-01-14 08:47:34
东方卫视首播!57集谍战大作,仅播2天,收视率直接破2,生死角逐

东方卫视首播!57集谍战大作,仅播2天,收视率直接破2,生死角逐

乐枫电影
2026-01-14 14:30:50
宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

宋庆龄拒绝与孙中山合葬,坦言:她陪我53年,我答应要和她葬一起

史之铭
2026-01-12 16:26:19
重庆 “一日政协主席” 张晓江:一日登顶一日落马 成为笑谈

重庆 “一日政协主席” 张晓江:一日登顶一日落马 成为笑谈

复转这些年
2026-01-14 22:27:23
日本最大在野党拟同公明党联合竞选 对抗高市阵营

日本最大在野党拟同公明党联合竞选 对抗高市阵营

财联社
2026-01-14 23:00:05
一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

一触即发:美国对伊朗军事准备进入最后阶段!特朗普称其越过红线

项鹏飞
2026-01-13 18:42:53
3项数据最高!21岁曼城铁卫连场首发表现稳健 有他还需要买格伊吗

3项数据最高!21岁曼城铁卫连场首发表现稳健 有他还需要买格伊吗

雪狼侃体育
2026-01-14 23:12:23
陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

陈百强自杀真相曝光!王晶揭穿32年豪门谎言:他根本不是为情所困

八斗小先生
2025-12-08 11:07:02
安东尼奥:晋级对我们是历史性的,我们需要享受这一刻

安东尼奥:晋级对我们是历史性的,我们需要享受这一刻

懂球帝
2026-01-14 22:33:18
工地施工时意外发现一处洞穴,众人原以为是林彪当年修建的防空洞,不料竟是一座皇帝陵墓

工地施工时意外发现一处洞穴,众人原以为是林彪当年修建的防空洞,不料竟是一座皇帝陵墓

老杉说历史
2026-01-14 20:31:24
徐彬:球队上下非常团结;面对乌兹别克斯坦我们有信心

徐彬:球队上下非常团结;面对乌兹别克斯坦我们有信心

懂球帝
2026-01-14 21:57:35
40集家庭年代大剧来袭,陈宝国领衔主演,可以告别剧荒了

40集家庭年代大剧来袭,陈宝国领衔主演,可以告别剧荒了

仙味少女心
2026-01-13 21:28:59
2026-01-14 23:31:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
1102文章数 154关注度
往期回顾 全部

科技要闻

携程因涉嫌垄断被市场监管总局调查

头条要闻

中东气氛愈发紧张 伊朗处于最高战备状态

头条要闻

中东气氛愈发紧张 伊朗处于最高战备状态

体育要闻

你是个好球员,我们就拿你交易吧

娱乐要闻

网红彭十六偷税被封杀 曾成功转型明星

财经要闻

携程被立案调查,最高或被罚超50亿

汽车要闻

曝Model Y或降到20万以内!

态度原创

艺术
时尚
本地
游戏
教育

艺术要闻

八大山人『山水花鸟册』

最时髦的单品,难道不是背肌吗?

本地新闻

邵阳公益诉讼检察主题曲:《守望星》

外媒评Xbox这款成人级IP:时隔20年感受已截然不同

教育要闻

很多学校每班都是五六十人,为什么不实行小班制却让老师们转岗?

无障碍浏览 进入关怀版