网易首页 > 网易号 > 正文 申请入驻

斯坦福毕业,用RL做Agent,华人创业团队种子轮融资1200万美元

0
分享至

机器之心原创

作者:Youli

Pokee AI 公开测试版现已正式上线!

「哈喽,可以听到吗?」北京时间上午 10 点,大洋彼岸的 Pokee.ai 创始人朱哲清接通了我们的连线电话,此刻他正位于美国西海岸,当地时间为前一日晚上 7 点。

用他的话说最近的状态就是「忙」,非常忙。忙着发布 Agent 产品 Pokee AI 的公开测试版,忙着处理第一轮融资的各种后续事宜,忙着对核心 4 人组团队「扩张」至 7 人,忙里偷闲在小红书庆祝自己 29 岁生日,并在评论下认真回复网友提问……

「忙」,或许不是从最近开始的,往前数 200 多天,那时候也「忙」。忙着成立 Pokee.ai,忙着与 100 多位投资人聊如何用强化学习模型构建 AI Agent,忙着准备产品内测。

再往前数到 2017 年,依旧是「忙」。一边忙着在斯坦福攻读强化学习方向博士学位。一边忙着在 Meta 工作,带领团队将强化学习落地到广告竞价、自动内容生成等业务,为公司带来高额增收。

朱哲清似乎已经习惯了「忙」。可他说,创业虽然忙,但有了更多的时间去思考,这是一种全新的体验……

创业是从去年 10 月开始的,公司名为 Pokee.ai,取自「小口袋」之意,寓指做一个轻便、决策能力强、随叫随到解决问题的模型。公司整体定位是聚焦于开发一款交互式、个性化、高效的 AI Agent。

但较之主流以 LLM 为核心的 AI Agent 构建方式,Pokee.ai 是以 RL 为核心,用朱哲清的话说,在 Pokee 的架构中,LLM 主要是充当人机交互界面,类似「 UI 层」,用以理解用户意图,而真正决策、执行任务的全都是基于 RL 结构完成。

但那是去年 10 月,OpenAI 还没有发布 o1,将 RL 推向大众,DeepSeek 也还没有引起全球狂欢。

在与大多数的投资人聊的时候,他们都觉得 Pokee.ai 这个方向是天方夜谭…… 如今,它已经慢慢从「非共识」变成了「共识」,而 Pokee.ai 也迈进新阶段。

最新消息,Pokee.ai 完成 1200 万美元种子轮融资,由 Point72 Ventures 领投,Pokee AI 的公开测试版现已上线。

本周,在 Pokee 正式公测前,《机器之心》与朱哲清聊了聊,以下为对话内容:

机器之心:Pokee.ai 去年 10 月成立,如今产品正式公测、完成种子轮融资,这样的节奏在你预期内吗?

朱哲清:整体节奏比较快,去年 10 月 Pokee.AI 成立,从概念验证,到通用 Agent 框架搭建,再到如今产品公测和融资宣布,其实也才 7 个多月。之前定的目标是,今年上半年最重要的是做完产品第一轮公测、拿到种子轮融资,现在全部完成,总体来说符合预期。

与 Meta 相比,节奏大概会快 4—5 倍,对我来说生活和工作节奏没有太大变化,甚至有更多时间去思考。我之前工作时同步在读博士,那时候特别忙,一周可能要工作 100 多个小时,现在还是 100 多个小时,但思考的时间变多了。

机器之心:你做的事情其实很少有人做,你印象中投资人问的最多的问题是什么?

朱哲清:刚开始和投资人聊的时候,总体感受就是他们不理解为什么要用一个跟别人不一样的方式去做 Agent,那时候 RL 又不火、DeepSeek 也没出来。当我第一次跟投资人说我们最终想做的是让一个 RL System 变成一个像通用操作系统一样的东西时,他们都觉得这是天方夜谭。

机器之心:说到做 AI Agent 的初衷,你曾说 Pokee.AI 做的是「目标不是像人一样完成任务,而是超过人类在某些任务中的策略选择和规划能力。」这是不是现在很火的 ASI 概念?

朱哲清:我觉得 ASI 与 AGI 的定义范畴其实很模糊,从某种意义上来说,我们可能已经实现了 ASI,如果给你一个 100 万 Token 的文章,人类要读很久才能把它读完,而模型只需要几秒或几十秒钟就完成了,那从这个角度来说它已经 Super Human Intelligence。

我们距离 Agent「ChatGPT 时刻」还有多远?

机器之心:在你看来,一个通用 Agent 应该具备哪些特点?

朱哲清:一个通用 Agent 的核心能力在于,不管是在什么场景下,要解决什么问题,只要把 prompt 告诉它,它就可以把任务完成,而不需要事先去配置要用哪些工具。

我们的设想是,客户给到一个 prompt,说这是我要做的事情需求,这家公司或者开发者不需要处理,直接将 prompt「扔」给 Pokee, Pokee 就根据 prompt 调用对应工具,把问题解决,将结果直接传回给公司或开发者,之后后者可以把内容用更好的展现形式反馈会给客户。

机器之心:可以理解为这是 AI Agent 的「ChatGPT 时刻」吗?现在处于什么阶段?

朱哲清:是的,这是一个完完全全不需要人为配置的 AI Agent,也是我们的最终设想。现在的 AI Agent 需要的(工具)配置量很大,要匹配 MCP Server、找工具,而在 prompt 下面可以加的工具很有限,也不能拼命加,那总体的训练量就很大。

机器之心:所以当时创业是因为看到这些局限性,Pokee.ai 是如何做的?

朱哲清:我们想做的就是如何能够让第三方开发者在几乎不需要做任何开发的情况下完成 AI Agent 的搭建,不管是 No Code 还是 Low Code。No Code 是指 Pokee 直接跑一个 prompt,得到工作流后,直接复制粘贴给无数个场景下面;Low Code,是指别人通过我们的接口把他们想要解决的问题以 Prompt 形式传过来,从而把问题解决了,也不用告诉我们要用什么工具。

机器之心:以 RL 为核心的 AI Agent 和以 LLM 为核心的 AI Agent 的差异性在哪里?

朱哲清:首先,当下的很多 LLM 也用强化学习,而我们做的强化学习模型的工具调用范围和常规 LLM 模型的工具调用范围不一样,具体来说是动作空间 (Action Space) 的区别,就是 LLM 模型的动作空间只有 Token,而强化学习模型的动作空间可能不是 Token,是那些工具,直接通过工具本身的泛化性来完成对于 AI Agent 的搭建。

机器之心:在你对通用 Agent 的描述中,对 prompt 的要求很高,但似乎并不是每个人都会提问题,如何看待这一现象?

朱哲清:是的,现在用户在使用 Pokee 的时候也会遇到这个问题,已经把 prompt 给你了,可为什么你写出来的东西不是我想要的?关键就在于,用户给的 prompt 可能并不是他们的真正意图,想做的和说的是两回事。

该如何理解意图就叫做对齐(Alignment),这件事情非常难,因为没有一个 Ground Truth,每个人说话方式都不一样。如果真的想要找到 Ground Truth,说用户一定指的是这件事情,那必须要通过和这个人的长期 Memory 联系起来才能够找到。

如果我来评判这条路径上该怎么走,就是先要能够解决问题,之后把用户的非训练数据进行个性化(personalization) ,然后要去理解、对齐。大概就是三步走 ——决策能力、对于 Memory 的 personalization、Alignment。

机器之心:能否举例说一下?

朱哲清:比如之前投资人在试用我们产品时,写了一个 Prompt—— 能不能帮我 draft 一个 LinkedIn Post?那这个「draft」的意思到底是「单纯帮我写好但不要发出去」还是「帮我写好并直接发出去」?

要想了解他的真正意图就需要去看过往给他的员工或者同事说这句话的时候,他会怎么说,以及后者的回复,通过他们之间的交互来确认他说「draft」的意思。这是很复杂的一件事情,需要非常个性化的 Memory 才能完成。

机器之心:那当前处于哪一步?

朱哲清:整个行业第一步都还没做完,更别说二、三步了(笑)。

机器之心:基于此,该怎么做?

朱哲清:我觉得这是一个很有意义也非常前瞻的问题,但从商业化角度来说,这不是第一优先级,最先聚焦的应该是能不能解决问题?先把问题解决了,然后再往下探索能不能更好地理解(问题)。

机器之心:据了解,Pokee 的架构是,将小型 LLM 作为人机交互界面,类似「 UI 层」,用于理解用户意图,而真正决策、执行任务的全部基于强化学习结构来完成。基于这一理解,其实你们对于 prompt 的要求很高?

朱哲清:对,这就复杂得多了,所以我一直说,LLM 做得越好,我们就能做得越好。虽然我们是将 RL 而非 LLM 作为 AI Agent 核心,但我们与 LLM 并非竞争关系,如果纯语言方向不能变得更好,我们也会有瓶颈,根本无法完全完整地理解用户到底要说什么。

创业,一个孤独的漫长旅程

机器之心:从离开 Meta 开始创业到现在有大半年时间,你觉得工作和创业有什么区别,最大的感受是什么?

朱哲清:区别很大,期间也有过挣扎,但不是因为时间管理、劳累,而是创业本身是一条很模糊的路,或者说本来就没有路,你想走成什么样,它就是什么路。作为公司 CEO,看似有很大的话语权,你说要往哪走就往哪走,但实际上能做的决策数量有限,要对公司、大家负责。

在大公司不一样,可以做无数次决策,甚至可以换组,这个东西做不下去就换个方向。

机器之心:据了解,团队从成立到今年 4、5 月份一直是四人核心配置,现在有多少人?有没有考虑扩张?

朱哲清:目前团队有 7 个人,接下来还会招两三个人,但是大概率在收入规模扩大前不会将团队配置超过 10 个人。

机器之心:所以也可以说 AI 时代的创业更为「轻量级」?

朱哲清:是的,AI 时代,模型、产品打磨各方面其实用不了很多人,人多了,反而做事情会蹑手蹑脚。

机器之心:你们办公室位于哪里?日常工作状态是怎样的?

朱哲清:我们没有办公室。

机器之心:那平时开会也是线上?

朱哲清:全部线上,因为有人在西雅图,有人在湾区,还有人在新加坡,都不在一起。另外我们都是 Meta 出身,习惯了远程办公,即便没有办公室,效率也挺高,而且还能兼顾生活。现在,我们每天线上开一个会,要做什么,大家一起讨论决定。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
悲情?海地轰15脚却输0-1 世界杯4战全败超越国足 恐追平耻辱纪录

悲情?海地轰15脚却输0-1 世界杯4战全败超越国足 恐追平耻辱纪录

我爱英超
2026-06-14 11:54:47
女老师穿“日系连衣裙”,家长们坐不住了:天气再热也不能这么穿

女老师穿“日系连衣裙”,家长们坐不住了:天气再热也不能这么穿

蝴蝶花雨话教育
2026-06-06 00:05:36
广东东莞一女生回家被陌生男尾随至电梯口,索要微信遭拒后提出“加价400元一起玩”,女生严词拒绝两句“滚”霸气回怼,房东称已上报警务站

广东东莞一女生回家被陌生男尾随至电梯口,索要微信遭拒后提出“加价400元一起玩”,女生严词拒绝两句“滚”霸气回怼,房东称已上报警务站

扬子晚报
2026-06-14 13:08:09
投诉遭拒眼眶红,全场狂轰11记ACE!郑钦文:你打不垮我

投诉遭拒眼眶红,全场狂轰11记ACE!郑钦文:你打不垮我

曹老师评球
2026-05-07 20:08:33
亚马逊CEO推动美国收紧AI访问?外国公民被禁尝鲜最新模型

亚马逊CEO推动美国收紧AI访问?外国公民被禁尝鲜最新模型

字节漫游指南
2026-06-14 02:34:18
斯诺克战报:6-0/6-1,世锦赛冠军惨败出局!32强决出18席中国5席

斯诺克战报:6-0/6-1,世锦赛冠军惨败出局!32强决出18席中国5席

林子说事
2026-06-14 20:05:46
要求与解放军相同待遇,台军退伍兵对大陆提要求,统一后如何处理

要求与解放军相同待遇,台军退伍兵对大陆提要求,统一后如何处理

陈腕特色体育解说
2026-06-14 16:23:48
不灵了!国家队1.6万亿大撤退!A股“躺赢”的时代彻底翻篇了

不灵了!国家队1.6万亿大撤退!A股“躺赢”的时代彻底翻篇了

何轐说
2026-06-12 01:30:14
乒坛惊天逆转!张本美和挽救6赛点夺冠,世界冠军朱雨玲决赛崩盘

乒坛惊天逆转!张本美和挽救6赛点夺冠,世界冠军朱雨玲决赛崩盘

全言作品
2026-06-15 00:34:46
五大电商集体被约谈?央视点名:百亿补贴竟全是“纸面数字”?

五大电商集体被约谈?央视点名:百亿补贴竟全是“纸面数字”?

大卫聊科技
2026-06-14 12:31:12
流量果然为王,“小马云”范小勤直播卖字爆火,这届富豪眼光独特

流量果然为王,“小马云”范小勤直播卖字爆火,这届富豪眼光独特

奔跑的阿乐
2026-06-14 12:37:13
头一回,我被工信部的新车干沉默了。

头一回,我被工信部的新车干沉默了。

差评XPIN
2026-06-14 00:05:30
2-0,世界杯黑马球队诞生,20岁新星首秀破门 土耳其狂轰30脚射门

2-0,世界杯黑马球队诞生,20岁新星首秀破门 土耳其狂轰30脚射门

替补席看球
2026-06-14 14:01:10
心理学有个残忍发现:男人对独立女人只是欣赏,真正让他上瘾的是,她身上这两种难以驯服的特质

心理学有个残忍发现:男人对独立女人只是欣赏,真正让他上瘾的是,她身上这两种难以驯服的特质

心理观察局
2026-06-05 09:26:26
活力中国调研行|雁栖湖畔,大国重器点亮创新之光

活力中国调研行|雁栖湖畔,大国重器点亮创新之光

新华社
2026-06-13 22:25:16
曝绿军已正式为字母哥报价!波士顿或成最终赢家:一周内完成交易

曝绿军已正式为字母哥报价!波士顿或成最终赢家:一周内完成交易

罗说NBA
2026-06-14 20:37:04
原谅林丹10年,谢杏芳定居西班牙夫妻分居,10岁儿子才是未来依靠

原谅林丹10年,谢杏芳定居西班牙夫妻分居,10岁儿子才是未来依靠

揽星河的笔记
2026-06-13 16:35:03
中东那个恶霸终于死了,不是被打死的,而是被特朗普的谈判拖死的

中东那个恶霸终于死了,不是被打死的,而是被特朗普的谈判拖死的

梦史
2026-06-14 09:49:02
中国反击来了!拿南海废纸当圣旨,替菲出头,新加坡这次真搞砸了

中国反击来了!拿南海废纸当圣旨,替菲出头,新加坡这次真搞砸了

风流女汉
2026-06-13 16:51:00
中甲一夜双赛:2-0、5-0!深圳青年人被绝平,积分榜出炉

中甲一夜双赛:2-0、5-0!深圳青年人被绝平,积分榜出炉

余憁搞笑段子
2026-06-15 01:49:40
2026-06-15 05:11:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13256文章数 142670关注度
往期回顾 全部

财经要闻

金价跌至900元关口,大妈又来抄底了!

头条要闻

德国7-1大胜库拉索 库拉索打入队史世界杯首球

头条要闻

德国7-1大胜库拉索 库拉索打入队史世界杯首球

体育要闻

8年8队夺冠,邓肯那句话,现在还给了马刺

娱乐要闻

邓超携子观战NBA,等等帅气十足

科技要闻

Anthropic最强模型被禁,传亚马逊通风报信

汽车要闻

狂欢置换价7.99万 第三代豪越L欢乐PLUS大7座版上市

态度原创

家居
亲子
数码
手机
公开课

家居要闻

空间微调 移形换境

亲子要闻

宝蓝和爸爸用吃完的西瓜,做了一个水晶泥玩具~

数码要闻

iOS 27与macOS 27暗示折叠屏iPhone与触控版MacBook临近登场

手机要闻

小米618火热进行中 多品类学生认证至高再减200元

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版