网易首页 > 网易号 > 正文 申请入驻

Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

0
分享至

新智元报道

编辑:桃子 艾伦

【新智元导读】强化学习核心是什么?Karpathy一语道破——环境。全新开源Environments Hub横空出世,为强化学习训练带去革命性突破。

强化学习时代,什么最重要?

Karpathy给出了答案,环境!只有环境,才能让LLM真正进行交互、执行动作、观察结果。

如今,一个开源的环境中心——Environments Hub正式登场了,它由一家专注于去中心化AI开发公司Prime Intellect发布。

一直以来,RL环境是割裂的、封闭的,甚至难以共享。

但有且只有环境,定义了世界、规则,以及「状态—动作—奖励」的反馈闭环。

从游戏到编程,再到聊天对话,它们是AI学习发生的场景。没有它们,RL只是一套无从着力的算法。

Environments Hub的诞生,能够让任何人模拟出各种各样、高质量的环境,为开源AGI做出贡献。

AI智能体交互,缺的是环境

RL环境,是智能体学习的试验场。

回想一下,在预训练时代,互联网数据是核心。LLM主要通过大量多样,且高质量的数据来学习。

到了监督微调阶段,重点变成了「对话数据」。

人们会雇佣外包团队,来为问题创建答案,类似Stack Overflow、Quora平台的模式,但又专为LLM使用场景而设计。

如今到了强化学习时代,前两个阶段不会消失,但不同的是,环境成为了重心。

这些环境,可以用于模型训练,也可用于评估。不过,问题在于,如何创建出丰富多样的环境?

Karpathy回忆道,OpenAI最早的一个项目Gym,一个希望用统一框架去构建大规模环境集合。

GitHub地址:https://github.com/openai/gym

不过,这都是近十年前,大模型还未兴起的项目了。所以,当时的环境,都是一些简单的经典控制任务,比如cartpole、ATARI之类的。

而现在,Environments Hub是一个专门针对LLM构建的版本。

Karpathy激动地表示,「这是个非常棒的努力和想法」。今年初,他还发文建议过有人应该做类似的事情。

Environments Hub有个特点,一旦框架构建完成,原则上社区和行业就可以在不同领域并行开发。

而且,环境和智能体交互的方向,是下一个未来。

大厂斥资几百万,搞出围墙花园

为什么需要打造一个Environments Hub呢?

目前,多数强化学习环境是由初创公司构建,并将其出售给少数几家不对外开放的大型实验室。

如果高质量的学习环境一直保持封闭且昂贵,开源模型将进一步落后于闭源模型。

要想扭转这种局势,需要有一个强大的开源学习环境和训练工具生态系统能崛起。

Environments Hub正是承载着这个使命应运而生,旨在让下一波初创公司和AI的发展能够构建于开放的基础设施和开源模型之上。

核心功能,一键生成评估报告

总结来说,Environments Hub具备了以下功能亮点:

  • 通过Hub或CLI(命令行)拉取、推送并管理环境

  • 生成跨模型的评测报告

  • 与verifiers框架深度集成

  • prime-rl训练器原生支持环境

  • 提供用于代码执行的原生沙箱支持

你可以创建、管理和共享用于强化学习及评估的环境:

可以为不同模型创建和浏览环境评估报告:

可扩展训练器prime-rl原生支持这些环境:

还有沙盒功能,可直接与Verifier Environments对接,以实现安全的代码执行。

如果还有你需求的功能没有满足,你也可以亲自作为该开源项目开发者去贡献代码。

下一步:全栈式开源AGI基础设施

过去几个月中,Environments Hub将基于Agent的强化学习训练扩展到规模最大的开源模型,并取得了显著进展。

随着众多众包环境被引入INTELLECT-3,训练出一个完全开放、最先进的Agent模型将成为可能。

除此之外,Environments Hub关心的重点是,让人人都能用上这套基础设施,使研究人员和初创公司都能为自己的任务训练模型、集成工具、运行强化微调,以及优化Agent支撑框架。

prime-rl的整个技术栈都是开源的,正在扩展到全球的计算资源上无缝运行。

强化学习不仅是通往AGI的必经之路,也是构建AI原生产品的基础。

未来最成功的初创公司,将是那些能根据自身需求,创造出差异化环境的公司。

如今,最大的障碍并非获取强大模型,而在于大规模训练和部署它们所需的基础设施及成本。

通过降低这一门槛,Environments Hub旨在为所有AI构建者提供廉价、无缝的计算、推理和训练资源,以及全套的强化学习基础设施。

参考资料:

https://www.primeintellect.ai/blog/environments

https://x.com/karpathy/status/1960803117689397543

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

霍尔木兹断航!第一个亚洲国家已断粮倒下,下一个受害者浮出水面

小影的娱乐
2026-03-22 20:31:39
心如死灰!一乳腺癌患者哭诉抗癌1年,在丈夫外套翻出他达拉非…

心如死灰!一乳腺癌患者哭诉抗癌1年,在丈夫外套翻出他达拉非…

火山詩话
2026-03-27 06:26:22
离婚14年后,演员车晓现状曝光:一人住北京大别墅,43岁单身未育

离婚14年后,演员车晓现状曝光:一人住北京大别墅,43岁单身未育

寒士之言本尊
2026-02-10 23:09:39
哈哈哈!伊朗吹牛都不打草稿了

哈哈哈!伊朗吹牛都不打草稿了

廖保平
2026-03-27 09:25:53
远嫁广东女子不解:广东“清明节”为啥都是提前上坟?

远嫁广东女子不解:广东“清明节”为啥都是提前上坟?

尘埃里的看客
2026-03-29 16:13:57
案例:复旦博士姜文华判处死刑,女学生曝光其习惯,有一点很奇怪

案例:复旦博士姜文华判处死刑,女学生曝光其习惯,有一点很奇怪

清茶浅谈
2025-01-18 15:14:28
造杀伤第一人!中国男篮最靠谱后卫横空出世,郭士强没有看错人

造杀伤第一人!中国男篮最靠谱后卫横空出世,郭士强没有看错人

帮主砍球
2026-03-29 17:31:27
87分钟点球绝平!中国男足拿1分后,最新排名有变,主裁判罚争议

87分钟点球绝平!中国男足拿1分后,最新排名有变,主裁判罚争议

侃球熊弟
2026-03-28 20:07:16
2小时闭门激战!心腹当场倒戈?马英九急撤杀招,蓝营内斗迎3结局

2小时闭门激战!心腹当场倒戈?马英九急撤杀招,蓝营内斗迎3结局

杰丝聊古今
2026-03-29 00:06:40
乌媒:中国推出极其危险的TM-300隐身无人机,最大航程达1200公里

乌媒:中国推出极其危险的TM-300隐身无人机,最大航程达1200公里

零度Military
2026-03-27 06:37:33
NBA东西部前十全出炉:榜首之争激烈 雄鹿领衔十队无缘季后赛

NBA东西部前十全出炉:榜首之争激烈 雄鹿领衔十队无缘季后赛

醉卧浮生
2026-03-29 05:59:29
《三体》作者刘慈欣再开“脑洞”:人类文明只是AI掌管地球的“开机程序 ”

《三体》作者刘慈欣再开“脑洞”:人类文明只是AI掌管地球的“开机程序 ”

中国经营报
2026-03-29 16:39:28
52岁男子一年后血管斑块消失!养成6个习惯,斑块或可慢慢消失

52岁男子一年后血管斑块消失!养成6个习惯,斑块或可慢慢消失

岐黄传人孙大夫
2026-03-28 20:35:03
章泽天穿小香风接待卡塔尔公主,两人见面就拥抱,老板娘很大气!

章泽天穿小香风接待卡塔尔公主,两人见面就拥抱,老板娘很大气!

庭小娱
2026-03-29 13:19:47
刘晓庆只比邓婕大5岁,二人状态大不同,科技脸和原装脸一眼就懂

刘晓庆只比邓婕大5岁,二人状态大不同,科技脸和原装脸一眼就懂

蓓小西
2026-03-28 09:17:09
热身赛:申花1-2不敌南通支云,申花单外援出战,拉唐破门

热身赛:申花1-2不敌南通支云,申花单外援出战,拉唐破门

懂球帝
2026-03-29 17:53:09
4月1日医保新规正式执行,这6件事再不办,看病直接全自费!

4月1日医保新规正式执行,这6件事再不办,看病直接全自费!

复转这些年
2026-03-28 12:04:05
胖东来曝光“小方糖”戒指仿冒乱象 胖东来:从未授权任何单位或个人开设网店代购商品直播卖货

胖东来曝光“小方糖”戒指仿冒乱象 胖东来:从未授权任何单位或个人开设网店代购商品直播卖货

闪电新闻
2026-03-29 19:57:47
中国以“丰满”而出名的3位女星,这身材真的是美的“犯规”

中国以“丰满”而出名的3位女星,这身材真的是美的“犯规”

洞鉴地理
2026-03-29 17:00:58
2026-03-29 22:11:00
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14845文章数 66720关注度
往期回顾 全部

科技要闻

马斯克承认xAI"建错了",11位创始人均离职

头条要闻

动车被困隧道内停车断电4个小时 乘客:有人紧张晕倒

头条要闻

动车被困隧道内停车断电4个小时 乘客:有人紧张晕倒

体育要闻

绝杀卫冕冠军后,他单手指天把胜利献给父亲

娱乐要闻

张凌赫事件持续升级!官方点名怒批

财经要闻

Kimi、Minimax 们的算力荒

汽车要闻

岚图泰山X8配置曝光 四激光雷达/华为新一代座舱

态度原创

艺术
家居
旅游
房产
公开课

艺术要闻

314米!温哥华第一座超高层摩天楼,像“海绵礁”

家居要闻

曲线华尔兹 现代简约

旅游要闻

半日游、一日游都有!南京栖霞发布首批27条精品研学路线

房产要闻

首日430组来访,单日120组认筹!海口首个真四代,彻底爆了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版