网易首页 > 网易号 > 正文 申请入驻

1人顶1个Infra团队!OpenAI前CTO新招,让大模型训练跌成白菜价

0
分享至


新智元报道

编辑:好困

【新智元导读】当大模型竞争转向后训练,继续为闲置显卡烧钱无异于「慢性自杀」。如今,按Token计费的Serverless模式,彻底终结了算力租赁的暴利时代,让算法工程师真正拥有了定义物理世界的权利。

大模型训练,正从「作坊炼丹」进化为「工业微调」!

当OpenAI前CTO Mira Murati创立的Thinking Machines Lab推出Tinker时,一切都变了。

通过将训练拆解为forward、backward等⼀系列基本原语,算法设计终于不再受限于基础设施。

现在,训练大模型就像「函数调用」一样简单。

紧跟前沿,潞晨云微调SDK正式发布!

这是国内首个兼容Tinker范式、且全面开放的Serverless微调平台。

针对复杂且昂贵的强化学习,给出了更具成本优势的工业级解法:

  • 零门槛:开发者无需囤积显卡。

  • 全透明:Rollout → Reward → Update,全流程按Token计价。

  • 极高效拒绝算力浪费,让每一分钱都花在产生梯度的「刀刃」上。

拥抱后训练与RL

算法层与底层算力架构的解耦

随着OpenAI o1在推理能力上的突破,业界逐渐形成共识:

大模型的能力突破已不再单纯依赖预训练(Pre-training)阶段的参数堆砌,后训练(Post-Training)特别是强化学习正成为决定模型实用价值的核心战场。

以DeepSeek‑R1为例,仅靠强化学习训练,模型在AIME数学推理基准上的pass@1从15.6%提升至77.9%,充分展示了RL在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。

然而,摆在算法工程师面前的问题依旧严峻。

强化学习涉及到更为复杂的系统设计,训练过程中存在一系列的问题,如多个模型的优化,数据的传递,以及模型权重的传递;一系列工程化的工作,给算法的设计带来了更多的困难,同时也对基础设施提出了更高的要求。

Tinker的出现,就是为了解决这个问题:把繁杂训练变成标准易用的API

潞晨云把这一范式写进底层假设,算法设计与基础设施解耦——

开发者只负责定义数据与Loss函数,底层的异构集群调度、并行策略优化、容错运维等应被封装为基础设施服务,对开发者实现全托管与无感支持。

致敬创新,更致力于落地

潞晨云微调SDK,直接兼容Tinker接口。

它在「零代码」与「裸机手写」之间,找到了最佳平衡点。从此,从算法灵感到模型落地,再无工程壁垒。

如今,开发者可以把研究精力和算力成本从集群运维还原至算法本身,感受「本地写码,云端计算」的「训练即服务(Training as a Service)」流畅体验

颠覆性人效比

1名算法工程师顶替庞大Infra团队

潞晨云微调SDK的核心思路可以概括为:算法工程师定义算法逻辑,潞晨云搞定Infra。

在传统的开发中,用户往往要花大量精力去租赁合适的算力集群、管理环境配置、调训练框架和集群运维。

但潞晨云将大模型训练拆解成了一组标准的函数原语,打通了从SFT到RL的全链路

  • Forward & Backward:处理前向传播与梯度计算

  • Optimizer Step:执行权重更新策略

  • Sample (Rollout):做推理生成和评估,使用户不仅可以完成SFT,更能轻松构建PPO、GRPO、DPO等复杂的强化学习(RLHF/RLAIF)训练流

  • Save State:管理模型检查点与状态保存


这意味着,用户可以在本地熟悉的Jupyter Notebook或IDE里,用最标准的Python语法像搭积木一样自由组合,掌控训练逻辑的细节。

这种模式带来了颠覆性的「人力效能比」提升——

它将原本需要运维工程师、Infra工程师、平台工程师和算法工程师紧密配合的庞大团队,简化为了「一个算法工程师」的独立闭环。

用户不再被底层繁杂的基建拖累,不再背负多职能的枷锁,也不再是黑盒填参的被动执行者,而是能够独立驾驭大规模训练流的主动设计师。

无论是监督微调(SFT)还是更复杂的强化学习(RL)Pipeline,都能通过组合这些原子函数来灵活构建。


为什么这种体验如此丝滑?

为了实现极致的流畅度,潞晨云基于现有的GPU云服务架构实现了一套完整的后端系统。

在具体实现中,潞晨云采⽤控制⾯与计算⾯分离设计,通过统⼀API Server管理跨地域的多个GPU计算集群,实现多云部署能⼒。

核⼼采⽤基于Future模式的异步API,所有训练操作⽀持⾮阻塞调⽤,⽤⼾⽆需等待GPU计算完成即可继续执⾏后续逻辑。


潞晨云微调SDK还具备智能队列系统。

即使在资源洪峰期,任务也会自动进入持久化队列(Persistence Queue),一旦底层资源可用,毫秒级启动:

  • 队列等待期间0计费

  • 仅对实际prefill + sample + train的Token量收费

彻底告别资源闲置浪费,让用户的每一分钱都用在产生梯度的刀刃上。

模型微调算力零售革命

从包机租赁到按Token计费

如果说「易用性」是后训练平台的入场券,那么「成本结构」则是决定谁能走得更远的护城河。

在传统云主机的「包机/时租」模式中,用户一直在为「过程」买单——无论是在加载数据、调试代码,还是仅仅在思考Loss函数,只要占用了显卡,计费表就在跳动。

这种模式下,开发过程中有一半以上的预算都浪费在了这些没有实际产出的「垃圾时间」里

潞晨云为微调大模型场景引入了Serverless架构,推行「按Token计费」的商业模式,将微调场景的算力服务切分到了最细的颗粒度:

  • 为价值付费

就像使用推理API一样,用户只需为Prefill(输入)、Sample(推理输出)和Train(训练)产生的有效计算Tokens量付费。

  • 其他环节全免费

本地代码调试、环境配置、数据预处理、模型Checkpoint保存……这些在传统租卡模式下分秒必争的环节,在潞晨云全部免费

  • 极致性价比

通常,RL需要同时维护高吞吐的推理集群(vLLM)和训练集群,算力成本极高。

但在潞晨云上,实测基于官方Cookbook的math_rl recipe跑通包含Rollout采样、Reward评分和PPO更新的完整RL流程(~300 steps),总算力成本仅8.61元

这意味着,个体开发者也能低成本复现RLHF/RLAIF探索。


技术落地的三个场景

SFT与RL同时开箱即用

这种新模式,也将彻底改变不同领域开发者的工作流:

  • 科研场景:告别资源焦虑

学术界,时间与算力往往是最紧缺的资源。研究人员不仅要面对繁琐的集群运维(Slurm/Docker 配置),还要应对昂贵的实验复现成本。

潞晨云微调SDK支持「白盒级」的科研探索,全面兼容Tinker API。

研究人员可以自定义Evaluation逻辑、通过Forward/Backward,Sample等原语精确控制后训练和强化学习Pipeline,而无需关心底层的分布式实现,让实验复现成本大幅降低。

  • 创业与独立开发:极速验证MVP

对于初创团队,「快」是生存根本。利用潞晨云微调SDK的Serverless特性,开发者无需等待资源排期。

配合极低的Token成本,实测从pip install到跑通一个包含1000条样本的SFT或RL微调实验,仅需数分钟。

这种极致的边际成本,让创业者敢于在有限预算下快速迭代Reward模型,实现真正的「低成本试错」。

  • 工业级落地:复杂架构突围

在金融、医疗等垂直领域的工业应用中,已有微调API往往难以应对复杂的异构架构与RLHF/RLAIF需求。

潞晨云微调SDK允许工程师通过train_step自由定义Loss逻辑与强化学习奖励函数。

开发者拥有对模型权重与训练细节的完整控制权实现端到端定制。

极简实战

三步上手

没有复杂的集群配置,没有冗长的Docker构建。

使用潞晨云微调SDK,训练一个大模型就像写普通Python脚本一样简单:

1. Install & Import:

pip install hpcai

2. Initialize Client:

目前已支持Qwen3系列(4B - 32B),更多模型即将上线。

)

3. Define Training Loop & Run:

像在本地写PyTorch一样,拥有对训练循环的完整控制权。

    loss = fwd_bwd.result().metrics.get("loss:mean")

⽬前,微调SDK已覆盖Qwen3系列模型(4B、8B、14B、32B),支持监督学习和强化学习训练方式,并将持续扩展更多模型能力与细分落地场景,大家也可以向官方提交需求push更新。

平台还准备了开箱即用的HPC-AI Cookbook,提供包括DeepSeek-R1 GRPO算法基于Verifier的数学推理自定义Reward函数等复杂RL场景的完整代码实现。

开发者无需从零构建复杂的PPO/GRPO流水线,只需复制Cookbook中的「配方」,运行轻量级本地train.py脚本,即可驱动云端复杂的分布式RL训练流,在潞晨云上复现具备复杂逻辑推理能力的SOTA模型。

现在体验

后训练正从学术支线升级为工程主线,AI基础设施的终极形态应该是「零认知负荷」——

开发者只需描述数据与算法,其余(租卡、配环境、并行策略、运维调度、故障自愈,乃至RL涉及的一系列工程化的工作)全部下沉到用户无感。

当GPU闲置成本趋近于0,环境配置时间趋近于0,长序列RLHF也能按Token即时计费,应用创新效率直接逼近算力上限。

潞晨云微调SDK今日起全量开放:

  • 无需白名单,无需预约

  • 前150名专属链接注册即得30元使用额度(可点击【阅读原文】跳转):https://cloud.luchentech.com/account/signup?invitation_code=XZY

把资源弹性交给平台,把算法自由度留给自己,每一分钱都用在产生梯度的刀刃上!

立即体验:

https://cloud.luchentech.com/fine-tuning

使用文档:

https://cloud.luchentech.com/doc/docs/finetune-sdk/

Tinker SDK:

https://github.com/thinking-machines-lab/tinker

DeepSeek-R1:

https://arxiv.org/pdf/2501.12948

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
挑衅原配、“睡”遍京圈,定居美国7年的徐静蕾,私生活太狂野了

挑衅原配、“睡”遍京圈,定居美国7年的徐静蕾,私生活太狂野了

时光在作祟
2025-12-27 18:37:45
上海女子花8800元雇团队寻猫,结果物业发现就在屋内!寻宠团队:按结果收费不退钱;当事人已报警

上海女子花8800元雇团队寻猫,结果物业发现就在屋内!寻宠团队:按结果收费不退钱;当事人已报警

新民晚报
2026-02-27 19:32:24
打脸全联盟!原来火箭真正的建队基石,是被骂了一赛季的谢泼德!

打脸全联盟!原来火箭真正的建队基石,是被骂了一赛季的谢泼德!

田先生篮球
2026-02-28 12:26:37
两极反转!网友被父母的老式旅游折服了!评论区全部是真香现场

两极反转!网友被父母的老式旅游折服了!评论区全部是真香现场

另子维爱读史
2026-02-26 21:36:17
人没本事,一看就知:没本事的人,每到春节,就会有3个通病

人没本事,一看就知:没本事的人,每到春节,就会有3个通病

聚焦最新动态
2026-02-28 09:53:49
6-1,6-3!中国金花绽放:张帅进500赛4强平纪录,今年排名创新高

6-1,6-3!中国金花绽放:张帅进500赛4强平纪录,今年排名创新高

刘姚尧的文字城堡
2026-02-28 12:29:53
特朗普认为哈梅内伊已死报道准确

特朗普认为哈梅内伊已死报道准确

财联社
2026-03-01 04:51:11
中国男篮vs中国台北时间已定!CCTV5直播,省队球员赛前放出狠话

中国男篮vs中国台北时间已定!CCTV5直播,省队球员赛前放出狠话

篮球专区
2026-02-28 20:36:42
大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

大批美国游客涌入中国,回国后坦言:客观对比,中国比美国强多了

知法而形
2026-02-28 14:56:49
近10万股民踩雷!隐瞒重大合同、虚增利润,监管拟罚1780万元,公司致歉

近10万股民踩雷!隐瞒重大合同、虚增利润,监管拟罚1780万元,公司致歉

华夏时报
2026-02-28 21:51:16
外媒:以色列和美国对伊朗发动袭击,马克龙、桑切斯等多国领导人和政要发声

外媒:以色列和美国对伊朗发动袭击,马克龙、桑切斯等多国领导人和政要发声

环球网资讯
2026-02-28 21:14:21
中国最著名“叛国者”去世:逃亡99.9%概率死,0.1%奇迹改写一生

中国最著名“叛国者”去世:逃亡99.9%概率死,0.1%奇迹改写一生

近史谈
2026-02-28 21:29:29
江西女子用公驴器官泡酒,三个月后给丈夫喝,不料发生意外

江西女子用公驴器官泡酒,三个月后给丈夫喝,不料发生意外

古怪奇谈录
2025-06-28 13:49:02
戏子误国!春节刚过就有4位明星相继塌房,走到这一步不值得同情

戏子误国!春节刚过就有4位明星相继塌房,走到这一步不值得同情

墨印斋
2026-02-26 06:21:37
骑士加时绝杀活塞,哈登与米德尔顿末节表现突出

骑士加时绝杀活塞,哈登与米德尔顿末节表现突出

铿锵格斗
2026-02-28 12:31:14
清华大学副校长:要求大一至大三学生每学期至少完成24次课外锻炼 不会游泳不能毕业

清华大学副校长:要求大一至大三学生每学期至少完成24次课外锻炼 不会游泳不能毕业

红星新闻
2026-02-27 16:40:25
邹市明一家国外度假!冉莹颖膘肥体壮不好惹,轩轩一头白毛好土气

邹市明一家国外度假!冉莹颖膘肥体壮不好惹,轩轩一头白毛好土气

小徐讲八卦
2026-03-01 05:51:11
长餐桌已经退出中国家庭,学浙江人的做法,很多人都开始纷纷效仿

长餐桌已经退出中国家庭,学浙江人的做法,很多人都开始纷纷效仿

室内设计师有料儿
2026-02-27 20:49:11
深圳一楼盘打响节后返工“降价第一枪”,单套最高直降超百万元 业内:“降价跑量”仍行得通

深圳一楼盘打响节后返工“降价第一枪”,单套最高直降超百万元 业内:“降价跑量”仍行得通

每日经济新闻
2026-02-28 21:44:45
重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

重大进展!伊朗作出“前所未有”承诺:同意永远不拥有可制造核武器的核材料,将实现“零积累、零库存”,并接受全面核查!特朗普最新表态

每日经济新闻
2026-02-28 10:40:45
2026-03-01 07:52:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
14612文章数 66648关注度
往期回顾 全部

科技要闻

狂揽1100亿美元!OpenAI再创融资神话

头条要闻

特朗普:对伊朗的不间断打击将持续一周甚至更长时间

头条要闻

特朗普:对伊朗的不间断打击将持续一周甚至更长时间

体育要闻

球队主力全报销?顶风摆烂演都不演了

娱乐要闻

周杰伦儿子正面照曝光,与父亲好像

财经要闻

冲突爆发 市场变天?

汽车要闻

岚图泰山黑武士版3月上市 搭载华为四激光智驾方案

态度原创

房产
教育
旅游
手机
艺术

房产要闻

滨江九小也来了!集齐海侨北+哈罗、寰岛...江东教育要炸了!

教育要闻

一年学费仅3800美金的语言学校,适合你吗?

旅游要闻

北京颐和园蜡梅刷屏,70年古株盛放,藏着早春最动人的中国式浪漫

手机要闻

小米17/17 Ultra国际版发布:售价过万 国行版用户看完直呼赚了

艺术要闻

惊艳!这位天使般的女子与油画让人心动不已!

无障碍浏览 进入关怀版