网易首页 > 网易号 > 正文 申请入驻

OpenAI前CTO首个创业产品Tinker,全量升级开放了,还有羊毛可薅

0
分享至



机器之心发布

当 OpenAI 前 CTO Mira Murati 创立的 Thinking Machines Lab (TML) 用 Tinker 创新性的将大模型训练抽象成 forward backward,optimizer step 等⼀系列基本原语,分离了算法设计等部分与分布式训练基础设施关联,把 “训练” 大模型变成了简单的 “函数调用” 时,行业进入一场从 “作坊式炼丹” 到 “工业化微调” 的升级。

潞晨云微调 SDK 正式开放上线:基于 Thinking Machine Lab 开源的 Tinker SDK 构建,作为国内首个兼容 Tinker 范式且全面开放的 Serverless 微调平台,为复杂昂贵的强化学习提供更具成本优势的工业级解法 —— 开发者无需囤卡,rollout→reward→update 全链路按 Token 计价,让每一分钱都花在产生梯度的 “刀刃” 上。

拥抱后训练与 RL

算法层与底层算力架构的解耦

随着 OpenAI o1 在推理能力上的突破,业界逐渐形成共识:大模型的能力突破已不再单纯依赖预训练(Pre-training)阶段的参数堆砌,后训练(Post-Training) 特别是强化学习正成为决定模型实用价值的核心战场。以 DeepSeek‑R1 为例,仅靠强化学习训练,模型在 AIME 数学推理基准上的 pass@1 从 15.6% 提升至 77.9%,充分展示了 RL 在低数据量条件下即可实现大幅能力跃升,迅速成为后训练赛道的新范式。

然而,摆在算法工程师面前的问题依旧严峻。强化学习涉及到更为复杂的系统设计,训练过程中存在一系列的问题,如多个模型的优化,数据的传递,以及模型权重的传递;一系列工程化的工作,给算法的设计带来了更多的困难,同时也对基础设施提出了更高的要求。

Tinker 的出现,就是为了解决这个问题:把繁杂训练变成标准易用的 API

潞晨云把这一范式写进底层假设,算法设计与基础设施解耦—— 开发者只负责定义数据与 Loss 函数,底层的异构集群调度、并行策略优化、容错运维等应被封装为基础设施服务,对开发者实现全托管与无感支持

致敬创新,更致力于落地。潞晨云微调 SDK 兼容 Tinker 接口, 消除了从 “算法灵感” 到 “模型落地” 之间的工程化壁垒,在零代码微调与裸机全手写之间落在最佳平衡点,将研究精力和算力成本从集群运维还原至算法本身,带给开发者 “本地写码,云端计算的 “训练即服务(Training as a Service)” 流畅体验 。



潞晨云微调 SDK 今日起全量开放,前 150 名用户通过专属链接注册,可获得 30 元 Token 使用额度:

https://cloud.luchentech.com/account/signup?invitation_code=JQZX

颠覆性人力效能比

1 名算法工程师顶替原庞大 Infra 团队

潞晨云微调 SDK 的核心思路可以概括为:算法工程师定义算法逻辑,潞晨云搞定 Infra 。

在传统的开发中,用户往往要花大量精力去租赁合适的算力集群、管理环境配置、调训练框架和集群运维。但潞晨云将大模型训练拆解成了一组标准的函数原语,打通了从 SFT 到 RL 的全链路

  • Forward & Backward: 处理前向传播与梯度计算
  • Optimizer Step: 执行权重更新策略
  • Sample (Rollout): 做推理生成和评估,使用户不仅可以完成 SFT,更能轻松构建 PPO、GRPO、DPO 等复杂的强化学习(RLHF/RLAIF)训练流
  • Save State: 管理模型检查点与状态保存



这意味着,用户可以在本地熟悉的 Jupyter Notebook 或 IDE 里,用最标准的 Python 语法像搭积木一样自由组合,掌控训练逻辑的细节。

这种模式带来了颠覆性的‘人力效能比’提升:它将原本需要运维工程师、Infra 工程师、平台工程师和算法工程师紧密配合的庞大团队,简化为了‘一个算法工程师’的独立闭环。

用户不再被底层繁杂的基建拖累,不再背负多职能的枷锁,也不再是黑盒填参的被动执行者,而是能够独立驾驭大规模训练流的主动设计师。无论是监督微调(SFT)还是更复杂的强化学习(RL)Pipeline,都能通过组合这些原子函数来灵活构建。



为什么这种体验如此丝滑?

为了实现极致的流畅度,潞晨云基于现有的 GPU 云服务架构实现了一套完整的后端系统。在具体实现中,潞晨云采用控制面与计算面分离设计,通过统⼀ API Server 管理跨地域的多个 GPU 计算集群,实现多云部署能力。核心采用基于 Future 模式的异步 API,所有训练操作⽀持非阻塞调用,用户无需等待 GPU 计算完成即可继续执行后续逻辑。



潞晨云微调 SDK 还具备智能队列系统,即使在资源洪峰期,任务也会自动进入持久化队列(Persistence Queue),一旦底层资源可用,毫秒级启动,队列等待期间 0 计费,仅对实际 prefill + sample + train 的 Token 量收费,无资源闲置,将用户每一分钱都用在产生梯度的刀刃上。

模型微调的算力零售革命

从 “包机租赁” 到 “按 Token 计费”

如果说 “易用性” 是后训练平台的入场券,那么 “成本结构” 则是决定谁能走得更远的护城河。

在传统云主机的 “包机 / 时租” 模式中,用户一直在为 “过程” 买单 —— 无论是在加载数据、调试代码,还是仅仅在思考 Loss 函数,只要占用了显卡,计费表就在跳动。这种模式下,开发过程中有一半以上的预算都浪费在了这些没有实际产出的 “垃圾时间” 里。

潞晨云为微调大模型场景引入了 Serverless 架构,推行 “按 Token 计费” 的商业模式,将微调场景的算力服务切分到了最细的颗粒度:

  • 为价值付费: 就像使用推理 API 一样,用户只需为 Prefill (输入)、Sample (推理输出) 和 Train (训练) 产生的有效计算 Tokens 量付费。
  • 其他环节全免费: 本地代码调试、环境配置、数据预处理、模型 Checkpoint 保存…… 这些在传统租卡模式下分秒必争的环节,在潞晨云全部免费
  • 极致性价比:通常,RL 需要同时维护高吞吐的推理集群(vLLM)和训练集群,算力成本极高。但在潞晨云上,实测基于官方 Cookbook 的 math_rl recipe 跑通包含 Rollout 采样、Reward 评分和 PPO 更新的完整 RL 流程(~300 steps),总算力成本仅8.61 元。这意味着,个体开发者也能低成本复现 RLHF/RLAIF 探索。



技术落地的三个场景

SFT 与 RL 同时 “开箱即用”

这种新模式,也将彻底改变不同领域开发者的工作流:

  • 科研场景:告别资源焦虑

学术界,时间与算力往往是最紧缺的资源。研究人员不仅要面对繁琐的集群运维(Slurm/Docker 配置),还要应对昂贵的实验复现成本。潞晨云微调 SDK 支持 “白盒级” 的科研探索,全面兼容 Tinker API。研究人员可以自定义 Evaluation 逻辑、通过 Forward/Backward,Sample 等原语精确控制后训练和强化学习 Pipeline,而无需关心底层的分布式实现,让实验复现成本大幅降低。

  • 创业与独立开发:极速验证 MVP

对于初创团队,“快” 是生存根本。利用潞晨云微调 SDK 的 Serverless 特性,开发者无需等待资源排期。配合极低的 Token 成本,实测从 pip install 到跑通一个包含 1000 条样本的 SFT 或 RL 微调实验,仅需数分钟。这种极致的边际成本,让创业者敢于在有限预算下快速迭代 Reward 模型,实现真正的 “低成本试错”。

  • 工业级落地:复杂架构突围

在金融、医疗等垂直领域的工业应用中,已有微调 API 往往难以应对复杂的异构架构与 RLHF/RLAIF 需求。潞晨云微调 SDK 允许工程师通过 train_step 自由定义 Loss 逻辑与强化学习奖励函数。开发者拥有对模型权重与训练细节的完整控制权,实现端到端定制。

极简实战:三步上手

没有复杂的集群配置,没有冗长的 Docker 构建。使用潞晨云微调 SDK,训练一个大模型就像写普通 Python 脚本一样简单:

1.Install & Import:

Bashpip install hpcai

2.Initialize Client: 目前已支持 Qwen3 系列 (4B-32B) ,更多模型即将上线

Pythonimport hpcai# 初始化 LoRA 训练客户端,无需配置复杂的分布式参数training_client = service_client.create_lora_training_client ( base_model="Qwen/Qwen3-4B", rank=32)

3.Define Training Loop & Run: 像在本地写 PyTorch 一样,拥有对训练循环的完整控制权:

Python# 训练循环:完全可控forstepinrange(target_steps): # 前向与反向传播 fwd_bwd = training_client.forward_backward (batch,"cross_entropy") # 优化器步进 optim = training_client.optim_step (adam_params) # 实时获取 Loss 进行监控 loss = fwd_bwd.result ().metrics.get("loss:mean")

目前,微调 SDK 已覆盖 Qwen3 系列模型(4B、8B、14B、32B),支持监督学习和强化学习训练方式,并将持续扩展更多模型能力与细分落地场景,大家也可以向官⽅提交需求 push 更新。

平台还准备了开箱即用的 HPC-AI Cookbook,提供包括DeepSeek-R1 GRPO 算法、基于 Verifier 的数学推理、自定义 Reward 函数等复杂 RL 场景的完整代码实现。开发者无需从零构建复杂的 PPO/GRPO 流水线,只需复制 Cookbook 中的 “配方”,运行轻量级本地 train.py 脚本,即可驱动云端复杂的分布式 RL 训练流,在潞晨云上复现具备复杂逻辑推理能力的 SOTA 模型。

现在体验

后训练正从学术支线升级为工程主线,AI 基础设施的终极形态应该是 “零认知负荷”—— 开发者只需描述数据与算法,其余(租卡、配环境、并行策略、运维调度、故障自愈,乃至 RL 涉及的一系列工程化的工作)全部下沉到用户无感。当 GPU 闲置成本趋近于 0,环境配置时间趋近于 0,长序列 RLHF 也能按 Token 即时计费,应用创新效率直接逼近算力上限。

潞晨云微调 SDK 今日起全量开放:

  • 无需白名单,无需预约
  • 前 150 名注册即得 30 元体验金(填写专属福利码 JQZX)

把资源弹性交给平台,把算法自由度留给自己,每一分钱都用在产生梯度的刀刃上!

  • 立即体验:https://cloud.luchentech.com/fine-tuning
  • 使用文档:https://cloud.luchentech.com/doc/docs/finetune-sdk/

Reference

[1] Tinker SDK: https://github.com/thinking-machines-lab/tinker

[2] DeepSeek-R1: https://arxiv.org/pdf/2501.12948

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

大反转!U23国足球员劝架染红原因终于找到了,球迷曝光现场视频

侃球熊弟
2026-03-26 00:36:57
何超琼不愧是丰腴美人,穿白色低胸连衣裙凹凸有致,老了更撩人!

何超琼不愧是丰腴美人,穿白色低胸连衣裙凹凸有致,老了更撩人!

蓓小西
2026-03-17 08:39:55
美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

让心灵得以栖息
2026-03-26 05:03:07
谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

谁还敢充长期会员?男子视频VIP充到2028年,被一纸新规一夜返贫

温读史
2026-03-26 10:41:06
伊朗拒绝美国停战方案并提出伊方5项条件

伊朗拒绝美国停战方案并提出伊方5项条件

新京报
2026-03-25 23:58:14
甘油三酯"祸首"被发现,是猪油的12倍?专家叹息:还有人天天在吃

甘油三酯"祸首"被发现,是猪油的12倍?专家叹息:还有人天天在吃

芳芳历史烩
2026-03-23 11:04:46
为何伊朗突然变得这么强大呢?

为何伊朗突然变得这么强大呢?

农夫史记
2026-03-24 20:10:11
宋喆直播卖枣笑塌全网!百万流量零成交,满屏王宝强弹幕扎心到爆

宋喆直播卖枣笑塌全网!百万流量零成交,满屏王宝强弹幕扎心到爆

誮惜颜a
2026-01-13 01:12:10
中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

中方未收道歉,日本自卫官被转移,沉默24小时后,小泉进次郎发文

策略述
2026-03-26 18:23:11
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

国产笔记本CPU偷梁换柱翻车!官方终于回应:生产失误、全额退款

快科技
2026-03-25 10:14:04
最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

最自私的人是什么样的?网友:我爸58岁得癌,拆迁180万全部花光

火山詩话
2026-03-24 17:32:57
刚开业一周,上海德云社竟然被投诉了!

刚开业一周,上海德云社竟然被投诉了!

天津人
2026-03-26 11:12:18
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

福建平子
2026-03-26 09:00:29
特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

特变电工:公司输变电产线基本处于满负荷生产状态,公司变压器、电线电缆、电抗器等输变电产品在手订单饱满

每日经济新闻
2026-03-26 19:25:48
德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

德黑兰街头忽然空了:巴斯基帐篷被遗弃,民兵连夜跑了,为什么?

老马拉车莫少装
2026-03-24 22:55:20
港口管控升级!滞留中国巴拿马船暴涨3倍,巴拿马政府吃不消了

港口管控升级!滞留中国巴拿马船暴涨3倍,巴拿马政府吃不消了

肖兹探秘说
2026-03-26 20:07:23
一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

一夜暴跌25%!小马哥最怕的事还是发生了:年轻人正在从腾讯溜走

潮鹿逐梦
2026-03-21 11:54:42
突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

突发 广州白云 番禺多家法务公司 法律咨询公司被一锅端,上百人被抓

石辰搞笑日常
2026-03-26 17:28:25
曾经世界上最大的城市,差点取代北京成为中国首都,如今怎样?

曾经世界上最大的城市,差点取代北京成为中国首都,如今怎样?

抽象派大师
2026-03-14 14:00:04
2026-03-26 23:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
本地
旅游
数码
公开课

"死亡搁浅"外骨骼来了!小岛工作室转发联名 原度拉满

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

旅游要闻

3月26日最佳情报|郊野公园杨柳依依,樱花烂漫醉游人!恭喜

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版