网易首页 > 网易号 > 正文 申请入驻

开发者狂喜:Thinking Machines首款产品Tinker,后训练麻烦给包了

0
分享至



机器之心报道

机器之心编辑部

对于大模型开发者 / 研究者来说,今天是重要的一天。

因为刚刚,OpenAI 前 CTO Mira Murati 创办的 Thinking Machines 推出了首款产品 ——Tinker。



简单来说,Tinker 是一个 API,用于帮开发者 / 研究人员微调语言模型。重要的是,在此过程中,你只需要专注于训练数据和算法,而你不擅长的关于 Infra 的部分 —— 调度、调优、资源管理和 Infra 可靠性 —— 统统由 Tinker 来搞定,这将大大简化 LLM 的后训练过程。





目前,Tinker 支持的模型如下所示,Qwen-235B-A22B等前沿模型都包含在内。该公司表示,从一个小模型切换到一个大模型,就像在你的 Python 代码中更改一个字符串一样简单。Tinker 的发布是 Thinking Machines 使命的表现,即让更多人能够研究尖端模型并根据自己的需求进行定制。



Tinker 使用LoRA技术,以便在多个训练运行之间共享同一计算资源池,从而降低成本。 在前几天的一篇博客中,Thinking Machines 专门写了一篇博客介绍他们在 LoRA 方面的研究进展(参见《Thinking Machines 又发高质量博客:力推 LoRA,不输全量微调》)。

Tinker 的 API 为开发者提供了诸如 forward_backward 和 sample 之类的底层原语,这些原语可用于表达大多数常见的后训练方法。即便如此,要取得好的结果仍需要处理好许多细节。这就是为什么他们要发布一个开源库 ——Tinker Cookbook,其中包含基于 Tinker API 运行的后训练方法的现代实现。



伊利诺伊大学香槟分校博士生金博文表示,Tinker 的 Cookbook 中收录了他们的训练工具 ——Search-R1,这个工具可以「边推理边搜索」,感兴趣的读者可以参见《UIUC 联手谷歌发布 Search-R1:大模型学会「边想边查」,推理、搜索无缝切换》。



目前,普林斯顿大学、斯坦福大学、加州大学伯克利分校和 Redwood Research 的团队已经在使用 Tinker:

  • 普林斯顿大学 Goedel 团队训练了数学定理证明器。使用 Tinker 和 LoRA,仅用 20% 的数据,他们的模型性能与全参数 SFT 模型(如 Goedel-Prover V2)相当。他们在 Tinker 上训练的模型在 MiniF2F 基准测试中达到了 88.1% 的 pass@32,通过自我校正后达到了 90.4%,超过了更大的封闭模型。
  • 斯坦福大学的 Rotskoff 化学小组对一个模型进行了微调,以完成化学推理任务。在 LLaMA 70B 之上应用强化学习后,IUPAC 到公式的转换准确率从 15% 提升至 50%,研究人员称这一提升是以前在没有重大基础设施支持的情况下难以实现的。
  • 加州大学伯克利分校的 SkyRL 小组在一个定制的异步 off-policy 强化学习训练 loop 上进行了实验,该 loop 涉及多智能体和多轮工具使用。得益于 Tinker 的灵活性,这些变得可行。
  • Redwood Research 利用 Tinker 对 Qwen3-32B 在长上下文 AI 控制任务上进行 RL 训练。研究员 Eric Gan 表示,如果没有 Tinker,他可能不会进行这个项目,他指出,多节点训练的扩展一直是一个障碍。

这些示例展示了 Tinker 的通用性 —— 它支持经典的有监督微调和高度实验性的强化学习(RL)pipeline,跨越了广泛的领域。

Tinker 正面向研究人员和开发人员进行内部测试,waitlist 也已开放申请。参与测试的 Anyscale 公司 CEO Robert Nishihara)表示,虽然像 VERL 和 SkyRL 这样的其他微调工具已经存在,但 Tinker 提供了卓越的抽象性与可调节性的结合(Tinker 抽象出了分布式训练的细节,但仍然让大家完全控制数据和算法)。

已经试用 Tinker 几周的加州大学伯克利分校计算机科学博士研究生 Tyler Griggs 则表示,许多强化学习微调服务都是面向企业的,不允许你替换训练逻辑。使用 Tinker,你可以忽略计算,只需对环境、算法和数据负责即可。





  • waitlist 链接:https://thinkingmachines.ai/tinker/
  • Tinker Cookbook 链接:http://github.com/thinking-machines-lab/tinker-cookbook

Thinking Machines 表示,Tinker 在起步阶段将免费使用。在接下来的几周内,他们将推出基于使用情况的定价模式。

Tinker 的发布给了广大开发者微调自己模型的机会,而这可能带来更多样化的产品创新。



AI 大牛 Karpathy 评价说,「我认为,社区还需要进一步探索 —— 在什么情况下、以什么方式进行微调才真正比直接用『大型模型加提示』更合适。 从我目前看到的一些迹象来看,微调的作用其实并不是为了给大语言模型『加风格』或『个性化』,而是为了收窄模型的任务范围,尤其是在你拥有大量训练样本的时候。 一个极端的例子就是各种分类器,比如垃圾邮件过滤器、内容过滤器等 —— 这些都是范围极窄的模型。当然,微调的应用范围应该远不止于此。但相比于为大模型设计一个复杂的 few-shot 提示,直接微调一个更小、专门针对某个细分任务的模型,往往效果更好、速度也更快。

现在,大语言模型在实际生产中的应用越来越多是通过大型管线(pipeline)来实现的,也就是多个模型以有向无环图(DAG)或流程(flow)的方式协同工作。在这些系统里,有的部分用提示就能很好地完成任务,但有相当多的环节其实更适合通过微调来实现。」

Murati 表示,Thinking Machines 实验室希望揭开调整世界上最强大的人工智能模型所涉及工作的神秘面纱,让更多人能够探索人工智能的极限。她说:「我们正在让原本只有前沿团队具备的能力惠及所有人,这完全是改变游戏规则的。外面有大量聪明人,我们需要尽可能多的聪明人来进行前沿人工智能研究。」

该公司开放大模型微调流程的计划也体现了其对开放的承诺。Murati 还表示,她希望Tinker 将有助于扭转商业人工智能模型日益封闭的趋势。「如果你看看前沿实验室正在做的事情,以及学术界其他聪明人士在做的事情,它们之间的分歧越来越大,」她说。「如果你想想这些强大的系统将如何进入世界,这种情况可不太妙。」

https://thinkingmachines.ai/tinker/

https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/

https://venturebeat.com/ai/thinking-machines-first-official-product-is-here-meet-tinker-an-api-for

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

知法而形
2026-03-26 17:28:20
“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

“一降价还不是像狗一样跑过来!”罗技广告辱骂用户遭全网声讨…

柴狗夫斯基
2026-03-26 21:06:15
继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

继张雪峰之后,中医大师黄贵华被曝心梗去世,社交账号已变黑白

180视角
2026-03-26 11:52:12
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
人民银行:个贷新规落地,8月1日起施行,这三点借款人必须要知道

人民银行:个贷新规落地,8月1日起施行,这三点借款人必须要知道

一口老汤
2026-03-26 16:11:39
张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给张雪峰泼脏水,曝两人分手原因

180视角
2026-03-26 14:51:03
阿根廷世界杯名单已定20人!16大名将争最后6席 21岁加纳乔已出局

阿根廷世界杯名单已定20人!16大名将争最后6席 21岁加纳乔已出局

我爱英超
2026-03-26 19:07:13
周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

周杰伦继续割韭菜!网友一针见血:他唯一和华流关系最大的是割大陆韭菜

爆角追踪
2026-03-26 08:56:24
一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

一觉醒来,大量美军逃匿!伊朗全力搜捕!美议长透露重要信息

安安说
2026-03-26 13:00:12
曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

曾在恒大赚上亿!40岁郜林吐槽:在中乙当老总1个月工资不够油费

我爱英超
2026-03-26 20:47:14
女孩昏迷3周,脑子里却过了7年!她在梦中养大俩娃,醒来崩溃了:娃全没了...

女孩昏迷3周,脑子里却过了7年!她在梦中养大俩娃,醒来崩溃了:娃全没了...

英国那些事儿
2026-03-25 23:12:57
我国航空发动机领域著名专家严红病逝,年仅57岁

我国航空发动机领域著名专家严红病逝,年仅57岁

澎湃新闻
2026-03-26 11:40:26
网易号平台每日辟谣公告(三月二十六日)

网易号平台每日辟谣公告(三月二十六日)

网易号官方平台
2026-03-26 18:04:59
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
清纯得不像动作片女一号!

清纯得不像动作片女一号!

贵圈真乱
2026-03-26 11:33:33
特朗普再次表态:伊朗正与美方对话

特朗普再次表态:伊朗正与美方对话

财联社
2026-03-26 23:10:07
塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

塞尔维亚购买中国超音速导弹?国防部:正常军贸合作,不针对第三方

澎湃新闻
2026-03-26 17:24:26
伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

伊朗女药剂师拒绝撤离,空袭第10天在“精准”打击下被“误杀”

网易新闻出品
2026-03-26 11:16:13
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

博主被陌生网友辱骂3个月,默默观察其2年半,终于找到机会碰面了

离离言几许
2026-03-26 15:01:41
2026-03-27 01:23:00
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
12608文章数 142594关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

游戏
健康
亲子
艺术
公开课

PS1大IP游戏藏私货!成人手绘与盗版马里奥ROM塞满

转头就晕的耳石症,能开车上班吗?

亲子要闻

看看把孩子吓得哈哈哈

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版