网易首页 > 网易号 > 正文 申请入驻

开发者狂喜:Thinking Machines发布首款产品Tinker,后训练麻烦全给包了

0
分享至

来源:市场资讯

(来源:机器之心)

对于大模型开发者 / 研究者来说,今天是重要的一天。

因为刚刚,OpenAI 前 CTO Mira Murati 创办的 Thinking Machines 推出了首款产品 ——Tinker。

简单来说,Tinker 是一个 API,用于帮开发者 / 研究人员微调语言模型。重要的是,在此过程中,你只需要专注于训练数据和算法,而你不擅长的关于 Infra 的部分 —— 调度、调优、资源管理和 Infra 可靠性 —— 统统由 Tinker 来搞定,这将大大简化 LLM 的后训练过程。

目前,Tinker 支持的模型如下所示,Qwen-235B-A22B 等前沿模型都包含在内。该公司表示,从一个小模型切换到一个大模型,就像在你的 Python 代码中更改一个字符串一样简单。Tinker 的发布是 Thinking Machines 使命的表现,即让更多人能够研究尖端模型并根据自己的需求进行定制。

Tinker 使用 LoRA 技术,以便在多个训练运行之间共享同一计算资源池,从而降低成本。 在前几天的一篇博客中,Thinking Machines 专门写了一篇博客介绍他们在 LoRA 方面的研究进展。

Tinker 的 API 为开发者提供了诸如 forward_backward 和 sample 之类的底层原语,这些原语可用于表达大多数常见的后训练方法。即便如此,要取得好的结果仍需要处理好许多细节。这就是为什么他们要发布一个开源库 ——Tinker Cookbook,其中包含基于 Tinker API 运行的后训练方法的现代实现。

伊利诺伊大学香槟分校博士生金博文表示,Tinker 的 Cookbook 中收录了他们的训练工具 ——Search-R1,这个工具可以「边推理边搜索」,感兴趣的读者可以参见《UIUC 联手谷歌发布 Search-R1:大模型学会「边想边查」,推理、搜索无缝切换》。

目前,普林斯顿大学、斯坦福大学、加州大学伯克利分校和 Redwood Research 的团队已经在使用 Tinker:

  • 普林斯顿大学 Goedel 团队训练了数学定理证明器。使用 Tinker 和 LoRA,仅用 20% 的数据,他们的模型性能与全参数 SFT 模型(如 Goedel-Prover V2)相当。他们在 Tinker 上训练的模型在 MiniF2F 基准测试中达到了 88.1% 的 pass@32,通过自我校正后达到了 90.4%,超过了更大的封闭模型。

  • 斯坦福大学的 Rotskoff 化学小组对一个模型进行了微调,以完成化学推理任务。在 LLaMA 70B 之上应用强化学习后,IUPAC 到公式的转换准确率从 15% 提升至 50%,研究人员称这一提升是以前在没有重大基础设施支持的情况下难以实现的。

  • 加州大学伯克利分校的 SkyRL 小组在一个定制的异步 off-policy 强化学习训练 loop 上进行了实验,该 loop 涉及多智能体和多轮工具使用。得益于 Tinker 的灵活性,这些变得可行。

  • Redwood Research 利用 Tinker 对 Qwen3-32B 在长上下文 AI 控制任务上进行 RL 训练。研究员 Eric Gan 表示,如果没有 Tinker,他可能不会进行这个项目,他指出,多节点训练的扩展一直是一个障碍。

这些示例展示了 Tinker 的通用性 —— 它支持经典的有监督微调和高度实验性的强化学习(RL)pipeline,跨越了广泛的领域。

Tinker 正面向研究人员和开发人员进行内部测试,waitlist 也已开放申请。参与测试的 Anyscale 公司 CEO Robert Nishihara)表示,虽然像 VERL 和 SkyRL 这样的其他微调工具已经存在,但 Tinker 提供了卓越的抽象性与可调节性的结合(Tinker 抽象出了分布式训练的细节,但仍然让大家完全控制数据和算法)。

已经试用 Tinker 几周的加州大学伯克利分校计算机科学博士研究生 Tyler Griggs 则表示,许多强化学习微调服务都是面向企业的,不允许你替换训练逻辑。使用 Tinker,你可以忽略计算,只需对环境、算法和数据负责即可。

  • waitlist 链接:https://thinkingmachines.ai/tinker/

  • Tinker Cookbook 链接:http://github.com/thinking-machines-lab/tinker-cookbook

Thinking Machines 表示,Tinker 在起步阶段将免费使用。在接下来的几周内,他们将推出基于使用情况的定价模式。

Tinker 的发布给了广大开发者微调自己模型的机会,而这可能带来更多样化的产品创新。

AI 大牛 Karpathy 评价说,「我认为,社区还需要进一步探索 —— 在什么情况下、以什么方式进行微调才真正比直接用『大型模型加提示』更合适。 从我目前看到的一些迹象来看,微调的作用其实并不是为了给大语言模型『加风格』或『个性化』,而是为了收窄模型的任务范围,尤其是在你拥有大量训练样本的时候。 一个极端的例子就是各种分类器,比如垃圾邮件过滤器、内容过滤器等 —— 这些都是范围极窄的模型。当然,微调的应用范围应该远不止于此。但相比于为大模型设计一个复杂的 few-shot 提示,直接微调一个更小、专门针对某个细分任务的模型,往往效果更好、速度也更快。

现在,大语言模型在实际生产中的应用越来越多是通过大型管线(pipeline)来实现的,也就是多个模型以有向无环图(DAG)或流程(flow)的方式协同工作。在这些系统里,有的部分用提示就能很好地完成任务,但有相当多的环节其实更适合通过微调来实现。」

Murati 表示,Thinking Machines 实验室希望揭开调整世界上最强大的人工智能模型所涉及工作的神秘面纱,让更多人能够探索人工智能的极限。她说:「我们正在让原本只有前沿团队具备的能力惠及所有人,这完全是改变游戏规则的。外面有大量聪明人,我们需要尽可能多的聪明人来进行前沿人工智能研究。」

该公司开放大模型微调流程的计划也体现了其对开放的承诺。Murati 还表示,她希望 Tinker 将有助于扭转商业人工智能模型日益封闭的趋势。「如果你看看前沿实验室正在做的事情,以及学术界其他聪明人士在做的事情,它们之间的分歧越来越大,」她说。「如果你想想这些强大的系统将如何进入世界,这种情况可不太妙。」

https://thinkingmachines.ai/tinker/

https://www.wired.com/story/thinking-machines-lab-first-product-fine-tune/

https://venturebeat.com/ai/thinking-machines-first-official-product-is-here-meet-tinker-an-api-for

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

夜深爱杂谈
2026-04-16 17:20:20
恒大负债2.4万亿,许家印只转移走了500多亿,剩下的钱去哪里了?

恒大负债2.4万亿,许家印只转移走了500多亿,剩下的钱去哪里了?

林小明商业评说
2026-04-16 14:57:19
担心的事还是发生了,桑切斯对以发难不到24小时,西班牙传来噩耗

担心的事还是发生了,桑切斯对以发难不到24小时,西班牙传来噩耗

古史青云啊
2026-04-16 09:42:54
巴基斯坦代表抵达,伊朗“压箱底”战机升空迎接!穆尼尔穿梭斡旋背负双重使命

巴基斯坦代表抵达,伊朗“压箱底”战机升空迎接!穆尼尔穿梭斡旋背负双重使命

红星新闻
2026-04-16 16:00:17
上海江苏跨省“血贩链条”曝光:400毫升无偿献血证被中介层层倒卖至2000元,献血者仅拿到400元营养费,中介称带病服药也能献血

上海江苏跨省“血贩链条”曝光:400毫升无偿献血证被中介层层倒卖至2000元,献血者仅拿到400元营养费,中介称带病服药也能献血

大风新闻
2026-04-16 18:35:07
吴昕郑凯恋情曝光,两人疑已相恋7年,女方曾谈婚恋观:恋爱可以谈,结婚得慎重

吴昕郑凯恋情曝光,两人疑已相恋7年,女方曾谈婚恋观:恋爱可以谈,结婚得慎重

鲁中晨报
2026-04-16 18:08:04
王嘉尔在多伦多开演唱会,发现观众席挥舞中国国旗,立即伸手接过跑回舞台高举,全场欢呼沸腾

王嘉尔在多伦多开演唱会,发现观众席挥舞中国国旗,立即伸手接过跑回舞台高举,全场欢呼沸腾

观威海
2026-04-16 10:20:05
世锦赛签表分析:赵心童上上签丁俊晖下签,中国军团保底2人16强

世锦赛签表分析:赵心童上上签丁俊晖下签,中国军团保底2人16强

排球黄金眼
2026-04-16 16:59:33
可能造成雷电灾害事故!刚刚,上海气象台紧急提醒~上海人赶紧回家

可能造成雷电灾害事故!刚刚,上海气象台紧急提醒~上海人赶紧回家

鲁中晨报
2026-04-16 17:44:08
“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

“见过最廉价的兜底”,一份山姆烧鸡,让低认知母子沦为全网笑柄

妍妍教育日记
2026-04-15 09:30:09
男子三次骚扰火锅店女老板,直接被扇飞眼镜

男子三次骚扰火锅店女老板,直接被扇飞眼镜

青木说
2026-04-16 17:35:18
复活节的鲜血与教皇的沉默:为何对川普愤怒,却对屠杀失声?

复活节的鲜血与教皇的沉默:为何对川普愤怒,却对屠杀失声?

斌闻天下
2026-04-16 07:25:03
最新:同济大学已成立调查组

最新:同济大学已成立调查组

南方都市报
2026-04-16 16:57:13
潘石屹:我的反思

潘石屹:我的反思

互联网大观
2026-04-16 13:08:52
4年战争,乌克兰杀疯了!海陆空无人武器全面进化,打到莫斯科已成现实

4年战争,乌克兰杀疯了!海陆空无人武器全面进化,打到莫斯科已成现实

网易新闻出品
2026-04-16 13:47:19
不再是120/80,“新血压标准”已公布,别再自己吓自己!

不再是120/80,“新血压标准”已公布,别再自己吓自己!

芹姐说生活
2026-04-14 23:27:03
争议!张雪又乱说话了 反转后自己删除视频 网友:老老实实造车吧

争议!张雪又乱说话了 反转后自己删除视频 网友:老老实实造车吧

念洲
2026-04-16 07:35:45
美国副总统万斯:我为美国做得最自豪的一件事就是告诉欧洲,你们想军援乌克兰就自己买,美国不会再买武器送往乌克兰了

美国副总统万斯:我为美国做得最自豪的一件事就是告诉欧洲,你们想军援乌克兰就自己买,美国不会再买武器送往乌克兰了

潇湘晨报
2026-04-16 10:56:15
家长晒“10岁女儿臭脚”,网友:父母童年凄惨,女儿也会养得很差

家长晒“10岁女儿臭脚”,网友:父母童年凄惨,女儿也会养得很差

妍妍教育日记
2026-04-16 08:00:07
男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

男子因噪音过敏住5年隔音舱:自己设计,已接上百个订单,帮噪音受困者找回睡眠

半岛官网
2026-04-16 11:20:50
2026-04-16 19:36:49
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
2890960文章数 6662关注度
往期回顾 全部

科技要闻

赵明:智驾之战,看谁在大模型上更高效

头条要闻

知名女主持恋情曝光已有7年 男方与郑凯常被网友混淆

头条要闻

知名女主持恋情曝光已有7年 男方与郑凯常被网友混淆

体育要闻

很快,亚洲篮球要有自己的NCAA了?

娱乐要闻

丝芭传媒创始人王子杰去世,享年63岁

财经要闻

一季度GDP,5.0%!

汽车要闻

空间大五个乘客都满意?体验岚图泰山X8

态度原创

手机
艺术
本地
游戏
公开课

手机要闻

迭代旗舰配置两极分化:Pro Max版独享满血2nm芯片 标准版处理器降配

艺术要闻

张大千『 花菓荟萃册』

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

卡普空是目前最夯游戏公司吗?也许只有一家对手

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版