网易首页 > 网易号 > 正文 申请入驻

AI“以小博大”新标杆:三星开源TRM模型,挑战谷歌与OpenAI

0
分享至

IT之家 10 月 10 日消息,科技媒体 venturebeat 于 10 月 8 日发布博文,报道称三星高级 AI 研究院发布了名为微型递归模型(TRM)的开源 AI 模型,仅包含 700 万个参数,不过在数独、迷宫等特定的结构化推理任务上,表现媲美甚至超越了参数量为其 10000 倍的谷歌 Gemini 2.5 Pro 等顶尖大模型。

该 AI 模型由三星高级 AI 研究院(SAIT)高级 AI 研究员 Alexia Jolicoeur-Martineau 发布,成为 AI 领域“小模型”对抗“大模型”的趋势的重磅新案例。

该模型仅有 700 万参数,设计理念是极致简化复杂性。在架构方面,摒弃了分层推理模型(HRM)所依赖的双网络协作架构,转而采用一个仅有两层的单一模型。

其核心机制在于“递归推理”:模型对自身输出的预测进行反复迭代和修正,每一步都纠正前一步的潜在错误,直至答案收敛稳定。


TRM 通过这种方式,用迭代计算的深度模拟了庞大网络的复杂推理过程,实现了“以递归替代规模”的目标,从而在不牺牲性能的前提下,大幅降低了计算和内存成本。

尽管模型极小,TRM 在多个基准测试中展现了“以小博大”的惊人实力:

  • 在 Sudoku-Extreme(极限数独)测试中,其准确率达到 87.4%;
  • 在 Maze-Hard(困难迷宫)中达到 85%;
  • 在衡量抽象推理能力的 ARC-AGI 测试中准确率为 45%;
  • ARC-AGI-2 的准确率为 8%。

尽管 TRM 使用的参数不到 0.01%,但这些结果仍然超过或接近几种高端大型语言模型的性能,包括 DeepSeek R1 、 Gemini 2.5 Pro 和 o3-mini 。



然而,一个重要的前提是,TRM 是专门为解决结构化、可视化的网格类问题(如数独、迷宫和特定解谜任务)而设计的,并非通用的语言聊天模型,它擅长在有明确规则的封闭环境中进行逻辑推理,而非开放式的语言生成。

TRM 的成功源于其刻意追求的“少即是多”极简主义设计。研究发现,增加模型层数或大小反而会导致在小数据集上出现过拟合,性能下降。其精简的双层结构与递归深度相结合,实现了最佳效果。

TRM 的代码、训练脚本和数据集目前已在 GitHub 上根据 MIT 许可证完全开源,企业和研究人员均可免费使用、修改和部署,甚至用于商业应用。

IT之家附上参考地址

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

青岛农商行因拖欠500万元物业费被起诉 原董事长年薪曾达195.84万

林子说事
2026-03-26 13:57:35
生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

生育大局已定:如不出意外,2026年起中国人口将迎来3大变化

蜉蝣说
2026-03-17 15:58:31
勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

勇士双杀篮网锁定附加赛,桑托斯生涯之夜,库明加换波神真赚了?

司峰阿道
2026-03-26 14:45:09
张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

张雪峰心源性猝死多严重,那个最快护士就有多“牛逼”(张雪峰的惯用词)

天山箴言录
2026-03-26 16:45:50
中国平安2025年扣非净利润显著增长22.5% 现金分红489亿元连续14年上涨

中国平安2025年扣非净利润显著增长22.5% 现金分红489亿元连续14年上涨

财联社
2026-03-26 18:05:05
兄弟俩同出宁海路,一个资产清零,一个负债率28%稳坐前500强

兄弟俩同出宁海路,一个资产清零,一个负债率28%稳坐前500强

花小猫的美食日常
2026-03-26 07:41:46
特斯拉 Model 3 标准版要来了!配置太离谱

特斯拉 Model 3 标准版要来了!配置太离谱

花果科技
2026-03-25 16:23:07
“公路闪电”终于换代,但我觉得不如丰田

“公路闪电”终于换代,但我觉得不如丰田

差评XPIN
2026-03-26 09:57:20
固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

固态电池神话破灭?比亚迪三款千公里续航实车已杀到!

芭比衣橱
2026-03-26 09:52:41
突然崩了!很多人以为手机坏了!官方紧急回应

突然崩了!很多人以为手机坏了!官方紧急回应

蓬勃新闻
2026-03-25 20:00:43
每吃一次,大脑萎缩就快一步?劝告:这4物是老年痴呆催化剂

每吃一次,大脑萎缩就快一步?劝告:这4物是老年痴呆催化剂

坠入二次元的海洋
2026-03-26 18:16:38
重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

澜归序
2026-03-26 06:02:38
现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

现实中的大龄剩女最后妥协了吗?网友爆笑评论,真是一言难尽。

侃神评故事
2026-03-25 11:30:09
真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

真是变态准啊!3名本土合砍62分,三分22中16,付政浩:CBA独一档

金山话体育
2026-03-26 08:29:20
美国必胜?哈佛专家:不要高估中国,美国已经控制了中国的命脉

美国必胜?哈佛专家:不要高估中国,美国已经控制了中国的命脉

探史
2026-03-25 08:59:36
伊朗武装部队向以色列发射新一轮导弹

伊朗武装部队向以色列发射新一轮导弹

财联社
2026-03-26 19:42:42
美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

美股三大期指短线走低,纳指期货、标普500指数期货均跌超1%

每日经济新闻
2026-03-26 20:18:05
伊朗伊斯兰革命卫队海军指挥官身亡

伊朗伊斯兰革命卫队海军指挥官身亡

财联社
2026-03-26 16:23:15
兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

兄弟俩联手创办苏宁,如今弟弟千亿资产清零,哥哥却走上另一条路

鲸探所长
2026-03-24 14:38:04
人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

人有没有心梗,散步就知道?得心梗的人,散步常有这2个表现

健康科普365
2025-12-18 10:01:25
2026-03-26 21:52:50
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336122文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

房产
教育
手机
数码
公开课

房产要闻

突发,三亚又有大批征迁补偿方案出炉!

教育要闻

江苏省教育厅公布全省中小学生竞赛活动名单

手机要闻

15年经典落幕!MIUI正式停更,澎湃OS全面接棒

数码要闻

iQOO Z11x发布:LCD党的护眼神机 1499元起

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版