网易首页 > 网易号 > 正文 申请入驻

TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超o1-preview

0
分享至

近日,中国电信人工智能研究院(TeleAI)“复杂推理大模型” TeleAI-t1-preview 正式发布,即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在数学推导、逻辑推理等复杂问题的准确性。

早在 1500 多年前,数学家祖冲之就曾在《辩戴法兴难新历》中指出,复杂事物的运行规律并非超自然现象,而是可以通过实际观测、数据推理而严谨求得。

数学知识的系统性和相互关联性,以及通过推理找到问题根源,是几千年来数学发展的母题。大模型的创新也正在不断与之靠近,用严密的思维链路,摆脱幻觉的怪圈。

评分超 o1-preview,达竞赛级数学表现

在美国数学竞赛 AIME 2024 、MATH500 两项权威数学基准评测中,TeleAI-t1-preview 分别以 60 和 93.8 分的成绩,大幅超越 OpenAI o1-preview、GPT-4o 等标杆模型。在研究生级别问答测试 GPQA Diamond 中,TeleAI-t1-preview 得分超过 GPT-4o,并比肩 Claude 3.5 Sonnet 的性能水准。

在下面这道 2024 年全国高中数学竞赛试题中,TeleAI-t1-preview 面对三角函数的复杂等式关系,通过多次假设尝试和思路纠偏,将原先的复杂等式抽丝剥茧,转化成简化的方程式,并经过逻辑清晰的公式推导后,最终给出了正确答案。

可以看出,TeleAI-t1-preview 在回答问题时并非只是给出结论,而是把思考和分析过程也完整呈现。这样可以帮助学生在做题过程中深入理解题目背后的逻辑和思考方法。

例如,在一道概率论考研试题中,题目涉及“泊松分布”概念。TeleAI-t1-preview 首先对这个概念进行了介绍和解读,然后给出解题思路和最终答案。

我国古代数学发展历史悠久,流传众多经典著作,但因其文言文表述,通常让人望而却步。不少大模型也会陷入沉思,无法作答。

将《九章算术》中的一道题目给到 TeleAI-t1-preview 后,它先针对文言文进行了理解和简化,转换成现代汉语,随之给出数学推导和答案。

在这个过程中,TeleAI-t1-preview 还将形象思维与抽象思维结合,对所涉及的场景进行具象化思考,辅助理解题目。同时,它还严谨地进行了古今单位换算,顺利过关。

如果说数学竞赛和考研题目还能符合人的正常思维方式,那么面对极度“烧脑”的策略推理问题时,以往的大模型往往会答非所问,被绕到“陷阱”中去。

以下面这道问题为例,光是理解游戏规则就已经很难了,更不用说从何下手给出答案了。然而,TeleAI-t1-preview 却“眼都没眨一下”就迅速破题,大胆假设,严谨分析。

TeleAI-t1-preview 在解题过程中,列出了对游戏规则的理解、场景道具分析、优劣势分析,并给出解题策略、验证有效性。不仅如此,它还考虑到了可能出现的特殊情况。

创新“训练”策略,保障“推理”有效

人类通向 AGI 的旅程正在经历一场范式的迭代。当已有的高质量数据正像化石能源一样日渐枯竭时,当人们依然在为大模型的“黑盒”特性而担忧时,复杂推理大模型的重要性日益显著。

针对 TeleAI-t1-preview 训练的不同阶段,TeleAI 引入了创新的训练策略,从而保障思考推理过程准确有效。

数据准备阶段:

收集、构建了一个以数学为核心、多学科为补充的高质量推理数据集,确保模型能够适应不同类型的推理任务。

Judge Model(评估模型):

训练了一个 Judge Model 专门用于分析和评估模型长思考链路的正确性,为模型的反思和错误修正提供指导。

SFT(监督微调)阶段:

用 MCTS(蒙特卡洛树搜索)构造高质量长推理数据,结合每个步骤的准确率和解决方案长度来选择最优的完整路径,在保证推理答案准确性的同时有效拉长思考链路以获得更细粒度的推理过程。同时使用 Judge Model 对推理过程中正确率较低的路径进行分析,引导模型对错误的推理步骤进行反思和修正,从而构造出高质量的思维链数据进行 SFT 训练。

强化学习阶段:

额外构造了 Rule-based Reward Model(基于规则的奖励模型),以提供足够准确的奖励信号,通过在线强化学习算法进一步提升模型的逻辑推理能力。

直观呈现的思维链将帮助人们更清晰地追踪推理过程,方便验证推理正确性,从而使模型的可解释性和透明度大大提升。

TeleAI 将持续在推理模型领域研究探索,让人工智能基于人类的“已知”,推导出期盼得到的“未知”。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

突发心梗,吃丹参滴丸有用吗?医生:这2种药才是心梗急救药!

健康科普365
2026-03-26 09:57:24
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

特朗普坚称正在与伊朗谈判:伊朗不敢认,其领导人“害怕被自己人干掉,也害怕被美国干掉”,美国在伊朗赢麻了

极目新闻
2026-03-26 08:57:45
张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

张雪峰的财产几个亿,竟然没买车,天天吃外卖,生活简朴到极致

魔都姐姐杂谈
2026-03-25 15:59:12
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

张雪峰奶奶近况令人担忧,4年内子孙相继离世,不设追思会瞒着她

古希腊掌管松饼的神
2026-03-26 11:29:25
伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

伊朗两名高级将领殒命,巴盖里家族再添亡魂,强硬派折损惨重

老马拉车莫少装
2026-03-26 00:02:39
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

于东来:30岁开始吃药,CT拍了上百次,身体出什么问题都不足为奇,哪天说没就没了

每日经济新闻
2026-03-25 23:58:31
热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

热搜上63万人破防的“奥特曼蛋糕”事件:有毒父母,逼疯中国孩子

小椰子专栏
2026-03-25 13:00:11
中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

中国、俄罗斯、伊朗等123票赞成,美国、以色列等3票反对,联合国认定:最严重反人类罪!英法德日等52国投弃权票

每日经济新闻
2026-03-26 13:25:09
我想过Sora会死,但没想到这么快。

我想过Sora会死,但没想到这么快。

差评XPIN
2026-03-26 00:04:51
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

4个LV包都是假的!女子送检后傻眼:全在专柜买的啊,最新回应

半岛晨报
2026-03-25 15:30:03
女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

女子空置房2个月用水1961吨,费用近1.2万元,“水管封死水表仍走字”,水务公司拒回应

观威海
2026-03-26 10:39:05
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

比国足还惨!意大利已12年未踢世界杯,仅剩33岁维拉蒂踢过世界杯

小金体坛大视野
2026-03-26 11:16:02
张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

张雪峰员工:办公室已拆掉红色锦旗,员工彻夜难眠,家长电话打爆

每日人物
2026-03-26 13:34:51
2026-03-26 14:28:49
量子位 incentive-icons
量子位
追踪人工智能动态
12346文章数 176424关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

本地
家居
艺术
游戏
军事航空

本地新闻

春日吃花第三站——广东

家居要闻

傍海而居 静观蝴蝶海

艺术要闻

哪一座桥不是风景?

IGN认为Xbox机会来了!新主机要转守为攻 重塑自我

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版