南京大学全新AI训练法让机器精准预测数字|算法|序列|实验|ai训练法

分享至

这项由南京大学人工智能学院的陈明、汤胜、谭荣熙等研究人员领导的研究团队，联合香港中文大学（深圳）数据科学学院的李梓牛、香港中文大学计算机科学与工程系的陈嘉成，以及南京大学软件新技术国家重点实验室的薛柯和钱超，共同开展了一项突破性研究。这项研究于2025年12月发表在机器学习领域的顶级学术会议上，论文编号为arXiv:2512.06533v1，有兴趣深入了解的读者可以通过这个编号查询完整论文。

当我们用手机计算器计算复杂数学题时，总是期望得到精确答案。但现实中，让人工智能准确预测数字却一直是个棘手问题。就像让一个人通过观察云朵形状来预测明天的具体气温一样困难。传统的AI在处理数字预测时，往往表现得像个粗心的学生，虽然大方向对了，但具体数值经常有偏差。

这个问题的根源在于，传统AI把数字拆解成一个个独立的"词汇"来处理，就像把"1234"这个数字分解成"1"、"2"、"3"、"4"四个独立符号，然后逐个猜测。这种方法的问题在于，AI在猜测每个符号时，完全不知道整个数字应该是多少，就像盲人摸象一样，每次只能感受到局部信息，无法把握全局。

研究团队发现，关键问题在于现有训练方法只关注局部的"词汇"准确性，而忽略了数字作为整体的准确性。这就好比教孩子写作文时，只纠正每个字的笔画是否正确，却不管整篇文章是否通顺有意义。陈明团队提出的解决方案叫做"GenRe2"（Generative Reinforced Regressor，生成式强化回归器），它采用了一种全新的训练思路：让AI从整体数字的准确性出发来学习。

这种方法的核心思想类似于教学生解数学题的过程。传统方法像是只看学生计算过程中每一步的书写是否工整，而不管最终答案对错。而新方法则是看最终答案是否正确，然后根据答案的准确程度来调整整个解题过程。这样一来，AI不仅学会了如何生成数字序列，更重要的是学会了如何生成正确的数字序列。

研究团队在两个完全不同的领域验证了这种方法的有效性。第一个测试场景是表格数据回归，涉及100个不同的数据集，就像让AI预测从房价到股票价格等各种数值。第二个测试场景是代码性能预测，让AI通过阅读程序代码来预测程序运行时的内存使用量和执行速度。

在表格数据测试中，新方法表现出色。传统方法的预测准确率通常在60%左右徘徊，而GenRe2方法将准确率提升到了64-65%。虽然看起来提升幅度不大，但在人工智能领域，这样的改进已经相当显著。就像百米赛跑中提高0.1秒一样，看似微小却代表了重大突破。

更令人印象深刻的是代码性能预测的结果。在这个更加复杂的任务中，传统方法几乎完全失效，预测准确率接近零，甚至出现负值。而GenRe2方法不仅成功完成了任务，还达到了8.3%的正向准确率。这就像在一个几乎不可能完成的挑战中，新方法不仅完成了任务，还超出了基本要求。

为了深入理解这种方法的工作原理，研究团队采用了强化学习的技术框架。强化学习就像训练宠物一样，通过奖励正确行为、惩罚错误行为来引导学习。在GenRe2中，当AI生成的数字序列越接近正确答案时，就会获得越高的"奖励分数"。这种反馈机制让AI学会从全局角度优化自己的预测能力。

具体来说，研究团队将数字生成过程建模为一个马尔可夫决策过程。这个名词听起来很复杂，但实际上就像下棋一样。每一步棋（生成每个数字符号）都会影响整局棋的走势（最终数字的准确性）。AI需要学会不仅要考虑当前这一步怎么走，更要考虑这一步对最终结果的影响。

研究团队发现，传统的逐词训练方法存在一个根本缺陷：它只能看到树木，看不到森林。比如在生成数字"123"时，传统方法会分别优化"1"、"2"、"3"这三个符号的生成概率，但完全不考虑"123"这个完整数字与目标数字的差距。而GenRe2方法会等到完整生成"123"之后，再计算这个数字与正确答案的差距，并据此调整整个生成过程。

为了验证方法的稳定性，研究团队还测试了不同数字表示方法的影响。他们尝试了类似科学计数法的表示方式，也测试了类似计算机内部浮点数的表示方式。无论采用哪种表示方法，GenRe2都表现出了显著的改进效果，证明了这种方法的普适性和鲁棒性。

特别值得关注的是，研究团队深入分析了为什么强化学习在这个任务中如此有效。他们发现，虽然经过强化学习训练的模型在生成多样性方面略有降低，但在生成质量方面有了显著提升。这就像一个射箭手，虽然射出的箭数量减少了，但命中靶心的概率大大增加了。

在具体的技术实现上，研究团队采用了两种先进的强化学习算法：ReMax和GRPO。ReMax算法的特点是使用贪心策略作为基准，就像在考试中把标准答案作为参照来评估学生答案的质量。GRPO算法则采用了群体标准化的方法，类似于按全班平均分来评估每个学生的相对表现。

实验结果显示，ReMax算法在大多数情况下表现更稳定，而GRPO算法虽然在某些特定设置下表现优异，但对参数设置较为敏感。研究团队通过大量消融实验发现，GRPO的不稳定性主要来源于其奖励标准化机制，这个机制在某些情况下会导致梯度估计偏差。

为了更好地理解模型的学习过程，研究团队还分析了训练动态。他们发现，GenRe2在训练过程中表现出了非常健康的学习曲线。奖励分数稳步提升，最终趋于稳定，这表明模型确实学到了有用的知识，而不是简单地记住了训练数据。

在代码性能预测的实验中，研究团队使用了两个具有挑战性的数据集。一个是APPS Leetcode数据集，主要用于预测Python代码的内存使用峰值。另一个是Triton Kernel Latency数据集，用于预测GPU内核程序的执行延迟。这两个任务对AI来说都极具挑战性，因为它们需要深度理解代码语义和执行逻辑。

令人惊喜的是，GenRe2不仅在这些困难任务中取得了成功，还表现出了良好的泛化能力。与传统方法相比，它避免了灾难性遗忘的问题。灾难性遗忘就像一个人学会新技能后忘记了之前掌握的技能，而GenRe2能够在学习新任务的同时保持对原有知识的掌握。

研究团队还进行了深度的理论分析。他们发现，强化学习之所以在这个任务中如此有效，关键在于它提供了序列级别的监督信号。传统的交叉熵损失只能提供符号级别的反馈，就像只能告诉学生每个字写得对不对，而无法评判整篇作文的质量。而强化学习提供的奖励信号是基于整个数字序列的准确性，这样AI就能从全局角度学习和优化。

为了验证方法的实用性，研究团队还测试了不同采样策略的效果。他们发现，虽然GenRe2训练出的模型在单次采样时表现更好，但在多次采样时的最优性能可能略逊于基础模型。这个发现很有趣，就像一个训练有素的射手，虽然第一箭命中率很高，但如果让他连续射多箭，最好成绩可能不如一个更具随机性的射手。

这个现象背后的原因在于，强化学习训练会让模型的输出分布变得更加集中，减少了探索空间。虽然这提高了平均性能，但也限制了模型发现极优解的可能性。研究团队认为这是一个值得深入研究的trade-off，并提出了一些可能的改进方向。

在数字表示方法的研究中，团队发现了一个有趣的现象。当使用标准化表示法时，GenRe2的两种算法变体都表现良好。但当使用科学记数法或IEEE浮点表示法时，GRPO的性能会显著下降，而ReMax仍然保持稳定。这进一步证明了ReMax算法的鲁棒性优势。

研究团队还特别关注了奖励函数的设计。他们采用了负均方误差作为奖励信号，这意味着预测越准确，奖励越高。为了处理不同数据集之间的尺度差异，他们还采用了分位数标准化等技术，确保奖励信号在不同任务间具有可比性。

通过大量实验，研究团队证明了GenRe2方法的有效性不仅体现在最终的预测准确率上，还体现在训练效率和稳定性方面。模型能够快速收敛到最优解，并且在训练过程中表现出良好的稳定性，不会出现性能大幅波动的情况。

这项研究的意义远超数字预测本身。它为序列生成任务提供了一种全新的训练范式，有望在机器翻译、文本生成、语音合成等多个领域发挥作用。任何需要生成连续、有意义序列的AI任务都可能从这种方法中受益。

当然，这种方法也存在一些限制和挑战。强化学习的训练过程通常比传统监督学习更加复杂，需要更多的计算资源和调参经验。此外，奖励函数的设计也需要根据具体任务进行精心调整，这增加了方法应用的门槛。

尽管如此，GenRe2代表了一个重要的研究方向。它展示了如何将强化学习的全局优化能力与序列生成的精确性需求相结合，为解决复杂的数值预测问题提供了新的思路。随着计算能力的不断提升和算法的进一步优化，这种方法有望在更多实际应用中发挥重要作用。

说到底，这项研究最重要的贡献在于它改变了我们思考AI数字预测问题的方式。从关注局部准确性转向关注全局准确性，从优化单个符号转向优化整个数字序列，这种思维转变为整个领域开辟了新的可能性。就像从用放大镜看细节转向用望远镜看全局一样，这种视角的转换带来了性能的质的飞跃。

对于普通人来说，这项研究的直接影响可能还需要一些时间才能显现。但可以预见的是，随着这种技术的成熟和普及，我们将看到更准确的股价预测、更精确的天气预报、更可靠的风险评估，以及更智能的个人助手。在一个越来越依赖数字化决策的时代，任何能够提高数值预测准确性的技术突破都具有巨大的潜在价值。

研究团队也坦诚地指出了未来的研究方向。他们提出需要进一步研究如何在保持预测准确性的同时维持模型的探索能力，如何设计更好的奖励函数来指导学习过程，以及如何将这种方法扩展到更大规模的实际应用中。这些挑战为后续研究提供了明确的方向，也为这个领域的持续发展奠定了基础。

有兴趣深入了解这项研究细节的读者，可以通过论文编号arXiv:2512.06533v1查询完整的研究报告，其中包含了详细的技术细节、实验数据和理论分析。

Q&A

Q1：GenRe2方法与传统AI数字预测方法有什么本质区别？

A：传统方法像拼图一样逐个处理数字符号，只关心每个符号是否正确，而GenRe2方法关注完整数字的整体准确性。就像传统方法只看学生解题过程的书写工整度，而GenRe2看重最终答案是否正确，然后根据答案准确性来调整整个解题过程。

Q2：为什么强化学习能让AI的数字预测变得更准确？

A：强化学习提供了序列级别的反馈机制，让AI能从全局角度学习。传统训练只能告诉AI每个数字符号对不对，而强化学习能告诉AI整个数字序列与正确答案的差距有多大，这样AI就学会了从整体数字准确性出发来优化预测过程。

Q3：这项技术什么时候能应用到日常生活中？

A：虽然技术还需要进一步完善，但预期在不远的将来，我们将看到更准确的股价预测、更精确的天气预报、更可靠的风险评估等应用。任何需要精确数值预测的场景都可能受益于这项技术，特别是金融、气象、工程等对数值准确性要求很高的领域。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.