浙大团队：如何让AI表达不确定性？|样本|实验

分享至

想象一下，你正在参加一个非常困难的考试。当遇到不确定答案的题目时，你会怎么做？是硬着头皮随便选一个答案，还是老实承认"我觉得可能是A或B"？浙江大学、威斯康星大学麦迪逊分校、威廉玛丽学院和网易伏羲AI实验室的研究团队最近发现了一个有趣的现象：当我们要求大型语言模型（就像ChatGPT这样的AI助手）为数据打标签时，如果教会它们在不确定时提供多个可能的答案，而不是强迫它们给出单一答案，整个标注过程会变得更加准确和可靠。这项突破性研究于2025年6月发表在机器学习顶级会议上，感兴趣的读者可以通过论文的GitHub链接https://github.com/MingxuanXia/CanDist获取完整的研究代码和详细信息。

这个发现听起来很简单，但背后蕴含着深刻的智慧。就像一个有经验的医生在面对复杂病症时，与其草率下诊断，不如说"根据症状，可能是甲状腺问题，也可能是内分泌失调，需要进一步检查"。研究团队发现，当AI在不确定时被允许给出多个候选答案，然后再通过一个"学生模型"来从这些候选答案中选择最终答案时，整个系统的表现会显著提升。这种方法被他们称为CanDist框架，其中"Can"代表候选答案（Candidate），"Dist"代表知识蒸馏（Distillation）。

在传统的AI数据标注工作中，研究人员通常会直接要求大型语言模型为每个数据样本提供一个明确的标签。这就像强迫一个学生在完全不确定的情况下也必须选择一个答案。结果往往是，当模型遇到困难样本时，它会过度自信地给出错误答案，这不仅浪费了计算资源，还会严重影响后续的模型训练质量。更糟糕的是，这些错误标签需要人工重新检查和修正，既费时又费力。

研究团队从人类心理学中汲取了灵感。心理学研究表明，当人们面对不确定性时，往往会表现出"模糊厌恶"的行为模式，也就是倾向于采取保守策略来降低风险，确保收益的下限。比如，当你在股市投资时不确定某只股票的走势，你可能会选择分散投资多只股票，而不是把所有钱都押在一只股票上。受到这种心理现象的启发，研究团队提出让AI模型在面对不确定样本时也表现出类似的"谦逊"行为，提供多个可能的候选答案，而不是强行给出单一答案。

具体来说，研究团队设计了两种候选标注策略。第一种叫做CAadd，就像一个谨慎的学生先给出自己最可能的答案，然后补充说"如果我不确定的话，还可能是其他几个选项"。第二种叫做CAall，则像一个非常诚实的学生直接列出所有可能的答案选项。通过大量实验，研究团队发现这两种方法都比传统的单一答案方法表现更好。

为了验证候选标注的有效性，研究团队使用了严谨的统计指标来评估不同方法的表现。他们把标注过程看作是对原始标签空间的"修剪"过程，就像园丁修剪花园一样。一个好的修剪方法应该既能保留正确的花朵（包含正确标签），又能去除大部分杂草（排除错误选项）。通过1-α错误率这个指标，他们测量候选答案包含正确标签的概率；通过β覆盖率，他们测量候选答案缩小搜索空间的程度；最后用F1分数综合考虑这两个方面。实验结果显示，在三个不同的文本分类任务上，候选标注方法在包含正确答案方面比传统方法平均提升了18%到27%，同时还能有效缩小搜索空间。

然而，候选标注虽然提供了更高质量的信息，却不能直接用于需要确定标签的下游任务。这就像你收到了多个可能正确的答案，但最终还是需要从中选择一个。为了解决这个问题，研究团队设计了一个巧妙的师生框架。在这个框架中，大型语言模型充当"老师"的角色，负责提供候选答案；而一个较小的语言模型充当"学生"的角色，负责从老师提供的候选答案中学习并最终给出确定的标签。

这个师生框架的核心是一个叫做"分布精炼"的机制。想象一下，老师给了学生一份包含多个可能答案的练习题，但其中混杂着一些错误答案。一个聪明的学生应该能够逐渐识别出哪些是正确答案，哪些是干扰项。分布精炼机制正是模拟了这个学习过程。在训练开始时，学生模型对所有候选答案一视同仁；但随着训练的进行，它会逐渐学会区分真正有价值的答案和误导性的答案，最终形成自己的判断能力。

具体的训练过程包含了几个精巧的设计。首先，系统会过滤掉那些学生模型的最高预测概率落在候选集合之外的样本，这就像去除那些明显超出讨论范围的答案。接着，系统会选择那些表现可靠的样本，通过调整温度参数来"锐化"它们的目标分布，这个过程就像提炼精华，让好的答案变得更加突出。同时，对于那些逐渐显示出高置信度的样本，系统会将它们的预测类别作为训练目标，充分利用所有可用的信息。

为了验证这种方法的理论合理性，研究团队还提供了严格的数学证明。他们将大型语言模型简化为传统的教师模型，重点分析小型语言模型能否从候选标注中获得更好的学习效果。证明结果表明，从教师模型的候选标注（top-2预测）中学习的学生模型，比直接从教师模型的单一标注（top-1预测）中学习的学生模型具有更强的噪声容忍能力。简单来说，就是当训练数据中存在错误标签时，使用候选标注方法的模型能够在更高的噪声水平下仍然保持准确的预测能力。

研究团队在六个不同的文本分类任务上进行了全面的实验验证。这些任务涵盖了从主题分类到医学诊断分类的多个领域，每个任务都有其独特的挑战。比如TREC数据集专注于问题类型分类，需要判断一个问题是在询问缩写、描述概念、实体、人物、地点还是数值。医学摘要数据集则要求对医学诊断进行分类，这需要更专业的领域知识。DBpedia数据集涉及本体分类，AGNews关注新闻主题分类，RCT专注于医学摘要中的内容类型分类，而Banking数据集则处理银行对话中的意图分类。

实验结果令人印象深刻。在所有测试任务中，CanDist方法都取得了最佳性能，超越了包括零样本学习、少样本学习、思维链推理、自我一致性等在内的多种基线方法。特别值得注意的是，在TREC任务上，CanDist方法比最佳基线方法提升了5.47%。更令人惊喜的是，在一些任务上，CanDist甚至能够达到与完全监督学习相媲美的性能，这意味着使用AI自动标注的数据几乎可以替代人工标注的数据。

研究团队还进行了详细的对比分析，探讨了不同候选生成策略的效果。他们比较了基于采样的方法（通过多次采样生成不同答案）、基于集成的方法（通过不同提示格式或示例顺序生成答案）以及直接提示候选答案的方法。结果显示，直接提示候选答案的方法在检索到有价值候选答案方面表现最佳，同时在计算效率上也有明显优势。这就像直接询问"你觉得可能是哪几个答案"比通过多次猜测来收集答案更加高效准确。

另一个重要发现是，让大型语言模型直接从候选答案中选择最终答案的效果，明显不如使用小型语言模型通过学习来做出选择。这个现象很有趣，就像让一个博学的教授直接给出标准答案，反而不如让一个专门训练的学生通过学习来判断答案。这可能是因为小型模型在特定任务上的专门训练使其能够更好地识别任务相关的模式，而大型模型的通用性反而成为了在特定任务上的劣势。

研究团队还探索了CanDist方法与其他技术的协同效应。特别值得一提的是与自我一致性方法的结合。自我一致性方法通过多次采样来提高结果的可靠性，而当它与候选标注方法结合时，能够生成更加多样化且包含更多正确答案的候选集合。这种组合就像多个专家独立提出建议，然后综合所有建议来形成最终的候选答案列表，进一步提升了整体性能。

在分析不同组件的贡献时，研究团队发现分布精炼机制的每个部分都发挥着重要作用。重新归一化过程能够显著提升性能，过滤超出候选范围的样本有助于保持训练的稳定性，而分布锐化则能够引导模型更加专注于高质量的训练样本。这些组件的协同作用就像一个精密仪器的各个部件，每一个都不可或缺。

从效率角度来看，CanDist方法的计算开销与传统方法基本相当。虽然需要额外的候选生成步骤，但这个开销相对较小，而且可以通过批量处理等技术进一步优化。更重要的是，由于提高了标注质量，减少了后续的错误修正工作，整体上反而可能节省更多的时间和人力成本。

研究团队还将CanDist与传统的主动学习方法进行了比较。主动学习是一种通过人工标注少量精心选择的样本来提升模型性能的方法。实验结果显示，CanDist方法在没有任何人工标注的情况下就能超越大多数主动学习基线方法的性能。而当结合少量人工标注时，CanDist的混合版本能够用50%的人工标注达到与完全监督学习相媲美的性能。这个结果对于实际应用具有重要意义，因为它表明在资源有限的情况下，智能的AI标注策略可以显著减少对人工标注的依赖。

这项研究的理论贡献同样值得关注。研究团队提供的数学证明不仅验证了方法的有效性，还为理解知识蒸馏过程提供了新的视角。他们证明了当训练数据存在噪声时，从候选预测中学习比从单一预测中学习具有更好的理论保证。这个理论结果为未来相关研究提供了重要的理论基础。

从更广阔的视角来看，这项研究揭示了AI系统设计中的一个重要原则：有时候，让系统表达不确定性比强迫它给出确定答案更有价值。这个思想在很多领域都有应用价值，比如医疗诊断、金融风险评估、自动驾驶等对准确性要求极高的场景。当AI系统能够诚实地表达自己的不确定性时，人类操作者就能够做出更明智的决策。

研究团队也坦诚地讨论了当前方法的局限性。目前的分布精炼机制主要针对分类任务设计，对于文本生成等其他类型的任务还需要进一步的研究和改进。另外，虽然研究提供了理论分析，但这些分析基于对大型语言模型的简化假设，与实际的大型语言模型还有一定差距。随着对大型语言模型理论理解的深入，这些分析可能需要进一步完善。

这项研究的实际应用前景非常广阔。在工业界，许多公司都面临着大量数据标注的需求，传统的人工标注不仅成本高昂，而且效率低下。CanDist方法提供了一个实用的解决方案，能够在保证质量的前提下大幅提升标注效率。特别是对于那些需要专业知识的标注任务，比如医学文献分类、法律文档分析等，这种方法的价值更加突出。

从技术发展的角度来看，这项研究也为AI系统的可解释性和可信度提供了新的思路。一个能够表达不确定性的AI系统比一个总是给出确定答案的系统更值得信任，因为它更诚实地反映了自己的能力边界。这种"谦逊"的AI系统更容易与人类协作，也更安全可靠。

研究团队在论文中还详细介绍了实验的实现细节，包括使用的模型、数据集、评估指标等，这为其他研究者复现和扩展这项工作提供了便利。他们使用了GPT-3.5作为教师模型，RoBERTa-Base作为学生模型，在多个标准数据集上进行了全面测试。所有的代码和数据都已经公开发布，体现了开放科学的精神。

值得一提的是，这项研究的作者团队具有很强的跨领域背景，来自计算机科学、人工智能、心理学等不同领域的专家共同合作，这种跨学科的合作模式也为研究的创新性做出了重要贡献。特别是将心理学中的"模糊厌恶"概念引入AI系统设计，展现了跨学科研究的威力。

总的来说，这项研究不仅在技术层面取得了重要突破，更在理念层面为AI系统设计提供了新的思路。它告诉我们，有时候承认不确定性比盲目自信更有价值，让AI学会说"我不确定，但可能是这几个答案"比强迫它给出单一答案更加明智。这种思想不仅适用于数据标注任务，也可能对整个AI领域的发展产生深远影响。随着AI系统在各个领域的广泛应用，这种能够表达不确定性、与人类更好协作的AI系统将变得越来越重要。

说到底，这项研究的核心价值在于它展示了一种更加智慧和务实的AI设计哲学。就像人类在面对复杂问题时需要权衡和思考一样，AI系统也应该学会在不确定时保持谦逊和开放的态度。这不仅能提升系统的实际性能，更重要的是能够建立人类对AI系统的信任。毕竟，一个诚实承认自己局限性的AI系统，远比一个总是装作无所不知的系统更值得依赖。未来，随着这种思想的进一步发展和应用，我们有理由期待看到更多既智能又谦逊的AI系统出现在我们的生活中。对于想要深入了解这项研究技术细节的读者，可以访问GitHub链接https://github.com/MingxuanXia/CanDist获取完整的实现代码和详细的实验数据，或者通过相关学术数据库搜索这篇发表于2025年的重要论文。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.