网易首页 > 网易号 > 正文 申请入驻

MBZUAI和法国综合理工学院突破:让AI写作比人工快4倍的神奇算法

0
分享至


这项由阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)和法国综合理工学院(Ecole Polytechnique)联合完成的研究发表于2025年12月的arXiv预印本平台,研究编号为arXiv:2512.02892v1。研究团队由Amr Mohamed、Yang Zhang、Michalis Vazirgiannis和Guokan Shang组成,他们开发出一种名为SchED的算法,能让AI在保持文章质量的同时,写作速度提升3到4倍。

想象一下你正在使用一个AI写作助手,但它总是要反复修改很多遍才能给出满意的答案,每次修改都需要时间,让你等得不耐烦。现在,研究人员发明了一种聪明的方法,就像给AI装上了一个"直觉感应器",让它知道什么时候已经写得足够好了,可以停止继续修改,从而大大节省时间。

这项研究的核心在于解决扩散语言模型(diffusion language models,简称dLLM)的一个重大问题。扩散语言模型是一种新型的AI写作技术,它不像传统的AI那样一个字一个字地顺序生成文字,而是像拼图一样,先生成一个粗糙的版本,然后一遍遍地修改和完善。这种方法的好处是能够考虑到整个文章的全局信息,写出更连贯、更合理的内容。但是问题在于,现有的系统往往会过度谨慎,即使文章已经足够好了,还是会继续修改很多轮,浪费大量计算资源和时间。

研究团队的创新在于开发了一种叫做SchED(Schedule-based Early Decoding,基于进度的早期解码)的算法。这个算法就像一个经验丰富的编辑,能够随时评估文章的质量,并在恰当的时机说"好了,这篇文章已经足够好了,不需要再修改了"。

SchED算法的工作原理可以用烹饪来类比。当你煮一锅汤时,你不会固定地煮30分钟,而是会不断尝味道,一旦发现汤的味道已经调得刚好,就会立即关火。SchED就是这样一个"品尝者",它会持续监测AI生成文字的"置信度"——也就是AI对自己写出内容的确信程度。当置信度达到一定水平时,算法就会判断继续修改已经没有必要,从而停止迭代过程。

更巧妙的是,SchED采用了一种"进度感知"的策略。就像你做菜时,开始阶段需要更仔细地调味,而快完成时只需要微调一样,SchED会根据修改的进度动态调整质量要求。在修改的早期阶段,它会要求更高的置信度才停止,确保基础质量足够好。而在后期阶段,它会适当放松要求,避免过度修改。

研究团队设计了三种不同的"进度曲线"来控制这个过程:线性曲线、余弦曲线和指数曲线。线性曲线就像平稳下坡的山路,质量要求均匀递减。余弦曲线则像一个温和的弯道,开始下降较慢,中间加速,最后又放缓。指数曲线则像陡峭的悬崖,开始时要求很高,然后急速下降到较低要求。不同的曲线适用于不同的应用场景:当你需要确保最高质量时,可以选择较为保守的线性或余弦曲线;当你更注重速度时,可以选择更激进的指数曲线。

为了验证这个算法的效果,研究团队进行了大规模的实验测试。他们选择了两个代表性的扩散语言模型家族:Dream和LLaDA。Dream模型采用单块处理方式,就像一次性修改整个文档;而LLaDA模型采用块状扩散策略,就像分段修改文档的不同部分。每个模型家族都有基础版本和指令调优版本,后者经过专门训练,更善于理解和遵循人类指令。

实验涵盖了十个不同类型的测试任务,包括多项选择题(如GPQA、MMLU、HellaSwag等)、数学推理题(GSM8K)、长文本问答和摘要任务(HotpotQA、MultiNews),以及机器翻译任务(英法、英德翻译)。这种多样化的测试确保了算法在各种实际应用场景下都能有效工作。

实验结果令人兴奋。对于经过指令调优的模型,SchED算法实现了3.8到4.0倍的速度提升,同时保持了99.8%到100%的原始质量。这意味着你可以用原来四分之一的时间得到几乎同样质量的文章。对于基础模型,虽然速度提升相对较小(1.04到1.14倍),但在更激进的设置下也能达到2.34倍的加速,同时质量损失控制在很小范围内。

研究团队还引入了一个创新的评估指标叫做"质量惩罚速度"(Quality-Penalized Speed, QPS),这个指标综合考虑了速度提升和质量损失。它就像一个公平的评判员,会根据质量下降的程度来"惩罚"速度的提升。使用γ=4这个严格的惩罚参数,SchED算法在Dream基础模型上获得了1.01到2.03的QPS分数,在指令调优模型上获得了3.24到4.30的分数,明显优于其他现有方法。

为了理解为什么SchED在指令调优模型上表现特别出色,研究团队进行了深入的熵分析。熵是信息论中的一个概念,可以理解为"不确定性"的度量。当AI生成文字时,如果它对下一个词的选择很确定,熵就低;如果它在多个选项间犹豫不决,熵就高。

分析结果显示,指令调优模型在生成过程中的熵下降更快且更稳定。这就像一个经过专业培训的厨师,能够更快地判断菜品是否已经做好,而新手厨师则需要更多时间才能做出同样准确的判断。指令调优让AI模型变得更加"自信"和"果断",因此SchED算法能够更早地识别出生成任务已经完成,从而获得更大的速度提升。

具体来看各种任务类型的表现,SchED在不同场景下都展现出了良好的适应性。在多项选择题任务中,由于答案相对简短且明确,模型能够很快达到足够的置信度,因此速度提升显著且质量损失最小。在数学推理任务中,虽然需要更复杂的逻辑推理,但SchED依然能在保持准确性的同时提供可观的加速。在长文本生成任务中,SchED通过考虑整个回答区域的置信度,避免了局部过度自信导致的早期停止问题,确保了长文本的质量和连贯性。在翻译任务中,SchED能够在保持翻译准确性的同时显著减少计算时间。

与现有的早期停止方法相比,SchED的优势在于其渐进式的置信度阈值设计。传统方法往往使用固定的停止条件,容易导致过早停止或过度修改。而SchED的动态阈值就像一个经验丰富的项目经理,会根据项目进度调整质量标准,在项目早期严格把关,在接近完成时适当放松要求,从而在质量和效率之间找到最佳平衡点。

SchED算法的一个重要特点是它完全不需要额外的训练或模型修改。这意味着你可以直接把这个算法应用到现有的任何扩散语言模型上,就像给汽车安装一个更智能的GPS导航系统,不需要改动引擎或其他部件。这种"即插即用"的特性大大提高了算法的实用价值和普及潜力。

在实际应用方面,SchED算法为不同需求的用户提供了灵活的选择。如果你是一个对质量要求极高的用户,比如正在写重要的商业提案或学术论文,你可以选择保守的线性或余弦调度,这样可以在略微加速的同时确保质量不受任何影响。如果你是一个更注重效率的用户,比如需要快速生成大量内容草稿,你可以选择更激进的指数调度,在可接受的质量损失范围内获得显著的速度提升。

研究还发现,不同类型的文本生成任务对SchED算法的响应存在有趣的差异。数学导向的任务(如GPQA和GSM8K)在生成初期显示出较高的熵值,但随着推理过程的深入,置信度会快速提升。这反映了AI在处理逻辑推理任务时的思考模式:开始时面临多种可能的解题路径,但一旦找到正确方向,就能快速收敛到答案。相比之下,一般知识问答任务的熵变化更加平稳,反映了这类任务的相对简单性。

SchED算法的成功还得益于其巧妙的置信度聚合策略。传统方法通常只关注局部区域的置信度,容易受到局部波动的干扰。而SchED考虑整个答案区域的平均置信度,就像一个优秀的品酒师不会只尝一口就下结论,而是要综合考虑酒的各个层次。这种全局视角使得算法的判断更加稳定和可靠。

从技术实现角度来看,SchED算法的计算开销非常小。它只需要在每个修改步骤计算置信度分数并与动态阈值比较,这个过程的计算量相比于整个文本生成过程来说微不足道。这意味着算法本身不会成为系统的性能瓶颈,而是真正起到了优化加速的作用。

研究团队还对算法的鲁棒性进行了全面测试。他们发现SchED在不同的模型架构、不同的任务类型、以及不同的参数设置下都表现稳定。这种鲁棒性对于实际应用至关重要,因为真实世界的使用场景往往比实验室环境更加复杂多变。

值得注意的是,SchED算法的成功不仅仅是技术层面的突破,也为我们理解AI的"自信心"提供了新的视角。通过观察AI在生成过程中置信度的变化,我们可以更好地理解AI的决策过程,甚至可以将这些insights应用到其他AI系统的优化中。

实验还揭示了一个有趣的现象:指令调优不仅提高了模型的任务执行能力,还使其具备了更好的"自我认知"能力。经过指令调优的模型能够更准确地评估自己生成内容的质量,这种元认知能力使得SchED算法能够更有效地工作。这一发现对于未来AI系统的设计具有重要启示意义。

从更广阔的视角来看,SchED算法代表了AI系统优化的一个重要方向:不是通过增加更多的计算资源来提高性能,而是通过更智能的算法来提高效率。这种思路在当前计算资源日益珍贵的背景下显得尤为重要。随着AI模型规模的不断增大,如何在保证性能的同时提高效率将成为一个关键挑战,而SchED算法为解决这个挑战提供了一个有效的思路。

研究团队在论文中也诚实地讨论了算法的局限性。SchED虽然在大多数情况下表现优秀,但在某些特殊场景下,过于激进的参数设置可能导致质量损失。因此,在实际应用中,用户需要根据自己的具体需求来选择合适的参数组合。研究团队建议,对于质量要求极高的应用,应该选择保守的参数设置;而对于时间敏感的应用,可以适当接受一些质量损失来换取速度提升。

未来的改进方向包括学习自适应的调度参数、针对特定任务类型优化聚合策略、以及与其他加速技术(如推测解码、缓存机制等)的结合。研究团队表示,他们正在探索如何让算法自动学习最优的参数设置,而不需要人工调整。他们还在研究如何将SchED与其他加速技术结合,以获得更大的性能提升。

这项研究的代码已经在GitHub上开源,感兴趣的开发者和研究人员可以通过https://github.com/amr-mohamedd/SchED.git获取完整的实现代码。这种开放的态度有助于推动整个领域的发展,让更多人能够在此基础上进行进一步的创新和改进。

总的来说,SchED算法为扩散语言模型的实用化迈出了重要一步。通过巧妙的进度感知置信度调度,它在保持高质量输出的同时显著提高了生成效率,为AI写作助手、自动翻译系统、智能客服等实际应用铺平了道路。随着这类技术的不断成熟,我们可以期待在不久的将来看到更快速、更高效的AI文本生成服务进入我们的日常生活。

Q&A

Q1:SchED算法是什么原理?

A:SchED算法就像一个经验丰富的编辑,能够实时监测AI写作的质量置信度,并根据进度动态调整质量要求。当AI对自己写的内容足够自信时,算法就会停止继续修改,避免浪费时间在不必要的反复修改上。

Q2:SchED算法能提升多少速度?

A:对于经过指令调优的AI模型,SchED能实现3.8到4倍的速度提升,同时保持99.8%到100%的原始质量。对于基础模型,在保守设置下能提升1.04到1.14倍速度,激进设置下可达2.34倍速度提升。

Q3:普通用户能直接使用SchED算法吗?

A:目前SchED算法主要面向AI研究人员和开发者,代码已在GitHub开源。普通用户需要等待AI公司将这项技术集成到实际产品中,比如AI写作助手、翻译软件等,才能享受到更快的AI服务体验。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
猪油再次被关注!提醒:高血压患者常吃猪油,或会出现这几种变化

猪油再次被关注!提醒:高血压患者常吃猪油,或会出现这几种变化

芹姐说生活
2026-06-02 23:22:02
乌克兰的强硬反击:没有犹豫,只有坚决且持续不断

乌克兰的强硬反击:没有犹豫,只有坚决且持续不断

民间胡扯老哥
2026-05-31 10:01:12
重大外交挫折:卡塔尔拒绝给120亿美元,伊朗谈判底牌被当场按住

重大外交挫折:卡塔尔拒绝给120亿美元,伊朗谈判底牌被当场按住

流史岁月
2026-06-02 17:10:03
名单官宣!国乒六大主力入围,唯独少了这个人:世界冠军意外落选

名单官宣!国乒六大主力入围,唯独少了这个人:世界冠军意外落选

酷侃体坛
2026-05-23 10:17:05
4年3亿美元超级合同遭文班亚马拒绝,他的野心早已写在脸上

4年3亿美元超级合同遭文班亚马拒绝,他的野心早已写在脸上

郝小小看体育
2026-05-15 06:33:32
灰姑娘传奇!世界第114波兰黑马继续梦幻之旅,首进大满贯8强

灰姑娘传奇!世界第114波兰黑马继续梦幻之旅,首进大满贯8强

体育妞世界
2026-06-02 08:40:16
坐了20多年飞机,现在才搞懂机场的T1、T2、T3里的T是什么意思!

坐了20多年飞机,现在才搞懂机场的T1、T2、T3里的T是什么意思!

小谈食刻美食
2026-06-02 07:34:00
55 岁陈志朋,被兄弟坑光家产,如今在杭州直播

55 岁陈志朋,被兄弟坑光家产,如今在杭州直播

杨戬看夏侯惇四目相对
2026-06-02 15:56:38
克雷桑女友晒成都客场观赛照&旅游照:来自成都的爱❤️

克雷桑女友晒成都客场观赛照&旅游照:来自成都的爱❤️

懂球帝
2026-06-02 11:14:56
扎心!西媒曝恩里克曾告诉大巴黎主席:姆巴佩在他无法掌控全局

扎心!西媒曝恩里克曾告诉大巴黎主席:姆巴佩在他无法掌控全局

雪狼侃体育
2026-06-02 17:37:07
铜梁龙总经理:成绩顺其自然;不能为了锻炼队伍全上一帮小孩

铜梁龙总经理:成绩顺其自然;不能为了锻炼队伍全上一帮小孩

懂球帝
2026-06-03 00:30:11
全线大涨!黄仁勋,再次点燃光通信概念股

全线大涨!黄仁勋,再次点燃光通信概念股

证券时报
2026-06-02 23:14:54
乘联分会:5月国内车企新能源乘用车预估批售量达136万辆,同比、环比均上涨超11%

乘联分会:5月国内车企新能源乘用车预估批售量达136万辆,同比、环比均上涨超11%

澎湃新闻
2026-06-02 19:44:22
选秀专家力挺23岁“多米尼加勒布朗”加盟勇士

选秀专家力挺23岁“多米尼加勒布朗”加盟勇士

坠入温柔晚风
2026-06-02 02:22:54
湖北男子离婚当晚杀害前妻后逃亡17年案将开庭,受害人女儿:他家暴、转移妈妈房产、多次威胁杀人,该案抗诉成功;其一审被判死缓

湖北男子离婚当晚杀害前妻后逃亡17年案将开庭,受害人女儿:他家暴、转移妈妈房产、多次威胁杀人,该案抗诉成功;其一审被判死缓

大象新闻
2026-06-02 14:47:53
俄罗斯研发的星链,拥有16颗卫星的“曙光”系统无法实现军事用途

俄罗斯研发的星链,拥有16颗卫星的“曙光”系统无法实现军事用途

山河路口
2026-05-31 23:53:06
徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

徐志胜女友曝光,长相漂亮学历高,见父母婚期将至,还是他的初恋

庭小娱
2026-06-01 15:20:06
军事 | 普京将此残骸交于美方,到底什么意思?

军事 | 普京将此残骸交于美方,到底什么意思?

新民周刊
2026-06-01 09:08:31
哈马斯军官混进医院当医生,重建武装时遭以军击毙

哈马斯军官混进医院当医生,重建武装时遭以军击毙

桂系007
2026-06-01 19:48:39
解压玩具“娜塔莎”引争议,它的危害远超想象!

解压玩具“娜塔莎”引争议,它的危害远超想象!

蓬勃新闻
2026-06-01 13:00:19
2026-06-03 05:59:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
8614文章数 564关注度
往期回顾 全部

科技要闻

烧掉千亿后,美团、阿里、京东谁先止血?

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

头条要闻

演员魏宗万去世 曾在94版《三国演义》中饰演"司马懿"

体育要闻

1米74的业余联赛替补,在英超踢中卫

娱乐要闻

奚梦瑶何猷君补办婚礼超幸福

财经要闻

智元和宇树的“暗战”愈演愈烈

汽车要闻

星途神秘新车轮廓曝光 又一款性能SUV要来了?

态度原创

亲子
房产
手机
公开课
军事航空

亲子要闻

幼小衔接指南——幼小直面交流 清晰剖析阶段差异

房产要闻

5200巨量投资曝光!未来五年,海南格局大变!

手机要闻

华为凌霄子母路由Q7电线版星闪电竞专链功能首批支持机型公布

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗媒体新发布最高领袖照片

无障碍浏览 进入关怀版