网易首页 > 网易号 > 正文 申请入驻

中科大如何用一个简单参数,让AI训练既不“太死”也不“太乱”?

0
分享至

当我们训练大模型解决数学难题或进行复杂推理时,会遇到一个微妙的平衡问题。这就好比教一个学生做题:如果学生过于保守,只会重复已经会的题型,就永远学不会新知识;但如果学生胡乱尝试各种方法,也会陷入混乱,学习效率低下。在人工智能领域,前者被称为"熵崩塌",后者则是"熵爆炸"。


来自中国科技大学的研究团队提出了一个优雅的解决方案《分位数优势估计》方法,仅需调整一个参数,就能让AI模型在学习过程中保持恰到好处的探索性。

这项工作的创新之处在于,研究者们没有在微观层面修修补补,而是从根本上重新思考了"基线"的设计。所谓基线,就是判断一个答案是好是坏的参照标准。传统方法使用平均值作为基线,但这种做法在遇到极端情况时会失效。研究团队用分位数替代了平均值,相当于给训练过程装上了一个自适应的调节器。更令人惊讶的是,这个方法在实际应用中会自动忽略约80%的训练样本,只专注于最有价值的那20%,这种"稀疏化"特性大大提高了训练效率。

在数学推理基准测试AIME'24、AIME'25和AMC'23上,这个方法让Qwen3系列模型的首次答对率持续提升,同时保持了训练过程的稳定性。这项研究的重要意义在于,它揭示了训练大型语言模型时,选择"让谁学习"比决定"学多少"更加关键。

训练AI的两难困境:在崩塌与爆炸之间走钢丝

在讨论研究团队的解决方案之前,我们需要理解AI训练中的"熵"到底是什么。熵可以理解为系统的混乱程度或不确定性。当AI模型生成答案时,如果它对每个词的选择都非常确定,熵就很低;如果它在多个选项之间犹豫不决,熵就很高。

熵崩塌就像是学生变成了复读机。训练初期,模型可能发现某几个答题模板在训练数据上效果不错,于是越来越依赖这些模板,最终只会机械地重复固定套路,失去了探索新解法的能力。许多研究者已经注意到了这个问题,并提出了各种补救措施,比如在生成过程中故意提高低概率词汇的权重,或者惩罚那些导致崩塌的词汇选择。


然而熵爆炸这个对称问题却被严重忽视了。这种情况下,模型变得过于"发散",每次回答都天马行空,看似在探索,实际上是在瞎蒙。研究团队在Qwen3-8B基础模型上使用DAPO训练方法时,清楚地观察到了这一现象。在训练的早期阶段,熵值突然飙升,虽然这个尖峰本身没有立即损害性能,但它为后续的不稳定性埋下了隐患。过了一百步之后,熵值持续保持在高位并且波动剧烈,而性能却不再提升,陷入了停滞。

这种双重威胁揭示了一个深层矛盾:单纯避免崩塌是不够的,因为防止崩塌的措施可能会无意中引发爆炸。有效的训练必须在这两个极端之间找到一个"生产性区间",既保持足够的探索性以发现新的解题思路,又不能过度发散导致学习信号被噪音淹没。

研究团队深入分析了这个问题的机制。他们将训练过程中的样本按照"优势"符号分为两类:那些比基线表现更好的样本被赋予正优势,会得到鼓励;那些表现更差的样本被赋予负优势,会被抑制。通过追踪这两类样本各自对熵的贡献,研究者发现了一个关键事实:熵的爆炸式增长主要是由负优势样本驱动的。这些"表现不佳"的样本在训练早期就开始推动熵值快速上升,而正优势样本的熵值则相对稳定。这种不平衡表明,早期阶段的过度探索是由那些被判定为"失败"的尝试引发的,而到了后期,系统又无法充分利用那些成功的样本。


研究团队还检查了在训练过程中,模型倾向于使用哪些高熵词汇。在训练步骤20时,模型经常使用各种探索性词汇,比如"等等"、"也许"、"或许"等,显示出多样化的思考方式。但到了步骤80,这些词汇的分布开始集中在"所以"、"让"这类断言性的推理模板上。到步骤200时,这种同质化更加明显,模型越来越依赖刻板的推理套路,而不是真正探索不同的解题路径。这种现象与观察到的性能停滞完全吻合:虽然熵值保持在高位,但这种"高熵"是虚假的多样性,是在有限的模板中反复横跳,而不是真正富有成效的探索。

为了验证问题确实出在"基线"设计上而非其他超参数设置,研究团队尝试调整DAPO方法中的高端裁剪阈值。他们测试了从0.20到0.28的不同数值,结果发现性能最好的点在0.26附近,但整体改进非常有限,后期的性能停滞依然存在。这个实验清楚地表明,仅仅在词汇层面微调参数无法解决根本问题。真正的症结在于如何为每个训练样本设定参照标准,也就是基线的设计。

从平均值到分位数:一个看似微小却影响深远的改变

主流的无价值函数强化学习方法,比如GRPO和DAPO,都使用平均值作为基线。具体来说,对于一个问题,系统会生成一组答案,然后计算这组答案的平均奖励。每个答案的优势就是它的奖励减去这个平均值。这个做法看似公平合理,但在实践中存在致命缺陷:它对异常值极其敏感。

考虑这样一个场景:假设系统对一道难题生成了十个答案,其中九个完全错误得零分,只有一个偶然答对得一分。此时平均值是0.1分。那九个错误答案的优势就是负0.1,而那个正确答案的优势是正0.9。看起来还算合理,对吧?但问题在于,如果这道题稍微简单一点,十个答案中有五个对五个错,平均值变成0.5分。此时那五个错误答案的优势变成负0.5,惩罚力度比刚才大了五倍,而这五个答案的"错误程度"其实并没有变化。平均值基线把"难度"的变化转嫁成了对错误答案惩罚强度的波动,这显然不合理。

更糟糕的是,当出现几个特别高分的异常答案时,平均值会被大幅拉高,导致许多原本不错的答案突然变成了"负优势",被当作失败案例来惩罚。这种现象正是导致熵崩塌的直接原因:系统错误地压制了那些本来有探索价值的尝试。

研究团队提出用分位数替代平均值。分位数是统计学中的一个概念,它描述的是数据分布中的位置而不是数值大小。举个例子,如果我们选择0.6分位数作为基线,那就是找到一个阈值,使得60%的样本得分低于它,40%高于它。这个方法的优势在于它对异常值不敏感:即使某个答案得了特别高的分数,只要它的排名位置没变,分位数基线就不会受影响。

在数学推理任务中,答案要么完全正确得一分,要么完全错误得零分,没有中间状态。在这种二元奖励设定下,分位数基线会简化成一个非常直观的机制。系统为每个问题生成一组答案,然后计算答对的比例,记为p。接下来引入一个参数K,它决定了基线的行为。当答对率p小于等于1减K时,基线设为零;当p大于1减K时,基线设为一。这个看似简单的规则实际上创建了一个双模式系统。

在困难问题上,也就是答对率p较低的情况下,基线为零意味着所有错误答案的优势都是零,不会收到任何更新信号,而罕见的正确答案会获得正优势,得到强化。这种模式专注于"利用"那些来之不易的成功案例,避免系统在还没找到正确路径时就胡乱探索。可以把这个阶段理解为"采矿模式":在贫瘠的矿山里,找到一颗金子就要牢牢抓住。

在简单问题上,也就是答对率p较高的情况下,基线为一意味着所有正确答案的优势都是零,不再强化,而残存的错误答案会获得负优势,被抑制。这种模式专注于"探索"那些还没解决好的细节,避免系统在已经掌握的问题上重复劳动。可以把这个阶段理解为"打磨模式":当大部分地方都已经光滑了,就集中精力处理那些粗糙的瑕疵。

参数K就是这两种模式之间的开关。它的数值决定了"困难"和"简单"的分界线在哪里。如果K设为0.4,那么答对率在60%以下的问题被视为困难,60%以上的被视为简单。如果K设为0.6,分界线就移到了40%。通过调节K,研究者可以直接控制系统的探索-利用平衡,进而调控训练过程中的熵变化。

这个机制的美妙之处在于它的自适应性。系统会根据每个问题的实际表现,自动决定当前应该处于哪种模式。不需要人为地对每个问题分类,也不需要复杂的调度策略,一切都由数据本身驱动。而且,这个方法与现有的各种训练技巧完全兼容。无论是词汇层面的裁剪策略,还是序列层面的优化方法,都可以和分位数基线组合使用,形成多层次的稳定性保障。

数学证明:双向熵安全性的理论保障

提出一个直观的想法是一回事,证明它在理论上确实有效是另一回事。研究团队不仅给出了分位数基线的设计,还提供了严格的数学证明,说明这个方法能够从两个方向保护熵的稳定性。


证明的核心思想基于一个观察:在softmax策略下,如果我们对模型参数做一个小的更新,熵的变化量可以通过一个协方差公式来近似计算。这个公式表明,熵的改变取决于策略分布与优势函数之间的协方差。而优势函数本身包含了一个基线项,正是这个基线决定了哪些样本被视为好,哪些被视为不好。

研究团队证明了一个关键性质:对于二元奖励任务,当我们把基线从零连续调整到一时,熵的单步变化量会单调递增。换句话说,基线越大,熵增长得越快;基线越小,熵增长得越慢,甚至可能下降。这个单调性关系为我们理解分位数基线的作用提供了基础。

现在来看分位数基线的两种极端情况。在答对率很低的困难问题上,分位数基线取最小值零。根据单调性,这会导致最小的熵增长量。这就防止了熵爆炸:即使系统遇到很难的问题,大量失败样本也不会推动熵失控上升,因为这些失败样本的优势被置为零,不产生任何更新。

在答对率很高的简单问题上,分位数基线取最大值一。根据单调性,这会导致最大的熵增长量。这就防止了熵崩塌:即使系统在某个问题上已经表现很好,它也不会过度压制探索性,因为基线设在最高点,给熵变化留出了充足的空间。

这个双向安全性保障的深刻之处在于,它揭示了一个普遍原理:基线的选择不仅仅是一个统计上的技术细节,它本质上是一个熵调节器。传统的平均值基线没有控制熵的能力,因为它随着数据波动而波动,是被动的。分位数基线则把基线的选择权交给了一个显式的参数K,把被动变为主动。

更重要的是,这个证明适用于任何非退化的softmax策略,不依赖于具体的模型结构或训练数据。这意味着分位数基线的熵安全性是一个鲁棒的性质,在各种实际场景中都应该成立。研究团队在论文中强调,现有的词汇层面控制方法只能调节更新的步长,却无法改变响应层面的基线,因此无法实现这种双向保障。这是一个根本性的限制:词汇层面的策略只能做局部修补,而基线设计触及的是全局机制。

从判别式视角来看,分位数基线还有另一层含义。研究团队借鉴了DisCO工作的分析框架,将优化目标分解为一个查询级别的权重和一个判别项。在使用平均值基线的GRPO方法中,查询权重是一个对称的钟形曲线,在答对率接近50%时达到峰值,在两端(全对或全错)时接近零。这意味着系统最关注那些难度适中的问题,对极难和极易的问题都不太重视。

分位数基线打破了这种对称性。在困难问题上,它只更新正确样本,权重因子变成了答对率除以答错率的平方根。这个因子在答对率很低时会非常大,放大对稀有成功的关注。在简单问题上,它只更新错误样本,权重因子变成了答错率除以答对率的平方根。这个因子在答对率很高时也会变大,放大对残余失败的关注。通过这种不对称的权重分配,系统把注意力从"中等难度"转移到了"两端的关键少数",实现了更精准的信号分配。

实验验证:从理论到实践的完美转化

研究团队在三个标准的数学推理基准上评估了分位数优势估计方法:AIME'24(2024年美国数学邀请赛)、AIME'25(2025年题目)和AMC'23(2023年美国数学竞赛)。这些测试代表了不同难度级别的挑战,从高中竞赛到接近大学水平的问题。评估采用零样本设定,也就是说模型在推理时没有任何示例提示,完全依赖训练时学到的能力。


对于每个问题,系统生成32个候选答案,采样温度设为0.7。研究者报告了两个指标:pass@1表示首次尝试答对的概率,pass@16表示在前16次尝试中至少有一次答对的概率。前者衡量模型的精准度,后者衡量其覆盖范围。

在Qwen3-8B基础模型上,分位数方法与Clip-Higher技术结合后,在AIME'24上的pass@1从39.69提升到48.23,相对提升21.5%。在AIME'25上从32.71提升到34.90,在AMC'23上从92.11提升到92.97。值得注意的是,pass@16性能保持高度可比,说明提升主要来自于更高效的样本利用,而不是简单地增加多样性。

研究团队还测试了分位数基线与其他熵控制方法的兼容性。当把它应用到CLIP-Cov方法时,AIME'24上的pass@1从42.40提升到46.04,相对提升8.6%。当应用到KL-Cov方法时,AIME'24上的pass@1从44.90略微下降到44.69,几乎持平,但pass@16从73.00提升到77.08,相对提升5.6%。这些结果表明,分位数基线可以与不同的正则化策略协同工作,在各种配置下都能带来改进或至少保持性能。

为了验证方法的可扩展性,研究团队在Qwen3-30B-A3B基础模型上测试了与GSPO算法的组合。GSPO是另一种序列级策略优化方法。加入分位数基线后,AIME'24的pass@1从43.75提升到47.50,相对提升8.6%。这证明了方法不仅适用于8B规模,也能在更大的30B模型上发挥作用。

训练动态曲线提供了更深入的洞察。在AIME'24数据集上,基线DAPO方法的pass@1在大约100步后开始停滞,同时熵值出现激增并在后续保持高位波动。相比之下,采用分位数基线的版本在整个训练过程中保持了平稳的熵轨迹,pass@1持续改进,直到训练结束。pass@16曲线在两种方法下非常接近,进一步确认了改进来自于更高的样本效率而非更广的探索范围。

研究团队还分解了熵的来源,按照优势符号把样本分成两组。在基线DAPO中,负优势样本的熵在早期快速上升,贡献了大部分的整体熵增。正优势样本的熵相对稳定,变化幅度小得多。这种不平衡证实了前面的分析:熵爆炸主要由那些被判定为"失败"的样本驱动。分位数基线通过选择性地将负优势样本的更新置零,直接抑制了这个主要驱动力,使得总体熵保持在可控范围内。

一个意外的发现是响应级别的稀疏性。在整个训练过程中,大约80%的生成答案被赋予了零优势,不参与参数更新。这个"80-20法则"表明,系统自动识别出了真正有信息量的少数样本,把计算资源集中在它们身上。这种稀疏化不是人为设计的结果,而是分位数基线机制的自然副产品。当答对率高于或低于阈值1减K时,总有一类样本被完全屏蔽,这就天然地产生了稀疏性。


为了验证双模式机制的实际作用,研究团队设计了消融实验,分别只保留正样本掩码或负样本掩码。结果发现,在高端裁剪较弱的设定下(ϵhigh=0.28),主要失效模式是熵爆炸,此时负样本掩码的效果接近完整的分位数方法,显著优于正样本掩码。在高端裁剪较强的设定下(ϵhigh=0.20),主要失效模式是熵崩塌,此时正样本掩码的效果更好。这个对比实验完美印证了理论分析:两种模式分别对应两种熵危险,缺一不可。

研究团队还探索了参数K的敏感性。他们测试了K从0.2到0.8的不同取值。较大的K值(比如0.8)将大部分样本标记为负优势,推高了熵、拉长了回答长度,训练变得不稳定且准确率早期就达到平台。较小的K值(比如0.2)将大部分样本标记为正优势,产生了低熵、过度正则化的状态,虽然稳定但探索不足,准确率提升有限。中等的K值(比如0.4)在两者之间取得了平衡:熵保持在生产性区间内,回答长度可控,准确率持续改进。所有主要实验都使用K等于0.4,配合ϵhigh等于0.28,这个组合在多个基准上都表现出了鲁棒性。

从词汇层面的诊断来看,分位数方法下的高熵词汇使用模式也更加健康。虽然在训练早期,模型同样会使用各种探索性词汇,但随着训练推进,这些词汇并没有像基线方法那样集中到少数几个刻板模板上,而是保持了一定的多样性。同时,"啊哈时刻"标记(比如"也许"、"等等"这类表示思考过程的词)的频率与准确率之间保持了正相关,没有出现后期脱钩的现象。这说明分位数基线支持的是真正有意义的探索,而不是表面的随机性。

在Qwen3-14B基础模型上的结果进一步证实了方法的稳健性。采用分位数基线后,AIME'25的pass@1从45.21提升到46.88,AIME'24的pass@1从56.56提升到58.96。虽然14B模型的基线表现已经相当强,改进幅度相对较小,但提升依然是一致的且统计上显著。训练曲线显示,即使在更大的模型上,分位数方法依然能够平滑熵轨迹,避免中期的波动和后期的停滞。

深层启示:重新思考基线设计的战略地位

这项研究的意义远超出一个具体技术的改进。它提出了一个更深层次的观点:在强化学习训练大型语言模型时,基线设计应该被提升到与其他核心组件同等重要的地位。

长期以来,研究者们倾向于关注更复杂、更精细的控制机制,比如在词汇层面调整概率、在序列层面引入额外的正则化项、或者设计复杂的课程学习策略。这些方法各有价值,但它们都建立在一个隐含的假设之上:基线可以简单地用统计量来设定,比如平均值或中位数。然而分位数方法的成功表明,基线本身就是一个强大的调节器,其设计应该基于训练目标而非统计惯例。

从信息论的角度看,基线决定了系统如何分配"信用"。当一个答案的奖励高于基线时,它获得正信用,鼓励模型重复这种行为;当低于基线时,它获得负信用,抑制这种行为。传统的平均值基线是一种"民主式"分配:高于平均就鼓励,低于平均就抑制。这在奖励分布平滑、没有极端值的情况下是合理的,但在实际的数学推理任务中,奖励往往是稀疏且离散的,少数几个高分样本就能扭曲平均值,导致大量样本被错误地惩罚。

分位数基线实施的是一种"阈值式"分配:不是所有高于某个值的都鼓励,而是只有在特定条件下才触发更新。这种选择性大大提高了信号质量。在困难问题上,系统只学习那些罕见的成功案例,忽略大量的失败噪音。在简单问题上,系统只修正那些残存的错误,不在已经掌握的部分浪费资源。这种"聚焦于关键少数"的策略,与人类学习的过程非常相似:我们不会对每次尝试都给出反馈,而是在关键时刻提供针对性的指导。

从优化的角度看,基线影响的是梯度的分布。梯度可以理解为"改进方向"。传统基线生成的梯度是稠密的:几乎每个样本都有非零梯度,参数更新受到所有样本的综合影响。这看似充分利用了数据,实际上可能引入了大量噪音。分位数基线生成的梯度是稀疏的:大部分样本的梯度为零,只有少数关键样本产生更新。这种稀疏性不是缺陷,而是优势,因为它过滤掉了冗余信息,让优化过程更加高效和稳定。

实验中观察到的80-20现象特别值得深思。这意味着在标准的训练过程中,有高达80%的计算是在处理那些最终不产生任何更新的样本。从这个角度看,传统方法存在严重的资源浪费。分位数方法通过明确地识别出这80%的冗余部分,为未来的优化打开了空间:我们可以开发自适应采样策略,提前跳过那些注定不会产生更新的样本,从而进一步加速训练。

从系统设计的角度看,分位数方法体现了一个重要原则:单一参数的全局控制优于多参数的局部调整。与其在词汇层面设置各种阈值和权重,不如在响应层面用一个统一的机制来管理。这不仅简化了超参数空间,降低了调优成本,更重要的是提供了一个明确的、可解释的控制点。当训练出现问题时,研究者可以直接调整K值来诊断和修正,而不需要在复杂的交互效应中摸索。

研究团队建议的实用规则是:根据基线策略的熵值来选择K,而不是根据评估指标。如果基线策略的熵很低,有崩塌风险,应该选择较大的K(比如0.6)来增加探索性。如果基线策略的熵很高,有爆炸风险,应该选择较小的K(比如0.4)来增强利用。这个规则的智慧在于,它把调优的目标从"优化性能"转变为"调控熵",而后者是前者的必要条件。通过直接控制训练过程的动态特性,间接地实现更好的最终结果。

方法的通用性也值得强调。虽然研究主要在数学推理任务上展开,但分位数基线的原理适用于任何基于二元或多值奖励的强化学习场景。在代码生成、逻辑推理、甚至开放式对话等任务中,只要存在可验证的正确性标准,就可以应用这个框架。而且,由于它是一个纯粹的基线替换,不涉及模型结构或损失函数的根本改变,集成到现有系统中几乎没有工程障碍。

至顶AI实验室洞见

这项工作得以成功的关键在于研究团队愿意质疑一个看似无关紧要的默认选择。平均值作为基线是如此自然,以至于几乎没有人去挑战它。但正是这种对"理所当然"的重新审视,揭示了一个被长期忽视的优化空间。这提醒我们,在追求复杂性和创新性的同时,不要忘记回头检视那些基础组件,它们可能蕴含着意想不到的改进潜力。

从更广的视角看,熵的双向安全性问题不仅存在于大型语言模型的训练中。在任何需要平衡探索与利用的学习系统中,无论是机器人控制、资源分配还是科学实验设计,都会遇到类似的困境。过度保守导致局部最优,过度冒险导致无效漂移。分位数优势估计提供的,不仅是一个具体的技术方案,更是一种思维范式:通过设计一个自适应的阈值机制,让系统根据当前状态自动切换策略,既不需要精心设计的调度,也不需要复杂的元学习。这种"简单但不简陋"的设计哲学,可能对更广泛的人工智能研究有所启发。

论文地址:

https://arxiv.org/pdf/2509.22611

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:分位数优势估计(QAE)到底改变了什么?

A:QAE用分位数替代了传统的平均值作为基线。在训练大型语言模型解决数学问题时,系统需要判断每个答案是好是坏,这个判断的参照标准就是基线。传统方法使用一组答案的平均奖励,但这个平均值容易被极端情况扭曲。QAE使用分位数,根据答对率自动切换策略:在难题上只强化罕见的成功,在简单题上只修正残存的错误。这个改变虽然只涉及一行代码,却从根本上稳定了训练过程的熵,避免了既不"太死"也不"太乱"的双重危险。

Q2:为什么说基线设计比词汇层面的调整更重要?

A:词汇层面的控制机制只能调节每次更新的步长大小,但无法改变哪些样本应该被更新。这就像调节汽车的油门踏板灵敏度,却无法决定方向盘该往哪打。基线设计则直接决定了信用分配的逻辑:哪些答案值得鼓励,哪些应该抑制。更关键的是,QAE产生的稀疏性(80%的样本优势为零)表明,传统方法在大量无效样本上浪费了计算资源。从优化效率和训练稳定性两方面看,基线设计都处于更核心的战略位置。

Q3:参数K应该如何选择,不同的K值有什么影响?

A:参数K决定了困难问题和简单问题的分界线。K越大,越多问题被视为困难,系统更关注罕见成功,熵会上升。K越小,越多问题被视为简单,系统更关注残余失败,熵会下降。研究团队建议根据基线策略的熵状态来选择:如果初始熵很低有崩塌风险,用K等于0.6增加探索性;如果初始熵很高有爆炸风险,用K等于0.4增强控制性。在配合Clip-Higher等词汇层面技术时,K等于0.4在多个基准上表现稳定。关键是把K当作熵调节器而非性能旋钮,先稳定训练动态,性能提升会随之而来。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
南博事件又添猛将!封蕾被曝光,在私企离职进入事业编,无缝对接

南博事件又添猛将!封蕾被曝光,在私企离职进入事业编,无缝对接

火山詩话
2025-12-28 10:44:39
瓜太大了!有网友质疑,江博从故博借出来的《米芾三札》为假货

瓜太大了!有网友质疑,江博从故博借出来的《米芾三札》为假货

火山詩话
2025-12-28 07:05:19
女子称花30余万买到升级前的特斯拉“老款”拒提车 车企:员工协助下单未执行标准确认流程

女子称花30余万买到升级前的特斯拉“老款”拒提车 车企:员工协助下单未执行标准确认流程

红星新闻
2025-12-28 15:24:12
南京一别墅7489万余元法拍成交,仅物业费就欠30余万元

南京一别墅7489万余元法拍成交,仅物业费就欠30余万元

现代快报
2025-12-28 13:47:08
杜兰特30+7火箭最多领先31分大胜骑士 申京缺席谢泼德18+8

杜兰特30+7火箭最多领先31分大胜骑士 申京缺席谢泼德18+8

醉卧浮生
2025-12-28 11:15:49
养心殿、长春宫、体元殿、乾隆花园,北京故宫多个重要景点陆续开放

养心殿、长春宫、体元殿、乾隆花园,北京故宫多个重要景点陆续开放

澎湃新闻
2025-12-28 14:28:33
银行女经理挪用12个储户3000万,事发后与丈夫双双自尽,储户天塌了

银行女经理挪用12个储户3000万,事发后与丈夫双双自尽,储户天塌了

观世记
2025-12-27 15:02:35
帮儿子带6年娃,孙女要上小学了,儿媳怀上二胎,我果断回了老家

帮儿子带6年娃,孙女要上小学了,儿媳怀上二胎,我果断回了老家

清水家庭故事
2025-12-27 14:32:04
湖北严肃问责185人,包括市委书记、市长、区委书记、区长等

湖北严肃问责185人,包括市委书记、市长、区委书记、区长等

新京报政事儿
2025-12-28 07:47:25
南博事件后,知名博主爆料:江西博物馆的《米芾三札》疑似被调包

南博事件后,知名博主爆料:江西博物馆的《米芾三札》疑似被调包

奇思妙想生活家
2025-12-28 12:11:18
胡塞武装离灭亡不远了——以色列承认并将在索马里兰建立军事基地

胡塞武装离灭亡不远了——以色列承认并将在索马里兰建立军事基地

老王说正义
2025-12-28 00:09:48
章子怡发文为女儿醒宝庆生,十岁了,和妈妈长得越来越像

章子怡发文为女儿醒宝庆生,十岁了,和妈妈长得越来越像

话娱论影
2025-12-28 13:35:00
华人注意!中国“史上最严格”跨境汇款新规下周生效!单笔超人民币5000元就要查!

华人注意!中国“史上最严格”跨境汇款新规下周生效!单笔超人民币5000元就要查!

新西兰天维网
2025-12-28 08:06:32
姜昆风波再升级!拍摄者硬刚,视频不是拼接也不在美国,行程被扒

姜昆风波再升级!拍摄者硬刚,视频不是拼接也不在美国,行程被扒

阿纂看事
2025-12-27 11:02:48
天山胜利隧道通车!其意义不亚于中国建造航母,对新疆意味什么?

天山胜利隧道通车!其意义不亚于中国建造航母,对新疆意味什么?

特特农村生活
2025-12-28 01:00:36
3-0!40岁C罗里程碑战双响 率队10战全胜+4分领跑 1年40球创纪录

3-0!40岁C罗里程碑战双响 率队10战全胜+4分领跑 1年40球创纪录

我爱英超
2025-12-28 00:49:49
江苏“呼啦圈西施”颜倩离世!3岁儿子目睹全程,去年被抢救20天

江苏“呼啦圈西施”颜倩离世!3岁儿子目睹全程,去年被抢救20天

鋭娱之乐
2025-12-28 08:37:07
日本的第二大强援出现!高市早苗拍板,要在中国周边打造一张巨网

日本的第二大强援出现!高市早苗拍板,要在中国周边打造一张巨网

时时有聊
2025-12-28 12:23:00
靓丽好看的打底裤美女,休闲又不失潮流,非常有魅力!

靓丽好看的打底裤美女,休闲又不失潮流,非常有魅力!

朝史暮夕
2025-12-25 10:35:56
绑架虐待同胞的中国网红被抓,戴上手铐讲诉案发经过:伙同当地人一起殴打并用辣椒水喷同胞。

绑架虐待同胞的中国网红被抓,戴上手铐讲诉案发经过:伙同当地人一起殴打并用辣椒水喷同胞。

贴小君
2025-12-28 07:21:30
2025-12-28 16:15:00
至顶AI实验室 incentive-icons
至顶AI实验室
一个专注于探索生成式AI前沿技术及其应用的实验室。
844文章数 151关注度
往期回顾 全部

科技要闻

AR眼镜第一案,究竟在争什么?

头条要闻

泰柬宣布停火当晚 中国官宣做东力邀两国相聚云南

头条要闻

泰柬宣布停火当晚 中国官宣做东力邀两国相聚云南

体育要闻

83分钟绝杀!曼城2-1年度收官:英超6连胜狂飙

娱乐要闻

姚晨打卡绝版机位 高崎机场背后的遗憾

财经要闻

英伟达的收购史

汽车要闻

理想的2026:L9不容有失,i9再战纯电?

态度原创

家居
教育
房产
艺术
数码

家居要闻

格调时尚 智慧品质居所

教育要闻

“三年级就剩2个娃了”,老师晒农村教育现状:咋考都是前三名

房产要闻

降维打击!三亚CBD惊现“豪宅新王”,高端局要变天了!

艺术要闻

360天津总部,以“0与1”打造科技地标!

数码要闻

LG Display CES 2026新品抢先看

无障碍浏览 进入关怀版