网易首页 > 网易号 > 正文 申请入驻

罗格斯大学与Adobe突破:AI智能体实现探索与利用平衡

0
分享至


这项由罗格斯大学的徐武江等研究人员与Adobe公司合作完成的研究发表于2025年9月,论文编号为arXiv:2509.22576v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

想象一下教会一个孩子学习新技能的过程。当孩子学习骑自行车时,最初他们需要大胆尝试各种方法来保持平衡,这就是"探索"。但如果孩子一直胡乱尝试而从不专注于有效的技巧,他们永远学不会骑车。同样,如果他们过早地固执于某种错误方法,也会陷入困境。关键在于找到探索新方法和利用已知有效方法之间的完美平衡点。

这个看似简单的平衡问题,在人工智能领域却是一个巨大挑战,特别是在训练大型语言模型(如ChatGPT这样的AI助手)执行复杂的多步骤任务时。罗格斯大学的研究团队发现了一个前所未有的问题:当AI智能体需要完成那些需要30多步操作才能获得反馈的复杂任务时,传统的训练方法会遭遇一种被他们称为"探索-利用级联失效"的致命陷阱。

这个问题就像一个恶性循环的多米诺骨牌效应。首先,由于任务反馈极其稀少(就像学生做了一整套复杂的数学题,只有在最后才知道答案对错),AI智能体在早期会过度激进地尝试各种策略,这种盲目探索实际上让它陷入了糟糕的行为模式。接着,这些早期的错误决策会像病毒一样传播到后续步骤,导致AI智能体在任务后期变得极度不稳定,无法形成连贯的策略。

为了解决这个根本性难题,研究团队开发了一套名为"熵正则化策略优化"(EPO)的创新框架。这套方法就像为AI智能体配备了一个智能的"学习教练",能够在训练过程中精确控制探索和利用的平衡。

一、探索-利用级联失效:AI智能体训练中的致命陷阱

当我们深入了解这个问题的本质时,可以用一个生动的比喻来理解。假设你正在教导一个学生解决一道需要30个步骤的超级复杂数学题,而且只有在完成所有步骤后才能知道答案是否正确。传统的教学方法会遇到什么问题呢?

在这种极端稀缺反馈的环境中,学生(AI智能体)面临着一个残酷的现实:每一步都充满不确定性,没有即时的对错提示。研究团队发现,这种情况下会出现两个阶段的灾难性失效。

第一阶段是"过度早期探索"。由于缺乏及时反馈,AI智能体会变得极度焦虑,开始疯狂尝试各种可能的解法,就像一个迷路的人在十字路口随机选择方向。这种看似积极的探索实际上是有害的,因为它导致AI智能体在关键的早期步骤中做出大量错误决策,为后续步骤奠定了糟糕的基础。

第二阶段是"不确定性传播"。早期步骤中积累的错误和混乱会像滚雪球一样越滚越大,传播到任务的后期阶段。AI智能体发现自己陷入了一个混沌状态:既无法回到正确轨道,也无法从错误中学习,因为它不知道到底是哪一步出了问题。这就像多米诺骨牌效应,一旦第一张牌倒下,整个系统就会崩溃。

研究团队通过大量实验发现,这种级联失效在两个具有代表性的AI测试环境中都表现得淋漓尽致。在ScienceWorld环境中(这是一个模拟科学实验的文本世界,AI需要进行假设验证和结构化探索),传统方法训练的AI智能体的表现极不稳定,熵值(可以理解为"混乱程度")剧烈波动,奖励曲线平缓甚至停滞。在ALFWorld环境中(这是一个家庭任务模拟环境,包含4639个需要多步决策的家庭任务),情况同样糟糕。

更令人困扰的是,这种失效模式在传统的强化学习方法中是系统性的。无论是PPO(近端策略优化)还是GRPO(群体相对策略优化)这些广泛使用的算法,都无法有效应对这种独特的挑战。传统的熵正则化方法(用来鼓励AI保持探索精神的技术)在这种多步稀疏奖励环境中不仅失效,甚至会加剧问题。

这个发现的重要性不容小觑。随着AI智能体在现实世界中承担越来越复杂的任务——从自动化软件开发到科学研究辅助——解决这种级联失效问题变得至关重要。如果AI智能体无法在复杂的多步任务中稳定学习,它们就无法真正胜任那些需要长期规划和连贯策略的重要工作。

二、EPO框架:为AI智能体配备智能学习教练

面对这个棘手的问题,研究团队没有选择修修补补的方案,而是从根本上重新思考了AI智能体的学习机制。他们开发的EPO框架就像为AI智能体配备了一个经验丰富的学习教练,这个教练具有三项核心技能,能够精确指导AI在复杂任务中的学习过程。

首先是"轨迹感知的熵正则化"技术。传统方法只关注AI在单个步骤中的表现,就像只看学生做单道题的情况。但EPO方法会观察AI在整个任务序列中的表现模式,就像一个好教练会关注学生完成整套练习的节奏和连贯性。这种方法计算的不是某一步的混乱程度,而是整个任务过程中的熵值分布,确保AI智能体在保持必要探索精神的同时,不会在任何阶段过度发散。

具体来说,这个技术会追踪AI智能体在每个回合中所有步骤的熵值,然后在整个训练批次中取平均值。这就像教练不仅关注学生在某一次练习中的表现,还会分析学生在一段时间内的整体学习模式。通过这种方式,EPO能够捕捉到多步任务中独特的时间依赖关系,避免早期步骤的混乱影响后续决策。

第二个关键技术是"熵平滑正则化器"。这个机制的作用就像一个智能的稳定器,防止AI智能体在学习过程中出现剧烈的策略波动。研究团队维护一个"熵历史窗口",记录AI智能体在之前训练步骤中的平均熵值。然后,他们设置了一个可接受的熵值范围,当AI智能体的当前行为超出这个范围时,系统会施加温和的约束。

这种方法的巧妙之处在于它的自适应性。就像一个好教练会根据学生的历史表现调整训练强度,EPO系统会根据AI智能体的学习历史动态调整约束程度。如果AI智能体历史上表现稳定,系统会给予更多探索自由;如果历史上波动较大,系统会增强稳定性约束。这种平衡确保了AI既不会过度保守(错失学习机会),也不会过度激进(陷入混乱状态)。

第三个核心技术是"自适应阶段权重调整"。这个机制认识到AI智能体在不同训练阶段有不同的需求,就像学生在学习的不同阶段需要不同的指导策略。EPO框架采用了一个精心设计的动态系数调整机制,在训练初期鼓励适度的保守探索,在中期实现探索与利用的平衡,在后期强化稳定性以确保收敛。

这个权重调整遵循一个指数调度公式,能够平滑地在不同训练阶段之间过渡。在训练早期,系统会优先防止AI智能体陷入错误的行为模式;在训练中期,系统会平衡探索和利用,让AI既能学习新策略又能巩固有效方法;在训练后期,系统会增强稳定性约束,确保AI能够收敛到一个稳定且有效的策略。

这三个技术的协同作用创造了一个理论上有保障的框架。研究团队证明,EPO能够确保熵方差单调递减,同时保持策略优化的收敛性。这意味着AI智能体的行为会随着训练进展变得越来越稳定和可预测,而不会出现传统方法中常见的性能倒退或策略崩溃。

更重要的是,EPO框架具有很好的通用性,可以与现有的各种强化学习算法(如PPO、GRPO等)无缝集成,为它们提供多步稀疏奖励环境下的稳定性保障。这种设计哲学确保了EPO不是一个孤立的解决方案,而是一个可以广泛应用的增强框架。

三、实验验证:从不可训练到平稳收敛的华丽转身

为了验证EPO框架的有效性,研究团队选择了两个极具挑战性的测试环境,这两个环境就像AI智能体的"地狱级训练场",专门用来考验它们在复杂多步任务中的学习能力。

ScienceWorld环境模拟了一个小学科学实验室,AI智能体需要在这个文本描述的虚拟世界中完成各种科学任务。这些任务要求AI进行系统性的假设检验、因果推理和结构化探索,涵盖物理学(如测试材料导电性、操控物态变化)、化学(如识别酸碱性质、观察化学反应)和生命科学(如根据特征分类生物)等多个领域。每个任务都需要30多个步骤才能完成,而且只有在最终完成时才能获得成功或失败的反馈。

ALFWorld环境则是一个模拟家庭环境,包含4639个不同的家庭任务实例,分为六个主要类别。AI智能体需要理解高层次的自然语言指令,并将其分解为一系列低层次的行动序列。这些任务包括简单的物品放置(如"把杯子放进咖啡机")、涉及多个物体的复杂操作(如同时处理两个物品)、需要改变物体状态的任务(如使用电器加热或冷却物品、用水槽清洁物品)以及更复杂的组合任务。成功完成这些任务需要多步骤规划、空间感知和语言理解能力的完美结合。

实验结果令人震撼。在ScienceWorld环境中,传统的PPO方法与EPO增强版本的对比简直是天壤之别。原始PPO在训练过程中表现极不稳定,熵值剧烈波动,训练奖励长期停滞在较低水平,成功率始终无法突破40%的瓶颈。相比之下,PPO配合EPO后仿佛获得了新生,不仅实现了平稳的训练动态,更在最终性能上取得了惊人的152%提升。更令人印象深刻的是,EPO版本在训练过程中展现出了优雅的收敛特性,熵值平稳下降,奖励曲线呈现健康的上升趋势。

在ALFWorld环境中,虽然提升幅度相对温和,但EPO的效果同样显著。GRPO算法在引入EPO后,在分布内任务上获得了19.8%的性能提升,更重要的是,在分布外任务(即AI未曾见过的任务变体)上也展现出了更强的泛化能力。这表明EPO不仅能帮助AI在已知任务上表现更好,还能增强它们处理新情况的能力。

为了更深入地理解EPO的工作机制,研究团队进行了详细的消融研究。他们发现熵平滑正则化器在ScienceWorld这样的极端稀疏奖励环境中起到了关键作用。当移除这个组件时,AI智能体的学习过程会严重延迟,奖励曲线在前40个训练步骤中几乎没有改善,最终性能也会显著下降。这个发现证实了研究团队的理论分析:在极端稀疏的反馈环境中,传统的探索-利用策略会导致病理性的振荡,而熵平滑机制能够有效打破这种恶性循环。

研究团队还比较了EPO与其他现有方法的性能。相比于基于优势塑形的熵方法(EA),EPO展现出了明显的优势。EA方法虽然在基础PPO的基础上有所改进,但最终只能达到0.5-0.6的成功率平台期,而EPO能够达到接近1.0的近乎完美成功率。这种差异的根本原因在于两种方法对梯度信号的处理方式不同:EA使用分离的熵项作为间接内在奖励,无法为策略提供明确的探索指导,而EPO将熵直接整合到策略损失中,能够提供明确的梯度信号指导AI向更具探索性的行为发展。

更有趣的是,研究团队发现了一个反直觉的现象:在多步稀疏奖励环境中,随时间衰减的熵系数调度策略实际上是有害的。传统智慧认为应该在训练初期鼓励探索,在后期转向利用,但实验结果显示这种方法会过早抑制关键的早期探索,导致AI陷入次优策略。EPO的成功在于它认识到了多步环境中的时间依赖性:早期步骤的决策会根本性地影响后续步骤的可能性,因此需要在整个训练过程中维持一致且稳健的探索压力。

四、理论保障:EPO成功背后的数学基础

EPO框架的成功不仅体现在实验结果上,更重要的是它建立在坚实的理论基础之上。研究团队为EPO提供了严格的数学分析,证明了该方法能够在保证收敛性的同时实现更好的性能边界。

EPO的理论核心在于重新定义了策略优化的目标函数。传统的强化学习方法通常只考虑最大化期望回报和标准熵正则化,但EPO引入了一个额外的"平滑项",这个项能够有效控制策略熵的历史波动。研究团队证明,这种设计能够在三个关键方面提供理论保障。

首先是单调递减的熵方差保证。EPO框架确保AI智能体的行为随着训练进展变得越来越稳定,熵方差会单调下降。这个性质至关重要,因为它意味着AI不会在训练后期出现性能倒退或策略崩溃的情况。数学上,这通过动态系数βk的巧妙设计实现,该系数能够在训练过程中自适应调整正则化强度。

其次是改进的性能边界。相比于标准的最大熵强化学习,EPO能够提供更紧的性能上界。具体来说,EPO的次优性边界包含一个负的"偏差修正项",当最优策略表现出稳定的低方差熵而当前策略出现熵违规时,这个修正项能够有效抵消标准熵偏差的负面影响。这意味着EPO在理论上能够比传统方法更接近最优性能。

第三是收敛性保证。研究团队证明,EPO在满足标准假设条件下能够收敛到稳定的策略。这个收敛性分析考虑了多步环境的特殊性质,包括状态之间的时间依赖性和稀疏奖励的影响。关键洞察是EPO的平滑正则化器能够提供足够的"阻尼"效应,防止策略在优化过程中出现有害的振荡。

EPO的理论优势还体现在它对探索-利用权衡的精准控制上。传统方法往往采用启发式的平衡策略,缺乏理论指导。EPO通过历史熵窗口的设计,能够根据智能体的学习历史动态调整探索强度。当智能体历史表现稳定时,系统会适当放宽约束以鼓励进一步探索;当检测到不稳定性时,系统会增强约束以促进收敛。

研究团队还分析了EPO在不同算法框架下的兼容性。他们证明EPO是一个通用的增强框架,可以与现有的各种策略优化算法(如PPO、GRPO等)无缝集成,为它们提供多步稀疏奖励环境下的稳定性保障。这种通用性来源于EPO的模块化设计:它不改变底层算法的核心逻辑,而是在损失函数层面提供额外的正则化约束。

更深层次的理论贡献在于EPO对多步环境特殊性质的刻画。研究团队指出,多步稀疏奖励环境具有独特的"级联效应":早期步骤的错误决策会通过状态转移传播到后续步骤,造成复合性的性能损失。EPO通过轨迹级别的熵计算和历史感知的约束设计,能够有效缓解这种级联效应。

这些理论分析不仅为EPO的有效性提供了数学证明,也为未来的相关研究提供了重要指导。它们揭示了多步稀疏奖励环境中探索-利用权衡的本质特征,为设计更好的AI智能体学习算法奠定了理论基础。

五、模型研究:深入解析EPO的核心机制

为了更深入地理解EPO框架的工作原理,研究团队进行了一系列精心设计的模型研究,这些研究就像用显微镜观察EPO内部机制的运作方式,揭示了为什么这个方法在多步稀疏奖励环境中如此有效。

第一个重要发现涉及熵正则化的时间调度策略。传统观念认为,AI智能体的训练应该遵循"先探索后利用"的原则,即在训练初期使用高熵系数鼓励探索,然后逐渐降低熵系数转向利用已知的好策略。但研究团队的实验结果彻底颠覆了这种常识。

他们比较了两种方法:一种是保持一致熵正则化系数的EPO-Base,另一种是采用衰减调度的EPO-Decay。结果令人震惊:衰减策略在所有指标上都表现更差。更深入的分析揭示了原因:衰减调度虽然成功降低了训练后期的策略熵,但它过早地抑制了关键的早期探索。在多步环境中,早期步骤的探索不足会导致AI智能体陷入次优的行为模式,即使后期策略变得更加确定性,也无法挽回早期的错误。

这个发现揭示了多步环境的一个重要特征:由于强烈的时间依赖性,早期步骤的决策会根本性地影响后续可能的行为空间。如果AI在早期就限制了探索,它可能永远无法发现真正有效的策略路径。相比之下,EPO通过维持一致的探索压力,确保AI在整个训练过程中都能够访问完整的策略空间。

第二个重要研究关注EPO与基于优势塑形的熵方法(EA)的比较。EA方法通过修改优势函数来间接鼓励高熵行为,而EPO直接在策略损失中集成熵项。实验结果显示,虽然EA在基础PPO上有所改进,但EPO的效果远超EA,最终成功率接近完美的1.0,而EA只能达到0.5-0.6的平台期。

这种差异的根本原因在于梯度信号的处理方式。EA使用分离的熵项作为内在奖励,策略网络无法接收到明确的熵增长信号。换句话说,AI知道高熵行为能获得额外奖励,但不知道如何具体增加熵。相比之下,EPO直接提供梯度信号?θLH(θ),明确指导策略向更具探索性的方向发展。

此外,EA的硬剪切机制可能导致训练不稳定性,其短视特性只考虑瞬时熵而忽略历史模式。EPO的平滑正则化器则提供了更加温和且具有时间感知的约束,能够根据历史表现动态调整约束强度。

研究团队还发现了一个重要的洞察:在LLM智能体场景中,直接修改策略损失可能会严重损害模型的推理能力。由于LLM在预训练期间没有接触过智能体特定的任务,激进的熵正则化可能会破坏模型学习到的表示和推理路径。EPO通过使用历史熵窗口的时间平滑方法,保持了LLM固有推理能力的完整性,同时提供探索指导。这种解耦的正则化方法维护了价值信号的完整性和预训练知识,从而实现更稳健和有效的学习。

第三个模型研究关注动态系数βk的作用。研究团队比较了使用动态βk的完整EPO和使用固定β的简化版本。结果显示,虽然两种方法的最终性能相似,但动态βk能够显著加速早期训练进展并减少训练方差。

动态系数的作用机制可以理解为一个自适应的"学习教练"。在训练初期,当AI智能体还在探索基础策略时,βk较小,系统给予更多探索自由。随着训练进展,βk逐渐增大,系统开始更强调稳定性。这种渐进式的约束调整避免了突然的策略变化,确保了平滑的学习轨迹。

通过这些深入的模型研究,研究团队不仅验证了EPO各个组件的有效性,还揭示了多步稀疏奖励环境中学习的本质特征。这些发现为未来设计更好的AI智能体学习算法提供了重要指导原则:保持一致的探索压力、提供直接的梯度信号、采用时间感知的约束机制,以及保护预训练知识的完整性。

说到底,这项研究为AI智能体在复杂现实任务中的应用铺平了道路。在过去,训练AI完成需要几十步操作的复杂任务几乎是不可能的,因为传统方法会让AI陷入混乱的探索-利用循环。现在,EPO框架提供了一个优雅的解决方案,让AI能够在保持必要探索精神的同时,稳定地学习和改进。

这个突破的意义远超学术范畴。随着AI智能体开始承担更多现实世界的复杂任务——从自动化软件开发到科学研究辅助,从复杂的工业流程控制到多步骤的决策支持——EPO框架提供的稳定学习能力将成为关键的使能技术。它不仅解决了一个特定的技术问题,更是为AI智能体走向真正的实用化奠定了坚实基础。

研究团队已经将EPO的代码开源,让更多研究者和开发者能够受益于这一创新。随着更多团队开始采用和改进这个框架,我们有理由期待AI智能体在处理复杂多步任务方面将迎来新的突破。对于那些关注AI技术发展的读者,这项研究标志着我们向更智能、更可靠的AI助手又迈进了重要一步。

Q&A

Q1:什么是探索-利用级联失效?为什么这个问题这么严重?

A:探索-利用级联失效是AI智能体在学习复杂多步任务时遇到的一种系统性失效模式。就像学生做30步的数学题只能在最后知道对错一样,AI在缺乏即时反馈的情况下会先是盲目尝试各种方法(过度探索),然后这些早期错误会像病毒一样传播到后续步骤,导致整个学习过程崩溃。这个问题严重是因为它让AI无法完成那些需要长期规划的重要任务。

Q2:EPO框架是如何解决这个问题的?

A:EPO框架就像给AI配备了一个智能学习教练,通过三个关键技术解决问题:首先是观察AI在整个任务序列中的表现模式而不只看单步;其次是维护一个"熵历史窗口"来防止AI行为出现剧烈波动;最后是根据训练阶段动态调整探索和利用的平衡。这样AI既不会过度保守错失学习机会,也不会过度激进陷入混乱状态。

Q3:EPO框架的实际效果有多好?能应用到哪些场景?

A:实验结果非常惊人,在ScienceWorld环境中EPO实现了152%的性能提升,在ALFWorld环境中也有19.8%的提升,将原本不可训练的场景转变为平稳收敛的优化问题。EPO可以与现有的各种AI训练算法无缝集成,适用于自动化软件开发、科学研究辅助、复杂工业流程控制等需要多步决策的现实任务。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

不顾央视警告顶风作案,与刘涛传出绯闻的杨烁,究竟是谁给的底气

芳芳历史烩
2025-09-24 20:13:19
中国正在上演的诡异经济

中国正在上演的诡异经济

难得君
2025-10-29 19:26:55
全红婵退赛另有隐情!放弃全运单人不是只保伤,国家队在下一盘棋

全红婵退赛另有隐情!放弃全运单人不是只保伤,国家队在下一盘棋

一只番茄鱼
2025-11-02 23:11:44
1982年戴安娜艰难生下威廉,女王第一眼就赞了孙子的耳朵,很幽默

1982年戴安娜艰难生下威廉,女王第一眼就赞了孙子的耳朵,很幽默

讯崽侃天下
2025-11-02 20:16:57
刘强东带章泽天见客户,章泽天穿四万香奈儿外套,刘强东满脸宠溺

刘强东带章泽天见客户,章泽天穿四万香奈儿外套,刘强东满脸宠溺

一只番茄鱼
2025-11-02 21:32:57
乌军将大规模莫斯科,无人机和导弹全面出动!

乌军将大规模莫斯科,无人机和导弹全面出动!

知兵
2025-10-31 21:38:48
ASML CEO:中国正尝试抛弃我们的光刻机,还可能拿稀土卡我们脖子

ASML CEO:中国正尝试抛弃我们的光刻机,还可能拿稀土卡我们脖子

泠泠说史
2025-11-01 15:55:16
中信建投:A股或进入新一轮横盘调整 关注主线和风格切换

中信建投:A股或进入新一轮横盘调整 关注主线和风格切换

财联社
2025-11-02 18:34:17
你见过哪些惊为天人的神操作?网友:我愿称第一个小姐姐为天人

你见过哪些惊为天人的神操作?网友:我愿称第一个小姐姐为天人

带你感受人间冷暖
2025-11-01 00:10:10
趁着不少人还在观望,中国家长迅速出手,不到300万把文京区卷成“新海淀”

趁着不少人还在观望,中国家长迅速出手,不到300万把文京区卷成“新海淀”

掘金日本房产
2025-11-02 18:05:23
历史再次选中了香港,这次关乎国运!

历史再次选中了香港,这次关乎国运!

米筐投资
2025-08-26 07:11:32
刘嘉玲在录制综艺节目的时候走混搭路线,看起来格外的年轻。

刘嘉玲在录制综艺节目的时候走混搭路线,看起来格外的年轻。

小椰的奶奶
2025-11-02 04:29:45
腿控必看!10位巅峰「美腿女艺人」大盘点!

腿控必看!10位巅峰「美腿女艺人」大盘点!

素然追光
2025-11-03 03:14:58
乔欣为什么喜欢展示她漂亮的大脚丫?

乔欣为什么喜欢展示她漂亮的大脚丫?

老吴教育课堂
2025-11-03 04:24:15
牡丹花下死!结婚刚一个月,娶“白月光”的李国庆彻底成为笑话

牡丹花下死!结婚刚一个月,娶“白月光”的李国庆彻底成为笑话

春秋论娱
2025-09-23 07:20:44
2026年中国载人任务公布,1名航天员将在轨1年,为何如此安排?

2026年中国载人任务公布,1名航天员将在轨1年,为何如此安排?

科学黑洞v
2025-11-02 10:04:45
有哪些泼天富贵你没有接住?网友:就差一点我就成富二代了

有哪些泼天富贵你没有接住?网友:就差一点我就成富二代了

解读热点事件
2025-10-31 00:05:07
花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

花掉三亿人民币,打捞一艘800年沉船,打开船舱后,所有人都懵了

通鉴史智
2025-11-01 07:24:00
毛主席曾留七大预言:当时没人信,如今6个已应验,第7个即将实现

毛主席曾留七大预言:当时没人信,如今6个已应验,第7个即将实现

秀心文雅
2025-09-13 10:25:44
国民党再掀波澜!郑丽文上任真相令人震惊!

国民党再掀波澜!郑丽文上任真相令人震惊!

鲁源写作读书会
2025-11-01 06:00:07
2025-11-03 06:19:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
6083文章数 540关注度
往期回顾 全部

科技要闻

10月零跑突破7万辆,小鹏、蔚来超4万辆

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

头条要闻

马来西亚首富之子买上海大平层 449平米1.17亿元

体育要闻

这个日本人,凭啥值3.25亿美元?

娱乐要闻

陈道明被王家卫说他是阴阳同体的极品

财经要闻

段永平捐了1500万元茅台股票!本人回应

汽车要闻

神龙汽车推出“发动机终身质保”政策

态度原创

游戏
数码
教育
公开课
军事航空

TES给Faker打困了!网友称第一次见到Faker打哈欠

数码要闻

麒麟9030处理器突然曝光:1+4+4六核狂飙,可惜工艺不详!

教育要闻

TTS新传论文带读:新词新词!!!来看看什么叫做“报格”!!!

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

俄在日本海演习击沉假想敌潜艇

无障碍浏览 进入关怀版