网易首页 > 网易号 > 正文 申请入驻

TBC-HRL:受生物启发的稳定且可解释的分层强化学习框架

0
分享至

TBC-HRL:一种受生物启发的稳定且可解释的分层强化学习框架

TBC-HRL: A Bio-Inspired Framework for Stable and Interpretable Hierarchical Reinforcement Learning

https://www.mdpi.com/2313-7673/10/11/715


摘要

分层强化学习(HRL)通过分解复杂的决策过程,在长时域和稀疏奖励任务中表现出有效性,但由于层级间不稳定、子目标调度效率低下、响应延迟以及可解释性差等问题,其在现实世界中的应用仍受限。为应对这些挑战,我们提出了一种受生物启发的框架——定时仿生电路分层强化学习(TBC-HRL),该框架整合了两种机制。首先,一种定时子目标调度策略为每个子目标分配固定的执行持续时间,模仿动物行为中的节奏性动作模式,以改善层级间的协调并保持目标一致性。其次,受秀丽隐杆线虫(C. elegans)神经回路启发的神经动力学仿生电路网络(NDBCNet),取代了低层控制器中的传统全连接网络。NDBCNet 具有稀疏连接、连续时间动态和自适应响应等特点,能更有效地建模时间依赖关系,同时提供更好的可解释性和更低的计算开销,使其适用于资源受限的平台。在六个动态且复杂的模拟任务中的实验表明,与传统 HRL 相比,TBC-HRL 持续提升了策略稳定性、动作精确性和适应性,展示了生物启发结构在智能控制系统中的实用价值和未来潜力。

关键词:分层强化学习;仿生神经回路;定时子目标调度;液态时间常数网络;神经动力学控制;机器人学习;自主机器人;智能控制系统

  1. 引言

强化学习(RL)在解决复杂控制任务方面展现了强大的潜力,并已在机器人导航、机器人操作和自动驾驶等领域得到广泛应用 [1–4]。在各种 RL 架构中,分层强化学习(HRL)因其“高层决策—低层执行”结构而尤为有效,该结构提升了样本效率,并增强了长时域任务中的策略泛化能力。通过将复杂问题分解为子目标,HRL 缓解了稀疏奖励的挑战,并支持模块化策略设计 [5–8]。然而,尽管具有这些理论优势,HRL 在现实世界部署中仍面临关键性限制,包括层级间协调不稳定、缺乏节奏性子目标调度、低层响应不足以及高计算成本 [9,10]。

这些挑战可归纳为三个方面。
第一,层级间协调往往不稳定:由于高层策略依赖于低层反馈,在低层策略尚未收敛前便可能产生策略偏差,导致学习速度缓慢甚至振荡;频繁的子目标切换进一步引发调度失衡,降低行为的一致性与效率[11,12]。
第二,低层控制器的响应能力往往不足:传统全连接网络对突发环境变化适应缓慢,而反应式策略则缺乏记忆能力以整合历史信息,使其难以建模速度变化、障碍分布及能耗模式等时间依赖关系[13]。
第三,现有策略网络在可解释性与计算效率上均存在局限:大多数网络实现为“黑箱”模型,其决策来源难以追溯,引发安全隐患;此外,庞大的参数量及显著的计算开销也阻碍了分层强化学习在嵌入式或资源受限平台上的部署[14]。

为应对上述问题,近期研究开始借鉴生物神经系统与行为机制的启发[15,16]。自然界中,生物体展现出极强的适应性、鲁棒性与能效性,其神经调控系统形成了感知、决策与控制之间层次分明的结构[17]。例如,昆虫仅凭极简的神经结构即可实现稳定的路径规划与目标追踪;线虫(C. elegans)仅通过少量相互连接的神经元便能产生复杂的运动行为[18];而脊椎动物则依赖大脑皮层与脑干间的多层级协调实现运动控制[19]。这些实例表明,层级化决策结构、突触调控机制以及时间调控策略对稳定行为生成至关重要。尤其值得注意的是,许多动物仅在完成一个行为单元后才重新评估环境反馈,从而提升效率与连续性。这种“目标维持—反馈评估—周期性更新”的机制为高效的子目标调度与稳定学习提供了灵感。此外,生物神经系统具备连接稀疏性、快速响应性与强信息保持能力,为设计具可解释性与高效率的控制网络架构提供了新方向。

受上述生物机制启发,我们提出TBC-HRL——一种仿生框架,旨在克服传统分层强化学习在调度稳定性、控制响应性及计算效率方面的局限。该框架整合了两个核心组件:

第一,定时子目标调度机制(Timed Subgoal Scheduling):为每个子目标分配固定的执行时长(τ),借鉴生物行为中的时间持续性原理。此举可减少频繁子目标切换带来的干扰,改善层级间协同,并稳定低层学习过程与响应表现。

第二,神经动力学仿生电路网络(Neuro-Dynamic Bionic Circuit Network, NDBCNet):受线虫(C. elegans)神经环路启发,用于替代低层策略中的传统全连接网络。NDBCNet 具备稀疏连接、连续时间动态特性与自适应响应能力,可有效建模时间依赖关系,强化行为调控,并提升模型可解释性;其紧凑的参数化设计进一步降低了计算开销,同时保持鲁棒性能。

通过结合这些机制,TBC-HRL 实现了更稳定、响应更迅速且更具可解释性的控制,突显了仿生结构在强化学习中的实用价值。

本工作的主要贡献如下:

  • 我们提出了 TBC-HRL,一种分层强化学习框架,将定时子目标调度与一种受生物启发的神经回路模型(NDBCNet)相结合,以应对 HRL 中协调不稳定、响应延迟和可解释性有限等核心挑战。
  • 我们在六个具有稀疏奖励和长时域的模拟机器人任务中评估了 TBC-HRL,结果表明,相较于标准 HRL 方法,其在样本效率、子目标稳定性及策略泛化能力方面均表现出持续提升。
  • 我们对 NDBCNet 进行了详细分析,并展示了其结构稀疏性、时间动态特性以及自适应响应能力如何共同促成在复杂环境中实现鲁棒且可解释的低层控制。
  1. 相关工作

2.1 分层强化学习在现实任务中的局限性

分层强化学习(HRL)通过将策略分解为不同层级,在复杂控制任务中实现了较高的样本效率与较强的策略泛化能力:高层策略生成子目标,低层策略负责执行子目标,从而缓解了长时域任务中奖励稀疏的问题。代表性方法包括 Option-Critic、FeUdal Networks、HIRO 与 HiTS[20–23]。然而,HRL 在现实场景中仍面临若干关键挑战。

首先,高层策略高度依赖于低层策略的反馈;而在训练初期,低层学习尚不稳定,常导致高层策略无法收敛,进而引发非平稳更新。其次,子目标调度缺乏节律性与时间协调性,频繁切换子目标会干扰低层学习效率。第三,现有大多数 HRL 框架采用全连接神经网络作为策略逼近器,这类网络结构复杂、响应迟缓、可解释性有限,难以满足实时性、能效性与稳定性要求较高的控制应用需求。

因此,亟需构建具备节律感知调度能力、轻量化网络结构以及仿生特性的层级架构,以提升层级间协调的稳定性,并降低响应延迟。

2.2 子目标调度与时间抽象机制

在 HRL 中,高层策略对子目标的生成与调度对整体性能与稳定性至关重要。目前已提出多种方法以提升调度的合理性与适应性。例如,HIRO 采用固定间隔调度,方法简单但缺乏对环境的适应性;FeUdal Networks 与 SNN-HRL[24]引入了状态触发机制,增强了感知响应性,却可能导致策略振荡;HiTS 采用可学习的切换策略,能自主判定子目标切换时机,但由于缺乏显式的时间约束,在低层策略中仍可能引发频繁切换与碎片化学习。

此外,随着训练过程中低层策略持续演化,高层策略实际运行于一个非平稳的半马尔可夫决策过程(SMDP)中:其状态转移动态变化,阻碍收敛并降低样本效率。尽管已有研究提出事后重标注(hindsight relabeling)与邻接损失(adjacency loss)等技术以缓解该问题,但其效果仍受限于策略稳定性及子目标空间的复杂性。

值得注意的是,现有大多数方法忽视了子目标执行过程中的时间连续性与行为节律性。在现实任务中,缺乏这些特性往往导致调度信号呈现离散性与不稳定性,削弱高层与低层之间的协同。相比之下,生物体常通过节律性、持续性的动作序列(如昆虫觅食或动物运动控制)实现行为稳定——这启发我们在高层调度中引入显式时间约束,以提升系统的稳定性与执行效率。

与以往主要关注“子目标应在何时切换”(即调度时刻)的工作不同,我们的框架强调对子目标持续时间 τ 的显式建模。通过为每个子目标分配固定的执行时长,高层控制器实现了具有节律性的时间抽象,减少了过度切换,并稳定了层级间的协同。这一差异凸显了我们的核心贡献:从基于时刻的子目标触发机制,转向基于持续时间的调度机制,从而增强长时域下的信用分配能力,并整体提升策略的稳定性。

2.3 仿生神经网络结构在智能控制中的应用

近年来,受生物神经系统的启发,研究人员提出了一系列具备强大时序建模与动态调控能力的仿生神经网络架构,包括脉冲神经网络(SNNs)[25]、液态时间常数网络(LTC)[26]以及神经环路策略(NCPs)[18]。这些模型通过稀疏连接与神经元状态的动态演化,模拟了膜电位动力学过程,在时间序列建模、自适应控制及可解释性方面展现出显著优势,并在机器人控制、运动预测及序列决策等任务中展现出广阔的应用前景[27–29]。

与传统全连接神经网络相比,仿生结构通常参数更少、计算效率更高、鲁棒性更强,因而特别适用于资源受限或实时性要求高的控制场景。然而,目前大多数研究集中于将仿生神经网络应用于单层策略框架中;其在分层控制架构中的整合仍鲜有探索,为未来研究留下了广阔空间。

  1. 背景

3.1 MDP 与 SMDP

强化学习(RL)问题通常被建模为马尔可夫决策过程(MDP),其由状态空间 、动作空间 、状态转移动态 P(s′|s, a)、奖励函数 R(s, a) 以及折扣因子 γ ∈ [0, 1] 定义。智能体根据策略 π(a|s) 与环境交互,以最大化期望折扣回报:


虽然 MDP 适用于许多任务,但由于其单步决策粒度,在长时域和稀疏奖励问题中表现不佳。为解决此问题,HRL 扩展至半马尔可夫决策过程(SMDP),其中高层策略输出由低层策略执行的、持续多个时间步的时序抽象动作(子目标)。这种抽象有助于提升探索能力,但会引入非平稳动力学,因为高层策略依赖于不断演化的低层策略,且稳定性对 τ 的选择高度敏感。

3.2 基于子目标的 HRL

在基于子目标的 HRL 中,高层控制器生成子目标 g ∈ ,而低层策略则执行基本动作以实现这些子目标。因此,子目标的调度对整体性能至关重要。现有方法采用不同策略:HIRO[22]使用固定时间间隔,结构简单但适应性差;FeUdal Networks 与 SNN-HRL[24]依赖状态触发更新,虽提升了响应性,却可能引发振荡;HiTS[23]自适应学习切换点,但因缺乏显式时间约束,仍可能出现频繁切换与行为碎片化。

总体而言,当前方法缺乏节律感知调度与自适应时间抽象机制,这限制了其在现实部署中的稳定性与效率。这些问题促使我们开发一种结合显式时间协调与鲁棒分层控制的机制——正如本文所追求的方向。

  1. 方法

4.1 总体架构:TBC-HRL

我们提出 TBC-HRL,一种双层级分层强化学习框架,它将高层 SAC 策略与由 NDBCNet 参数化的低层 SAC 策略相结合。所提框架的整体结构如图 1 所示,该图提供了高层控制器、低层控制器与环境之间交互的系统级概览。高层控制器 π₁ 在粗粒度时间尺度上运行,通过定时子目标调度机制生成空间子目标 g 及其时间预算 τ⁰,确保层级间的时间协调。低层控制器 π₀ 在细粒度时间尺度上与环境交互,根据子目标及其预算执行相应动作。两个层级均维护独立的经验回放缓冲区(ₕ, ₗ)及用于 SAC 更新的 Q 函数评估器,从而实现解耦但协调的优化。该设计增强了在长时域和稀疏奖励任务中的稳定性、样本效率与泛化能力。


其中,g⁰ 表示空间子目标(例如,目标位置或状态向量),Δt⁰ 指定了在低层时间步长中的执行时域。高层奖励 rᵗᴴ 根据任务进展计算,并更新频率较低,通常每 Δt⁰ 个低层步长更新一次。

我们将时间预算 Δt 视为一种时间抽象机制,它像低通滤波器一样抑制高层切换:过小的 Δt 会引发频繁的重新同步与跨层级非平稳性,而过大的 Δt 则会导致对环境外部事件反应迟缓。在实践中,我们采用一个简单且可复现的规则,使 Δt 随典型子目标可达性进行缩放:






4.2 高层策略生成








高层模块整合了基于SAC的优化、显式时间抽象和后见重标记,实现了高效、有节奏且受生物启发的子目标调度。

4.3 神经动态仿生控制网络

为了提高低层策略的响应性和控制精度,我们引入了NDBCNet,这是一种受秀丽隐杆线虫紧凑高效神经系统启发的生物神经架构。与传统依赖离散层和固定步长更新的全连接网络不同,NDBCNet采用稀疏连接性、连续时间动态和兴奋/抑制调节,实现细粒度的时间建模和强化学习中的鲁棒控制。






其中较小的值表示更快的响应。这个属性允许低层控制器快速适应高层子目标更新。

为了部署,我们推导出一个常微分方程(ODE)解的闭式近似,这显著加速了推理过程,而无需重新训练:


相对于精确解有界的误差。这种效率使得NDBCNet非常适合用于分层强化学习中的实时低层控制。

NDBCNet为低层控制提供了一种紧凑、可解释且动态响应的架构,结合了生物学动机的稀疏性与连续时间建模,以提高鲁棒性、适应性和计算效率。




4.4 低层策略生成和优化




与传统的多层感知器相比,NDBCNet提供了:(i)通过连续时间动态实现的优越时间建模,(ii)通过稀疏和模块化架构增强的可解释性,(iii)通过递归结构和有界梯度传播提高的稳定性,以及(iv)在每个子目标执行窗口 τ 内的高响应性。这些特性提高了对噪声的鲁棒性,加速了收敛,并在动态、长时域任务中增强了低层控制精度。

4.5 策略优化和训练过程



这提供了一种时间感知的表示,用于经验重放和后见重标记。这使得低层控制器不仅能够学习如何达到子目标,还能学习如何在固定的时间预算内分配动作。



通过这种方案,低层控制器学习精确的、时间受限的行为,而高层策略专注于任务分解和子目标调度。它们共同提高了长时域任务中的探索效率、鲁棒性和时间协调。完整的训练过程总结在算法1中。




  1. 实验

5.1 实验环境

为了全面评估所提出的TBC-HRL算法,我们在六个具有代表性的模拟环境中进行了实验,这些环境在任务难度、动态性和控制要求方面各不相同(见图3)。这些环境的训练步骤、状态/动作维度和关键特征总结在表1中。所选环境涵盖了广泛的任务,包括导航、操作、平衡控制和动态交互,为评估在长时域依赖和稀疏奖励下的性能提供了坚实的基础。


  • AntFourRooms:一个四足机器人通过一个四室迷宫从起点导航到指定的目标房间。环境包含狭窄的通道和障碍物,强调长时域规划和障碍物规避。

  • 吊桥:一个时间控制场景,代理必须操作吊桥以允许船只安全通过。该任务强调动态环境中的时间协调和主动预期。

  • 摆:一个经典的控制问题,要求摆锤被摆动并稳定在顶部。其非线性动态和连续动作空间需要精确的力量应用和平衡维护。

  • 平台:一个侧滚式任务,代理必须在正确的时刻触发移动平台以到达目标。延迟的动作效果和稀疏的奖励使其成为时间推理和信用分配的基准。

  • Tennis2D:一个机械臂必须击球,使其落在目标区域。成功需要在高随机性和频繁接触下精确的时机,控制延迟最小。

  • UR5Reacher:一个工业机器人臂控制任务,涉及在避免碰撞的同时达到多个目标。它评估在高自由度系统中的准确性、路径效率和能量效率。

在所有环境中,我们报告成功率、样本效率(以达到性能阈值所需的训练步骤数来衡量)和策略稳定性(方差)作为主要评估指标。重要的是,这些环境的特征与TBC-HRL的核心贡献一致:长时域和稀疏奖励强调了定时子目标调度的好处,而动态扰动和高维控制则突出了NDBCNet的响应性和可解释性优势。完整的NDBCNet配置和每个算法的超参数在附录A表A1和表A2中提供。

为了评估观察到的改进是否具有统计学意义,我们使用已经收集的运行结果(无需额外训练)计算双侧显著性检验和置信区间。除非另有说明,否则我们汇总每个环境中独立种子的分数,并在每个种子的评估情节中汇总。


5.2 实验结果

我们在六个环境中比较了四种方法(图4,表2):SAC、HAC、HITS和TBC-HRL。SAC是一个单层基线;HAC是一个不包括定时子目标调度或NDBCNet的双层变体;HITS是一个时间感知的分层强化学习基线,其中高层策略提出子目标,低层控制器执行它们;TBC-HRL通过定时子目标机制和NDBCNet增强了分层框架。所有方法共享相同的状态/动作空间、奖励函数和训练预算。在表2中,收敛增益表示TBC-HRL相对于最强基线(SAC/HAC/HITS中的最佳)达到目标阈值所需的训练步骤的减少。阴影带表示95%自举置信区间,最终周期标记报告与最强基线相比的显著性。为了确保公平比较,我们匹配超参数调整和预算,报告10个随机种子的结果,按最终周期均值 ± 标准差汇总,使用共同的成功阈值进行收敛,并呈现95%自助置信区间。


时间关键环境(吊桥、平台、网球2D)。在需要明确时间节奏和阶段进展的任务中,TBC-HRL始终收敛最快,并且达到最高的最终成功率。总体而言,TBC-HRL通常比最强基线提前约0.4-0.8百万步达到目标,并且学习曲线更平滑。例如,在平台上,TBC-HRL的成功率约为72%,而HITS大约为43%。在网球2D中,TBC-HRL达到约38%,而HITS约为24%,然而,所有方法都没有在预算内实现稳定收敛,因此没有报告收敛增益。

精确控制和动态响应(四足蚂蚁房间、UR5Reacher、摆)。在强调精细控制和快速响应的任务中,TBC-HRL再次实现了最佳的最终成功率和更稳定的收敛。在四足蚂蚁房间中,TBC-HRL约为90%,而HITS大约为84%;在UR5Reacher中,97.6%对比96.6%,方差更低,曲线更平滑。在摆中,所有方法都迅速达到高性能,留下的进一步改进空间有限。

总结来说,在所有六个环境中,TBC-HRL都达到了最佳的最终成功率。它在时间关键任务中显示出明显的样本效率优势,在精确控制任务中表现出更稳定的高性能。定时子目标(稳定层间协调和长时域信用分配)和NDBCNet(增强低层精度和适应性)的结合解释了观察到的特征:更快的学习、更低的方差和更高的渐近成功率。

图5展示了UR5Reacher环境中第三关节运动的不同指挥神经元的激活动态。可视化从低(蓝色)到高(红色)沿着空间轨迹过渡,反映了TBC-HRL在运动执行期间如何处理时间序列信号。


在UR5Reacher中,指挥神经元,表明对特定关节配置或方向的敏感性,而指挥神经元。这种劳动分工表明NDBCNet促进了神经元之间的功能专业化,以捕捉不同的运动特征,从而提高控制精度和协调性。

为了提供与这些模式一致的定量支持,我们评估了保留轨迹上的四种互补措施。损伤实验表明,移除最活跃的前5个神经元会导致相对性能下降12.8 ± 2.3%。神经元活动与任务特征(例如,速度、高度变化和能量消耗)之间的平均皮尔逊相关系数为0.47 ± 0.06。最后,神经元激活与子目标阶段之间的互信息平均为0.36比特(第90百分位数为0.52比特)。这些结果与图5中的空间-时间激活布局一致,表明在子目标窗口内具有特定阶段的响应和有助于解释模型在复杂控制任务中的决策过程的结构化内部动态。

5.3 消融研究

对于消融实验(TS-off和NDBCNet-off),我们通过宽度调整或零填充匹配参数总数在±0.5%以内,并精确匹配训练预算(总环境步骤、梯度更新、批量大小、重放比例和评估频率)。优化器计划和熵温度目标在不同变体中保持固定。 我们比较了四种配置(图6和表3):(1)完整的TBC-HRL,同时具有NDBCNet和定时子目标(TS),(2)TBC-HRL(-NDBCNet),其中低层策略被MLP替换,但保留了TS,(3)TBC-HRL(-TS),保留了NDBCNet但去除了TS,以及(4)没有任一组件的HAC。


总体而言,TBC-HRL始终实现了最佳成功率、更快的收敛速度和更低的方差。移除TS或NDBCNet会降低性能,而HAC是最弱且最不稳定的,这证实了这两个组件都是必要且互补的。

任务级分析显示了不同的作用。在空间复杂或高自由度任务(如AntFourRooms和UR5Reacher)中,NDBCNet至关重要:TBC-HRL在AntFourRooms中实现了约90%的成功率,而没有NDBCNet时为71%,HAC为75%。在对时间敏感的环境(如Drawbridge、Platforms和Tennis2D)中,TS更为重要;例如,在Drawbridge中,没有TS时成功率从71%(全部)降至57%,而HAC为36%。摆锤相对简单:所有方法的成功率都超过80%,TBC-HRL显示出略微更快和更稳定的收敛。

从机制上讲,TS通过分配固定的执行持续时间 τ 来稳定层间协调,从而在时间关键设置中改善时间信用分配。NDBCNet以其稀疏连接性和连续时间动态,更有效地捕捉非线性和延迟,从而在高维控制中提高精度。这些模块之间的协同作用解释了在TBC-HRL中观察到的改进的收敛速度、稳定性和渐近性能,而每次消融下的系统性下降则强调了它们互补的贡献。定量地,移除TS在对时间敏感的环境(Drawbridge、Platforms、Tennis2D)中平均成功率降低了约14%,而移除NDBCNet在空间复杂任务(AntFourRooms、UR5Reacher)中性能降低了大约11%,进一步证实了它们独特但互补的作用。

本研究介绍了TBC-HRL,它将定时子目标调度与NDBCNet结合用于低层控制。如图4所示,并由图6中的消融研究证实,完整的框架与HAC和单组件变体相比,实现了更高的渐近成功率、更快的收敛速度和更低的跨种子变异性。

特定环境的分析揭示了任务依赖的模式:空间复杂或高自由度设置(AntFourRooms、UR5Reacher)更多地受益于NDBCNet,而时间关键任务(Drawbridge、Tennis2D、Platforms)则更多地从TS中获益。在简单的摆锤任务中,所有方法的表现相当,但TBC-HRL仍然稍微更快和更稳定地收敛。从机制上讲,TS通过分配固定的执行持续时间 τ 来加强固定的执行持续时间,这减轻了层间抖动并改善了时间信用分配,而NDBCNet引入了稀疏的、连续时间动态,更好地捕捉非线性和延迟。

重要的是,TS和NDBCNet的协同作用在不同环境中始终一致地提高了收敛速度、稳定性和最终性能。定量地,移除TS会使时间敏感任务的平均成功率降低约14%,而移除NDBCNet会使空间复杂设置的性能降低约11%。神经元级别的可视化进一步突出了控制器内的功能专业化,将这些收益与提高的可解释性联系起来。除了经验上的改进,这些发现表明,将生物学启发的时间抽象和神经动态纳入考虑代表了一种新的稳定和可解释的分层强化学习的设计范式。


  1. 结论

总结来说,TBC-HRL通过将定时子目标调度与NDBCNet结合,在六个基准环境中实现了收敛速度、稳定性和最终性能的一致改进。结果表明,TS减少了时间敏感任务中的层间抖动,并加强了时间信用分配,而NDBCNet提供了稀疏的连续时间动态,增强了空间复杂或高维设置中的精度和鲁棒性。神经元级别的可视化进一步揭示了学习控制器内的功能专业化,提供了改进的可解释性,并将观察到的性能提升与生物学启发的设计原则联系起来。

尽管有这些贡献,本研究有几个局限性,包括使用固定的 τ 和专注于模拟环境。未来的研究将探索自适应或学习调度策略,扩大与包括基于模型和分层方法在内的更广泛基线的比较,并研究在非平稳和迁移设置下的鲁棒性。此外,将进行模拟到现实的验证和因果可解释性探测,以进一步证实所提出框架的生物学启发和实际应用性。


原文链接:https://www.mdpi.com/2313-7673/10/11/715

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
张水华辞职后首次重马获国内女子第4名,本人回应:体重涨了五六斤;其丈夫:非常满意,成绩超预期

张水华辞职后首次重马获国内女子第4名,本人回应:体重涨了五六斤;其丈夫:非常满意,成绩超预期

大象新闻
2026-01-18 14:45:14
朝鲜第一“妖女”,与国王在宴会上“办事”,比妲己还夸张

朝鲜第一“妖女”,与国王在宴会上“办事”,比妲己还夸张

老澽爆笑大聪明
2026-01-13 20:00:05
数百人连夜逃离柬埔寨!

数百人连夜逃离柬埔寨!

缅甸中文网
2026-01-18 14:27:08
伊朗驳斥特朗普关于绞刑​​被取消的说法,嘲讽特朗普胡说八道

伊朗驳斥特朗普关于绞刑​​被取消的说法,嘲讽特朗普胡说八道

山河路口
2026-01-17 23:03:38
聂卫平葬礼曝光:大儿子手捧遗照痛别,全家都聚齐,现场人山人海

聂卫平葬礼曝光:大儿子手捧遗照痛别,全家都聚齐,现场人山人海

动物奇奇怪怪
2026-01-18 12:42:02
被北控绝杀后!广东作出重大决定,崔永熙提前复出,奎因将离队?

被北控绝杀后!广东作出重大决定,崔永熙提前复出,奎因将离队?

绯雨儿
2026-01-18 11:22:27
1975年,基辛格给毛主席下了一道命令,主席写了张纸条回击,尼克松看后直摇头:这气魄谁能比?

1975年,基辛格给毛主席下了一道命令,主席写了张纸条回击,尼克松看后直摇头:这气魄谁能比?

老杉说历史
2026-01-12 22:07:15
单纯控球没意义!曼城真核炮轰瓜帅战术 首回合赢球法宝被抛弃

单纯控球没意义!曼城真核炮轰瓜帅战术 首回合赢球法宝被抛弃

雪狼侃体育
2026-01-18 13:43:15
莫耶斯:格拉利什的红牌让所有人失望,为裁判鼓掌的行为很蠢

莫耶斯:格拉利什的红牌让所有人失望,为裁判鼓掌的行为很蠢

懂球帝
2026-01-18 11:31:06
什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

什么事是你交了男朋友才知道的?网友:鼻子大的真的大还厉害

带你感受人间冷暖
2025-11-12 00:05:08
董路:我给宋凯提了1建议但没被采纳 邵佳一力劝安东尼奥放弃传控

董路:我给宋凯提了1建议但没被采纳 邵佳一力劝安东尼奥放弃传控

风过乡
2026-01-18 09:38:21
烟酒成瘾只是冰山一角!74岁聂卫平患疗状态曝光,放纵的代价太大

烟酒成瘾只是冰山一角!74岁聂卫平患疗状态曝光,放纵的代价太大

翰飞观事
2026-01-17 21:18:24
“地震中消失的人去哪了?”网友的扎心评论,直接看哭了上万网友

“地震中消失的人去哪了?”网友的扎心评论,直接看哭了上万网友

另子维爱读史
2026-01-15 18:13:19
还是得认命!75岁意外摔倒、分不清人的刘晓庆,终要败在年龄上了

还是得认命!75岁意外摔倒、分不清人的刘晓庆,终要败在年龄上了

甜柠聊史
2025-12-03 15:14:30
冬至夜黄晓明带前妻回青岛团圆,婆媳相拥破镜难重圆却获赞体面

冬至夜黄晓明带前妻回青岛团圆,婆媳相拥破镜难重圆却获赞体面

老吴教育课堂
2026-01-16 05:08:31
外交部长王毅年轻时旧照,与妻子同框合影,岳父曾是周总理秘书

外交部长王毅年轻时旧照,与妻子同框合影,岳父曾是周总理秘书

万物知识圈
2025-12-25 09:07:23
林彪向来不爱与人寒暄,却对一人破例,他主动说道:有事没事来家里玩

林彪向来不爱与人寒暄,却对一人破例,他主动说道:有事没事来家里玩

文史明鉴
2026-01-18 00:26:12
故事:86年我去相亲,丈母娘让我和大姐睡一屋,那晚我难以忘怀

故事:86年我去相亲,丈母娘让我和大姐睡一屋,那晚我难以忘怀

青青会讲故事
2025-03-01 14:05:29
卡戴珊家族:NBA公认的“最佳防守阵容”

卡戴珊家族:NBA公认的“最佳防守阵容”

述家娱记
2026-01-18 14:44:25
“砸折手指骗保”,5名外卖骑手获刑:累计作案8起,骗取3家保险公司32万余元

“砸折手指骗保”,5名外卖骑手获刑:累计作案8起,骗取3家保险公司32万余元

扬子晚报
2026-01-18 13:56:39
2026-01-18 15:16:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1158文章数 18关注度
往期回顾 全部

科技要闻

AI大事!马斯克:索赔9300亿元

头条要闻

一天两枚火箭发射失利 中国航天科技集团发文回应

头条要闻

一天两枚火箭发射失利 中国航天科技集团发文回应

体育要闻

越南媒体:李昊将成为越南U23面临的巨大挑战

娱乐要闻

43岁贾玲退出春晚、解散公司

财经要闻

BBA,势败如山倒

汽车要闻

林肯贾鸣镝:稳中求进,将精细化运营进行到底

态度原创

数码
亲子
家居
本地
公开课

数码要闻

华为MateBook Pro电脑通过OpenHarmony 6.0 Release认证

亲子要闻

沉浸式遛娃,最近的昂萨梅朵越来越可爱啦

家居要闻

岁月柔情 现代品质轻奢

本地新闻

云游内蒙|黄沙与碧波撞色,乌海天生会“混搭”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版