网易首页 > 网易号 > 正文 申请入驻

贝叶斯机器学习在超高性能混凝土逆向设计中的应用

0
分享至

Bayesian machine learning for inverse design of ultra-highperformance concrete

贝叶斯机器学习在超高性能混凝土逆向设计中的应用

https://royalsocietypublishing.org/rsta/article/383/2305/20240041/234826/Bayesian-machine-learning-for-inverse-design-of


可用原材料的多样性,加之严苛的性能要求,使得超高性能混凝土(UHPC)的设计变得复杂。本文首先基于已发表的UHPC数据,展示了一种贝叶斯逆向设计方法。材料在一种分层机器学习框架下进行表征;本研究的一个核心目标是:比较以成分变量为参数的模型与以基于经验模型提取的潜在变量(latent variables)为参数的模型在预测精度与泛化能力方面的差异。

首先,数据通过集成岭回归(ensemble ridge regression)进行建模;以“校准偏差面积”(miscalibration area,一种贝叶斯误差度量指标)评估发现:相较于以成分变量为参数的模型,以潜在变量为参数的模型展现出更优的泛化能力。随后,研究采用基于扩展特征集的高斯过程回归(Gaussian process regression)来预测抗压强度;出人意料的是,以成分变量为参数的模型取得了更高的预测精度(测试集),而以潜在变量为参数的模型精度较低(测试集)。然而,后者在预测使用未经测试细骨料的设计性能时更为准确,并成功预测出若干新型配比,其抗压强度表现优异——这与模型校准偏差误差的显著降低相一致。

上述结果表明:在贝叶斯机器学习框架中,潜在变量能够提供更广义的变量空间泛化能力,对未经测试的原材料实现稳健预测,并可指导发现具备最优性能的新型UHPC配比。

本文属于主题特刊《科学与工程中应用型反问题的前沿》(Frontiers of applied inverse problems in science and engineering)的一部分。

  1. 引言

    胶凝材料的组分复杂性——包括水泥种类、细骨料与粗骨料、辅助胶凝材料(SCM)、外加剂及纤维等——构成了一个高维输入变量空间;在该空间中,需在成本、原材料可得性与环境影响等多重约束下,对一系列相互竞争的性能指标(如流动性、凝结时间、强度与耐久性)进行协同优化[1, 2]。然而,对这类材料开展预测建模的核心困难在于组分本身的变异性:即便标签相同(如CEM I水泥、砂、粉煤灰),不同来源的材料可能因其底层原材料分布广泛而对最终材料性能产生显著差异。


其一,超大规模数据集(尤其是源自现场测试的混凝土性能数据)往往质量低于受控实验室数据,导致组分与工艺变量的标定以及响应测量结果中误差风险更高;其二,密切相关的问题是:不同来源的原材料虽标签相同,但其化学与物理特性及其对材料性能的影响可能迥异,使得在名义配比相同而实际响应不同的情形下,回归建模变得复杂;其三,一个较少被关注的问题是:构建模型所依据的变量(或特征)在响应曲面上的预测能力可能不均一,从而导致在有限配比范围内训练出的模型无法良好泛化,并产生过度自信的不确定性估计。例如,仅基于化学计量学(stoichiometry)预测材料性能时,面临建模一个庞大响应曲面的挑战,而实际可获数据仅覆盖其极小部分。在机器学习中,可通过构建模型集成(ensemble of models)——即每一模型代表对特定配比的一种假设性预测——来理解并应对这一挑战[5]。

因此,亟需一种建模框架,能够对组分变量的分布进行合理估计,并在参数空间广泛范围内实现高精度泛化,尤其是在训练数据稀疏的情况下。贝叶斯模型已被应用于高性能混凝土的设计,并被证明是一种强大工具:例如,Zhang 等[6]基于包含400余个样本(以波特兰水泥、高炉矿渣、粗骨料等成分信息表征)的训练集,实现了对强度的高精度预测。该工作代表了当前建模技术的前沿水平,但其性能评估仅基于原始数据集的训练/测试划分。换言之,该模型对训练数据中所涵盖的原材料特性分布拟合极佳,但其泛化能力尚不明确[6]。显式以潜在变量(latent variables)为参数的分层模型(hierarchical models),是提升机器学习算法泛化性与可解释性的有力工具。将物理约束嵌入机器学习模型可显著增强其预测能力,多项近期研究反映了该方向的快速发展[7–9]。

本文将成分变量与潜在变量应用于超高性能混凝土(UHPC)的建模与优化,并采用贝叶斯机器学习框架[10],以显式刻画传统建模与优化中极具挑战性的材料特性底层分布。UHPC是一类基础设施材料,其特征为高胶凝材料含量(含辅助胶凝材料与细骨料)、极低水胶比,且必须使用高效减水剂。此类材料定义为抗压强度超过150 MPa、开裂后抗拉强度不低于5 MPa[11],通常还需掺加钢纤维以实现上述力学性能[12, 13]。由于其低水含量且不含粗骨料,UHPC的胶凝材料用量约为普通强度混凝土的三倍[14]。

目前,UHPC的应用正日益广泛:成功案例包括——预制混凝土梁(其力学性能与同截面深度的钢梁相当)[15];用于加速桥梁施工中连接预制桥面板与梁体的“闭合浇筑”(closure pours)[16, 17];以及路面罩面[18]与结构修复[19]等。改进UHPC设计范式,有助于提升原材料选择与配比设计的灵活性,例如支持就地取材、应用新兴材料或变异性更大的材料,从而潜在地提升经济性与可持续性,推动UHPC更广泛实施[20, 21]。

近期,传统数据分析方法已获机器学习技术补充。机器学习是一类多样化的统计算法,可用于预测系统性能,现正逐步广泛应用于基础设施材料领域,包括UHPC[22, 23]。例如,Ghafari 等[24]基于53种不同UHPC配比训练人工神经网络(ANN),所优化配比的实测抗压强度与预测值偏差在5%以内。尽管该最优配比未能外推至训练集范围之外的新配比设计,但该ANN仍优于基于多元线性回归的传统统计混料设计方法。然而,该ANN以训练集中特定材料为参数,其预测能力局限于这些特定组分;对于粒径、比表面积或反应活性不同的同类材料,该模型泛化能力不足,需额外实验以重新训练机器学习算法。

对于小规模数据集,提升泛化能力的一种方法是采用潜在变量表征体系——即那些未被直接观测或测量、但反映支配性能的潜在因素的变量[25, 26]。基于现有文献中基于颗粒紧密堆积与水膜厚度(WFT)方程的配比优化研究,本文提出一种分层机器学习(HML)模型[27–29],用于UHPC抗压强度的预测与优化。文献数据以潜在变量进行编码:其一为颗粒堆积特性(通过可压缩堆积模型(CPM)[30]量化),其二为初始自由水量(由WFT定义)。该方法可泛化至未经测试的、具有不同粒径、反应活性与比表面积的材料。基于一组由不同来源材料设计并制备的UHPC验证样本,该模型成功预测出高抗压强度的新型UHPC配比。

  1. 支配超高性能混凝土性能的潜在变量
    UHPC强度的发展源于化学、物理与力学等多重机制;尽管其基本原理总体上已被理解,但组分配比参数空间的复杂性使得以强度为目标的设计极具挑战性。化学强度的提升主要归因于辅助胶凝材料(SCM)所引发的火山灰活性反应。SCM是一类由二氧化硅(SiO₂)和氧化铝(Al₂O₃)组成的无定形材料,其本身并不具备胶凝性;相反,诸如硅灰、偏高岭土和粉煤灰等SCM,可与波特兰水泥水化产物中的游离氢氧化钙(CH)发生反应。这一火山灰反应生成了高强度的无定形水化硅酸钙(C–S–H)和水化铝酸钙(C–A–H)相[31]。在UHPC中,偏高岭土与硅灰因其高纯度与高比表面积(SSA)而被广泛研究——高比表面积可显著促进火山灰反应的进行[32, 33]。

UHPC强度在物理层面的根本提升源于其微观结构中孔隙率的最小化[34]。在UHPC中,存在多种类型的孔隙形成机制:
第一类为C–S–H与C–A–H水化相内部的层间间距,其孔径介于5至25 Å之间,处于范德华力作用范围之内,因此对水泥强度无显著不利影响[35];
第二类为毛细孔隙(capillary pores),其数量与水泥强度呈负相关,孔隙尺寸与连通性则直接随水胶比(w/c)升高而增大[36];
第三类孔隙形成于UHPC中水化水泥浆体与骨料相之间的界面过渡区(ITZ)。通常,ITZ被视为混凝土中强度最低、起控制作用的薄弱环节[35]。由于ITZ的厚度与骨料粒径成正比,UHPC中仅使用细骨料(即砂与石粉),而不掺加粗骨料[37]。此外,通过使用具有火山灰活性、高比表面积的SCM,可进一步降低ITZ内的孔隙形成:一方面,火山灰反应增强化学键合;另一方面,颗粒紧密堆积提升物理相互作用[38, 39]。

尽管目前尚无一个能够全面涵盖上述机制之间复杂相互作用与关联的完整理论模型,本文旨在通过基于这些机理特征的机器学习建模,对这些相互作用加以解耦与解析。

传统上,为最小化UHPC中ITZ的孔隙率,常采用最大化颗粒堆积密度的策略。两种常见的UHPC配比优化模型包括:修正的Andersen–Andreasen模型与可压缩堆积模型(CPM)。修正的Andersen–Andreasen模型[40]结合颗粒粒径分布与一个可调参数 q ,生成理想的级配曲线;实际配比可通过手动调整 q 值拟合该曲线,从而寻求最优堆积密度。CPM由de Larrard首次提出,可计算堆积指数 K ,并将其优化至指定目标值;例如,对自密实混凝土拌合物,推荐 K = 4
[41]。

降低UHPC孔隙率的第二个关键因素是采用低水胶比(w/c)。该比值通过限制体系中未反应水的总量,从而抑制毛细孔的形成[34]。需注意的是:堆积密度仅取决于混合物的固相含量与颗粒粒径;而水膜厚度(WFT)参数则进一步考虑了水含量及可供水分吸附的颗粒比表面积[42]。即便堆积密度已优化,过量的水仍可能导致毛细孔生成。研究表明:颗粒堆积密度的提高通常带来抗压强度的上升,而WFT的增大则导致强度下降[43]。根据固体颗粒的粒径与比表面积,以及水胶比的不同,颗粒堆积、WFT与SCM反应活性三者之间存在复杂的协同与权衡关系。

此外,掺加非连续纤维增强是提升UHPC力学性能的另一重要策略。钢纤维通常掺量为2–3%,最高可达6%[44],其主要作用在于缓解材料的脆性行为。在外部荷载作用下,钢纤维可抑制微裂缝的生成或调控裂缝扩展路径;其增韧效应显著提升了UHPC的抗压、抗弯与抗拉强度[45]。

  1. 实验

贝叶斯机器学习模型基于从文献中整理的数据进行训练。这些数据集的选择依据以下标准:

(1)所有配比均旨在实现符合UHPC标准的强度;
(2)不含粗骨料,粗骨料定义为平均D50粒径不超过600 μm(即)的最大颗粒;
(3)所有细骨料材料均具有实测的D50值,以便在分层模型中准确表征中间层;
(4)包含在室温下养护的样本,以排除蒸汽养护和热养护方法对强度增长机制的影响。

在基于文献数据训练模型后,实验室中进行了独立实验,以验证GPR模型所预测的部分优化结果——实验所用材料与方法如下所述。

(a) 材料

用于验证实验的水泥砂浆采用ASTM C150 I型波特兰水泥(Lafarge Holcim, Duluth, GA)、偏高岭土(MetaMax, BASF)及硅灰(Elkem Materials, Inc.),并配合使用亚角形砂(River Sand Inc., Buford, GA,平均粒径600 μm)。配比中还包含聚羧酸醚类高效减水剂(MasterGlenium 7920, BASF)以及钢纤维(Dramix, Bekaert,长度13 mm,直径0.20 mm)。水泥组成为:C₃S 58%、C₂S 18%、C₃A 2%、C₄AF 13%、CCbar 2.5%,比表面积(Blaine细度)为394 m²/kg。

(b) 强度评估

所有拌合物均在容量为9.5升的反向搅拌机(Hobart C100,带桨叶附件)中按850 cm³批次制备。混合程序参考多篇关于UHPC拌合开发的论文[12,46,47]调整而成:首先,将烘干砂与辅助胶凝材料(SCMs)低速搅拌2分钟;随后加入水泥,继续低速搅拌1分钟;接着在30秒内逐步加水,同时持续低速搅拌30秒;然后加入超塑化剂,再低速搅拌10分钟。随后测试浆体流动性,若满足要求则浇筑试件;若需进一步调整流动性,则每次添加2 mL超塑化剂,并额外搅拌2分钟,直至拌合物流动度达到9英寸或以上。之后重复上述流程,仅调整超塑化剂用量。此方法确保所有拌合物均在相同搅拌时长下进行评价。超塑化剂在加水后添加,是因为已有研究表明延迟其加入可提高自密实混凝土与UHPC的流动性[48,49]。在加入纤维前,允许拌合物静置一段时间以增强内聚性,随后立即浇筑。每种配比制备六块立方体砂浆试件(5.08 × 5.08 cm),用于抗压强度测试。试件在23°C石灰水浴中养护,在7天和28天龄期进行测试,加载速率按每秒136 kg施加于未处理(未打磨)的浇筑面[50]。

(c) 数据采集

为训练与测试模型,从已发表文献中收集并汇编了一个UHPC配比数据库[24,33,34,51–68]。这些数据已整理并发布于一个公开数据集[69]。从中选取四个数据集用于模型训练,其概要见表1。为验证本实验室自制UHPC配比样品,所收集的数据集限定为20°C养护、28天抗压强度超过100 MPa的样本。选择低于常规UHPC下限强度的数据,旨在扩展训练数据集的性能空间,从而支持更广泛的预测范围,并容纳设计参数值更大的变异性。表2列出了四篇文献中所有UHPC组分各自的取值范围。由表1与表2可见,这些数据基本代表了UHPC混合物中常见的组成成分。然而,尽管硅灰、偏高岭土(或相对纯净的煅烧黏土)及粉煤灰是混凝土(包括UHPC)中最常用的SCM,其他SCM(如矿渣、相对不纯的煅烧黏土)并未被纳入该数据集。这可能限制模型的泛化能力,尤其当SCM反应活性显著偏离训练集中所含材料时。不过,正如第4a(i)节所述,矿渣已被计入潜在变量训练集中所使用的等效水泥含量中。


由于搅拌方法——包括搅拌能量、材料加入顺序与时序,以及搅拌设备类型与容积——对实现UHPC的均匀性尤为关键,因此需特别注意各数据来源中搅拌工艺的差异性。在用于模型训练的四个数据来源中,其中三个提供了详尽的搅拌流程[20, 30, 44],另一个则仅提供部分信息[31]。对于提供详细信息的数据源,其共同步骤均为:先干拌所有固相组分,随后加水与超塑化剂,纤维则最后加入;本文§3b节所述验证性试拌的制备流程即遵循此通用顺序。

然而,各研究中所用搅拌设备类型存在差异:文献[30]采用10升容量的逆流式搅拌机(与本文所用设备相似);文献[31]与[44]则同时使用了卧式砂浆搅拌机和工业级“蛋糕搅拌机”(容积未说明,但其搅拌作用机制可能与逆流式搅拌机相近);而文献[20]未明确说明搅拌设备类型。尽管部分早期UHPC研究曾报道过极长的搅拌时间,但依据上述搅拌程序,通常可在20分钟内实现良好的均匀性[30]。

  1. 计算方法(a) 数据表征

记录了每单位体积拌合物中水泥、sSCMs(硅质辅助胶凝材料,如硅灰、偏高岭土等)、填料(如石英粉)、骨料(即砂)、水、超塑化剂及钢纤维的用量。此外,各配比的养护温度及28天抗压强度结果也被作为数据集的输出变量纳入。所有训练样本中报告的配合比参数均按整个拌合物(包括固相与液相)的总质量进行归一化处理,并依据各相预设的比重进行换算。

各数据源提供的细骨料平均粒径(D50)与比表面积(SSA)被直接采用;而对于已记录粒径的SCM材料,若其粒径未明确给出,则采用表3所列的典型常规取值进行估算——这些数值基于佐治亚理工学院(Georgia Tech)实验所用材料的实测结果。


模型中选用了四个参数作为配比的潜在变量表征:等效水泥含量混合物颗粒堆积密度水膜厚度(WFT) 以及一个纤维掺量对抗压强度影响的经验关系式。除上述潜在变量外,模型还纳入了三种在任意UHPC配比中均常见的成分特征变量:超塑化剂含量水含量水泥含量。这些参数的选取基于对水泥基材料中已有经验关系的认知,旨在引导分层机器学习(HML)模型从原始成分层(compositional layer)向中间层变量(middle-layer variables)映射,如图1所示。


(i) 等效水泥含量

“等效水泥”概念最早出现在大体积混凝土温控研究中[70]。在本研究的应用中,该指标用于估算水化反应在28天内所产生的水化热总量,而水化热又与强度发展产物(如C–S–H、C–A–S–H相)的生成量密切相关,因此预期其与抗压强度存在正相关性。

在式(4.1)中,各组分按其在28天水化期内对水化热的贡献,被换算为等效的水泥质量。例如,F类粉煤灰虽具火山灰活性,但其反应速率远低于普通波特兰水泥,故其用量在计算中乘以0.5(见式4.1)。该概念作为一种领域知识被引入模型,用以在缺乏量热实验数据的情况下,依据各类SCM对水化热的相对贡献,评估拌合物的整体反应活性。


(ii) 颗粒堆积

将颗粒堆积作为潜在变量引入,需设定一个参数来表征初始状态下被水填充的孔隙率。本研究采用的堆积模型基于可压缩堆积模型(CPM),该模型已被证实适用于多组分、粒径分布宽泛(多分散)的体系,并被视为UHPC设计的理论基础之一[71–73]。CPM将整个混合物的堆积状态简化为单一参数 K K: K K 值越高,表明颗粒堆积越紧密,对应抗压强度也越高。

颗粒堆积也被认为是决定水泥基材料在塑性态与硬化态下性能的关键因素之一;它可作为设计变量,用于提高细骨料与辅助胶凝材料(SCMs)的掺量,并调控其性能。参数 K K 的计算由以下分量构成:



强度被假设与堆积指数(K)相关,使其成为该模型中一个潜在的潜在变量特征。基于每种 n 个组分的粒径分布,确定松散系数(aᵢⱼ)和壁面系数(bᵢⱼ),并用于计算每个粒径(Φₗ*)所能达到的最大体积,类似于研究 [74] 所示,表明颗粒堆积模型可用于预测这些体系中的流动性和强度,尤其是在早期龄期。为此创建了一个 Python 脚本,用以表征每种混合物,而无需直接测量实际的堆积密度;其中 φ 计算为(1 - 水分数),而 β 对于每种 UHPC 配合比均保持恒定。

(iii) 水膜厚度

水膜厚度(WFT)是混合物中水量与颗粒表面积之间的关系。在普通混凝土中,较高的 WFT 值对应更高的工作性[42]。为实现 UHPC 所需的强度,必须在混合物中使用极少量的水——甚至低于完成水泥完全水化所需的水量——以最小化初始固有孔隙率。

在胶凝体系中,孔溶液相分为两种不同类型[75]:第一种是填充水,即填充固体颗粒内部孔隙的水,不参与改善工作性;第二种是在这些孔隙被填满后剩余的多余水分,其表达式见公式 (4.6)[76]。


水膜厚度(WFT)已被证明与水泥浆体的流变性能和强度密切相关[43],因而被视为UHPC中一个潜在的重要潜在变量。然而,与CPM不同的是,WFT的计算还需考虑胶凝颗粒的平均比表面积(SSA):比表面积的增加会导致WFT相应降低[42, 75]。由于这些配比的实际堆积密度(ф)并未实测,因此采用式(4.8)计算孔隙率(u):


φ = (1 - 水含量)。

这提供了一种一致的方式,用于表示每种配比的 φ 值,而无需直接测量其堆积密度。

(iv) 超塑化剂含量

尽管超塑化剂可赋予UHPC良好的工作性,但过量添加超塑化剂可能导致强度发展延迟[77]。因此,对于分层机器学习(HML)模型而言,考虑超塑化剂的掺量并平衡工作性与强度发展至关重要。由于超塑化剂含量与水膜厚度(WFT)或颗粒堆积所代表的潜在变量无直接关联,出于上述原因,该底层成分参数被作为中间层参数引入,以帮助模型理解:为获得可施工拌合物所需超塑化剂用量与性能之间的权衡关系。

(v) 纤维关系

通常,UHPC中钢纤维体积掺量为2–3%[78]。纤维含量与水膜厚度(WFT)或颗粒堆积所代表的潜在变量无关;基于此,本文采用Siwinski等人[79]提出的经验关系式,将UHPC配比中的纤维掺量与抗压强度的相对提升值相关联,表达式如下:


(b) 机器学习模型

贝叶斯定理基于构成某一事件的各因素的概率(即先验概率与似然度),来确定该事件的后验概率。大多数机器学习方法在预测系统性质或响应时仅提供最大似然估计,除非进行直接验证,否则难以评估预测质量。相比之下,贝叶斯预测通过显式估计底层统计分布,可同时给出预测的均值与方差,从而为理解与优化复杂系统提供了有力工具。

本研究采用两种贝叶斯方法对UHPC强度数据进行建模:第一种方法引入了一种名为校准偏差面积(miscalibration area)[80]的替代性评估指标,用于比较以成分变量(HML底层)为参数的模型与以潜在变量(HML中间层)为参数的模型性能,除传统指标(如均方根误差RMSE或决定系数 R 2 )外,提供更深入的不确定性评估;第二种方法则用于建模、物理解释与优化。二者结合,共同展示了贝叶斯方法在水泥与混凝土建模中的强大能力。

在第一种方法中,我们通过贝叶斯优化(BO)估计后验分布,以比较以成分变量(HML底层)为参数的模型与以潜在变量(HML中间层)为参数的模型的不确定性。在BO的每次迭代中,均可通过对该后验分布进行采样,生成对后验概率密度函数的近似。采用贝叶斯分析——即对参数的后验分布进行边缘化处理——旨在同时提升模型的准确性(即对训练数据的拟合程度)与泛化能力(即对验证集中新配比抗压强度的预测能力)。

误差分析通过两类指标进行:

  • RMSE:一种忽略贝叶斯概率的预测评分,仅衡量数据均值与最优模型预测值的拟合优度;
  • 校准偏差面积:一种基于Kuleshov等人[81]提出的校准技术、对模型不确定性进行量化的指标。

标准贝叶斯不确定性估计(如高斯过程回归GPR所产生的结果)常因模型偏差而低估真实不确定性——例如,当模型特征在整个输出域内不具备恒定预测能力时,90%可信区间实际覆盖真实值的频率可能远低于90%。校准偏差面积正是为提供更准确的不确定性量化框架而提出,可作为评估模型质量的替代性指标。

校准偏差误差采用一种预测不确定性方法:该方法不仅给出预测值,还以“X%可信区间”的形式量化不确定性,目标是使真实值落入该区间内的频率为X%。随后,利用一个独立的留出测试集,统计各可信区间实际包含真实值的比例。对X%从0到100%逐一进行上述测试,计算目标覆盖率(X%)与实测覆盖率之间的平均偏差(对所有X%取平均),所得即为校准偏差面积。该贝叶斯度量反映了模型不确定性估计对真实值位置的捕捉能力;换言之,模型可依据给定特征,判断其对每个测试点的预测是优是劣。本文将利用该方法,探究以潜在变量(而非成分变量)参数化复杂系统时所产生的权衡关系。

在第一类近似贝叶斯推断中,我们构建了一个概率集成模型,包含20个岭回归模型(即带L2正则化的线性模型),分别以训练数据的底层(成分变量)与中间层(潜在变量)为参数进行拟合。集成中每个子模型的正则化强度与初始随机状态均独立随机设定。在对给定数据集完成训练后,各模型以输入的成分变量或潜在变量取值作为参数,构建对该输入函数后验分布的高斯近似,从而得到对数据集中每一点预测值的均值与方差估计。为将预测推广至验证集,我们对后验方差参数施加了一个单调变换——该变换基于Wille等人[61]数据集的统计结果计算得出——从而生成一个校准性能更优的修正后验近似。

在第二类贝叶斯建模中,首先对中间层特征空间进行扩展:引入交叉项(即潜在变量两两乘积)以表征变量间的交互作用;随后采用特征选择方法,筛选出与抗压强度相关性最强的特征子集,这些特征被认为代表了支配材料性能的关键潜在变量。数据集被随机划分为80%训练集与20%测试集。在将抗压强度分解为来自物理化学作用及其交叉项贡献的过程中,采用Lasso回归[82](即L1范数正则化回归)结合十折交叉验证进行变量选择;而成分变量表征响应曲面时则未使用特征选择。除提升预测精度外,基于潜在变量的特征选择还可增强模型在中间层上的可解释性[27, 29]。

随后,采用高斯过程回归(GPR)作为机器学习方法,基于Lasso筛选出的特征预测UHPC抗压强度,并将其预测性能与直接采用底层成分变量空间训练的GPR模型进行对比。

GPR是一种贝叶斯方法,可同时学习每个预测点的预测均值误差范围的后验概率分布。它通过一种称为协方差函数(或称核函数)的距离度量,从训练数据中学习函数分布[83]。在预先设定均值函数与协方差函数的前提下,GPR依据训练数据推导出后验分布。与许多机器学习方法常用的交叉验证不同,GPR通过对数边缘似然(log marginal likelihood)的优化过程来更新协方差函数中的超参数[84]。

本研究中的强度预测模型以抗压强度为输出变量,所有输入特征均采用scikit-learn库中的StandardScaler方法进行标准化处理;GPR建模则调用scikit-learn中的GaussianProcessRegressor模块,并采用标准的径向基函数核(RBF核)[85]。训练与评估策略与Lasso模型一致:数据集按80%训练集、20%测试集划分。

  1. 结果与讨论(a) 集成岭回归与贝叶斯优化

采用岭回归构建的底层(图2a,b)与中间层(图2c,d)不确定性集成模型结果如下所示。均方误差(MSE)、均方根误差(RMSE)及校准偏差面积列于表4。



对比图2a与图2c中的等值线图(parity plots)可见,两类模型中各样本点的预测均值均围绕45°对角线聚集,表明模型在预测抗压强度时未出现系统性高估或低估偏差。每个数据点所对应的RMSE(以误差棒形式表示)随样本而异,但通常占预期值的相当大比例——这归因于数据集规模较小,以及用于建模的成分变量与潜在变量模型相对稀疏。以成分变量为参数的不确定性模型RMSE(20.6 MPa)小于以潜在变量为参数的模型(25.7 MPa),这与基于集成岭回归后验分布估计所得的较低不确定性一致。

Wille等人[61]的数据被用作一个小型内部验证集,包含7种配比,其中包括D50值(110 μm)小于所有训练数据的细砂,以及D50为5 μm的玻璃微珠。成分变量模型的RMSE为34.0 MPa,而潜在变量模型为43.0 MPa;观察发现,在成分变量模型的等值线图中,验证集样本点更均匀地分布在45°线附近;而在潜在变量模型中,这些点则明显位于该线下方。

基于上述分析,成分变量模型似乎具有更高的预测精度。然而,进一步考察图2b与图2d所示的校准偏差面积图可发现:成分变量模型的校准性能显著劣于潜在变量模型(分别为0.20与0.06)。该区域几乎完全位于45°线下方,表明模型对不确定性的期望值高于实际观测到的不确定性,由此可推断:成分变量模型严重低估了由HML底层参数化响应曲面的真实不确定性。

事实上,虽然传统的RMSE指标显示成分变量参数化方法适用于优化设计,但校准偏差面积揭示其可能无法准确预测训练集范围外的新型高强UHPC配比——因其泛化能力不足。尽管贝叶斯优化(BO)可用于此目的,但我们转而探索了在Lasso特征选择后、基于扩展潜在变量集合的GPR方法,旨在提供更具物理解释性的优化配比方案,以揭示支配UHPC抗压强度的物理作用力与相互作用机制。

(b) 基于Lasso的特征选择

模型的中间层初始包含七个特征:等效水泥含量、堆积密度、水膜厚度(WFT)、纤维作用的经验关系式,以及UHPC配比中的减水剂、水泥和水的质量百分比。在这些主变量基础上,进一步引入两两交叉项(即变量乘积),共生成28个特征。

经十折交叉验证(图3a),选定最优正则化参数为 α = 0.008 ,最终特征空间维度缩减至8维,如图3b的系数图所示。

图4展示了Lasso模型的结果,给出了训练集与测试集的RMSE与 值。尽管基于线性回归的模型可能不足以精确刻画响应曲面的非线性形态,但其具备良好的可解释性——尤其当模型以潜在变量为参数时,优势更为显著。


综合考虑Lasso分析中训练集与测试集预测精度的平衡,最终选定的特征集包括以下八项:

  • 等效水泥含量

  • 纤维作用经验关系式

  • 等效水泥 × 堆积密度(交叉项)

  • 等效水泥 × WFT(交叉项)

  • 堆积密度 × WFT(交叉项)

  • 堆积密度 × 水含量%(交叉项)

  • 减水剂含量% × 水泥含量%(交叉项)

  • 纤维作用经验关系式 × 水泥含量%(交叉项)


该方程表示一个以这些潜在变量及所选交叉项为自变量的多项式函数,用于描述UHPC抗压强度的响应曲面。模型假设训练数据所定义的超曲面是这些变量的线性函数,因此训练集与测试集的值均相对较低(分别为0.66和0.58)。此处,正系数代表与抗压强度值呈正相关的变量,而系数的绝对值大小则反映该变量对强度的相对贡献程度。线性项代表单一潜在变量对抗压强度的独立影响,而交叉项——构成模型特征的主要部分——则反映了变量之间复杂的耦合关系。回顾该稀疏模型中的各系数,多数项与已知影响UHPC强度的因素理解一致。例如,“纤维方程”的正系数表明随着纤维掺量增加,强度提升;而涉及堆积密度的两个交叉项的正系数也符合设计原则。

涉及“等效水泥”的各项则较为模糊。这些项代表火山灰活性,其线性项以及与堆积密度和WFT相乘的两个交叉项均具有负系数。对此的一种解释是:算法正在建模一个有限的参数空间,即在当前研究范围内,等效水泥含量与其它因素之间可能存在权衡关系——尽管高火山灰活性对于获得更高强度是必要的,但其可能与其他因素存在抵消作用,例如硅灰、偏高岭土或纤维替代水泥所带来的相关性,从而导致此处出现负相关。因此,这些趋势可能仅在本研究所考察的相对狭窄的等效水泥空间内成立。这也提醒我们,在此类应用中,机器学习主要是一种通过参数范围内的插值实现设计与优化的工具。

此外,正则化回归是一种有效的特征选择方法,但被识别为强度强决定因子的变量可进一步用于更强大的算法中,以更精确地拟合响应曲面并捕捉变量间的相互作用。高斯过程回归(GPR)正是这样一种在科学与工程领域广泛应用的工具,本文亦采用了该方法。

(c) 高斯过程回归

在GPR中,训练集数据被用于构建比传统回归方法更为稳健的响应曲面模型。回归方法旨在建立一个函数,使响应曲面上各数据点的预测误差最小;而GPR则利用数据点之间的相关性来构建模型。这些模型中还有一个额外的超参数——长度尺度(length scale),它决定了相关性计算的空间范围,允许算法根据长度尺度的大小平滑调整预测(大长度尺度)或在邻近点间快速变化(小长度尺度)。这种灵活性使GPR能够建模多种物理系统。

GPR的另一附加优势在于,算法会自动为每个预测点提供不确定性估计。响应曲面上某些点可能被模型以低方差良好拟合,而其他点则可能具有更高的估计不确定性。由于不同的变量组合——无论是成分变量还是潜在变量——可能导致相似的预测结果,因此即使强度值相近的点也可能表现出截然不同的预测不确定性。尽管GPR背后的数学原理较为复杂,但它为建模复杂物理系统提供了强大工具[86]。本文基于成分变量(底层)和潜在变量(中间层)分别构建了GPR模型,以比较其预测能力及其在优化中的实用性。

底层GPR模型的结果(图5a,b)与由Lasso确定的最终八特征中间层模型(图5c,d)如下所示。表5列出了相应的、MSE 和 RMSE 值。值得注意的是,成分变量模型在训练集与测试集上的准确率值相近(均为0.91),但潜在变量模型的测试准确率略低于训练值(分别为0.77与0.91)。这表明,基于成分变量的预测对相似配比的预测精度高于基于潜在变量的预测,这一点也在图5b中更多预测点上较大的误差棒中得到体现。


底层与中间层参数化方法在测试集上分别产生了9.6 MPa和15.0 MPa的RMSE。虽然底层回归模型在RMSE指标上略优于中间层模型(差距略大于5 MPa),但采用中间层参数化方法有助于泛化至具有未测试材料特性的UHPC配比。在高维成分特征空间中训练时,若仅在模型内部进行插值,则可实现RMSE < 10 MPa。然而,通过采用潜在变量表示法,这一能力可扩展至新型原材料,此时每种配比均可在更均匀分布的空间中表示[87]。这代表了一种简单的迁移学习形式,适用于原始数据集中未明确包含的配比。

(d) 在验证集上的泛化性能表现

为展示模型的泛化能力,本文制备并测试了一组全新的三个独特UHPC配比作为验证集。所用细骨料粒径(600 μm vs. 500 μm)不同于训练集,并使用了不同来源的材料——石灰石。这些配比的比例及实测抗压强度列于表6。


这些验证配比被分别输入底层与中间层训练所得的GPR模型,以评估各模型的泛化能力。验证配比中引入了两种新材料:D50为600 μm的河砂,以及D50为45 μm的石灰石。

对于基于底层(成分空间特征)训练的GPR模型,需采用尺寸最接近的材料作为特征代表:

  • 将河砂的成分百分比代入训练集中代表D50=500 μm砂的特征变量;

  • 将石灰石代入训练集中代表粒径11 μm碎石英的特征变量。

而对于中间层表示法,其特征空间由不包含具体粒径编码的潜在变量构成。根据验证集的成分空间,重新计算了颗粒堆积密度、水膜厚度(WFT)、等效水泥含量及纤维关系参数。各模型的预测结果如图6所示。

尽管底层GPR模型在测试集上表现更优,但在验证集上其从0.91骤降至−0.06,RMSE则从9.6 MPa大幅上升至28.2 MPa。相比之下,中间层表示法的从0.77小幅下降至0.67,RMSE仅从15.0 MPa微增至15.6 MPa——这一变化趋势符合预期,即当模型推广至训练集与测试集范围之外时,性能出现合理衰减。对于以中间层参数化的模型,可预期有更高比例的样本其真实值会落在模型预测的不确定性区间内。

(e) 未来研究方向

用于预测胶凝材料性能的数据类型多样,其本身固有的不确定性反映了组分变量底层的不确定性。本文所提出的贝叶斯框架可作为高级分析方法的基础,能够整合关于水泥、辅助胶凝材料(SCMs)、骨料、纤维及其他组分的多样化数据,从而优化UHPC等复杂混合物的性能。虽然细骨料的粒径分布是砂浆与混凝土的重要特性之一,但这仅是可纳入该框架的众多特征之一。随着更强大的测量工具提供有关颗粒形状、化学组成、孔结构与结晶度的详细信息,贝叶斯机器学习可结合现代水泥与混凝土研究中发展出的理论与经验关系,预测诸如流变性、强度发展及耐久性等复杂行为。

  1. 结论

UHPC逆向设计中的一个核心挑战在于:当使用未经测试的原材料时,模型的泛化能力。即使数据集规模更大,其所涵盖的潜在材料组分的多样性仍可能有限,因此必须通过原始数据集之外的验证实验来检验模型性能。基于从文献中整合的多种UHPC配方数据,本文采用贝叶斯机器学习方法,比较了以成分变量参数化的模型与以经验模型相关潜在变量参数化的模型在预测抗压强度方面的准确性。


原文链接:https://royalsocietypublishing.org/rsta/article/383/2305/20240041/234826/Bayesian-machine-learning-for-inverse-design-of

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
52:47!美国投票结果公布,特朗普惨遭背叛,总统权力被没收

52:47!美国投票结果公布,特朗普惨遭背叛,总统权力被没收

博览历史
2026-01-09 17:57:04
人财两空!河北29岁帅哥李晨鹏去世,结婚半年中招,错诊长达一年

人财两空!河北29岁帅哥李晨鹏去世,结婚半年中招,错诊长达一年

鋭娱之乐
2025-10-17 11:50:47
小鹏汽车与工商银行广东分行达成战略合作,获100亿元授信额度

小鹏汽车与工商银行广东分行达成战略合作,获100亿元授信额度

IT之家
2026-01-09 22:23:06
足总杯6-7大冷门,罚丢2点球酿苦果,英超球队遭低级别球队淘汰出局

足总杯6-7大冷门,罚丢2点球酿苦果,英超球队遭低级别球队淘汰出局

侧身凌空斩
2026-01-10 06:15:26
太阳报:长子向小贝夫妇发函,警告他们只能通过律师与他联系

太阳报:长子向小贝夫妇发函,警告他们只能通过律师与他联系

懂球帝
2026-01-09 20:05:05
官宣!中央纪委反腐大片即将开播

官宣!中央纪委反腐大片即将开播

上观新闻
2026-01-10 08:54:09
事业巅峰远赴美国,被老外“玩腻”后晚年回国,如今变成了这样!

事业巅峰远赴美国,被老外“玩腻”后晚年回国,如今变成了这样!

归史
2025-12-09 11:10:44
23天狂揽78亿票房,力压《哪吒2》,2026年最强电影诞生

23天狂揽78亿票房,力压《哪吒2》,2026年最强电影诞生

孙镴北漂拍客
2026-01-10 13:32:11
哈登:我的生涯两大如果,一个是雷霆生涯,一个是保罗的腿筋

哈登:我的生涯两大如果,一个是雷霆生涯,一个是保罗的腿筋

懂球帝
2026-01-10 14:18:13
为何《寒窑赋》能被称作中国历史上最泄露天机的文章?

为何《寒窑赋》能被称作中国历史上最泄露天机的文章?

小豫讲故事
2026-01-09 06:00:05
女人愿不愿意跟你“越界”,开三个“玩笑”试一下就知道

女人愿不愿意跟你“越界”,开三个“玩笑”试一下就知道

三农老历
2026-01-11 00:18:10
刚说川普可能护送巴列维进入,就传伊朗断网和川普可能再次打击

刚说川普可能护送巴列维进入,就传伊朗断网和川普可能再次打击

邵旭峰域
2026-01-09 12:56:47
地球真的病了?塔克拉玛干迎来2026年初雪,中国最干的地方湿了

地球真的病了?塔克拉玛干迎来2026年初雪,中国最干的地方湿了

游者走天下
2026-01-07 14:41:55
津巴布韦官员当面警告中国公司:别在家藏钱,别搞华人小圈子

津巴布韦官员当面警告中国公司:别在家藏钱,别搞华人小圈子

坠入二次元的海洋
2026-01-10 01:35:46
我国5600余个姓氏中只有8个姓氏从未衰落,看一下有你的姓氏吗?

我国5600余个姓氏中只有8个姓氏从未衰落,看一下有你的姓氏吗?

铭记历史呀
2026-01-07 02:22:59
霍启刚突然公示财产!35套物业曝光,28套出租,这才是真豪门格局

霍启刚突然公示财产!35套物业曝光,28套出租,这才是真豪门格局

行者聊官
2026-01-10 20:42:35
小雷:如果索尔斯克亚真那么厉害,为何离开曼联找不到工作?

小雷:如果索尔斯克亚真那么厉害,为何离开曼联找不到工作?

懂球帝
2026-01-10 16:25:08
第二个“华西村”诞生:仅67户人资产却超30亿,家家都住别墅

第二个“华西村”诞生:仅67户人资产却超30亿,家家都住别墅

百年历史老号
2024-05-29 20:29:26
唉!场上骂骂咧咧,搞乱北京队节奏,付政浩:换作客场早罚出去了

唉!场上骂骂咧咧,搞乱北京队节奏,付政浩:换作客场早罚出去了

南海浪花
2026-01-10 07:02:01
输浙江20分!王非点评,道出北控输球原因 球迷:张庆鹏下课吧

输浙江20分!王非点评,道出北控输球原因 球迷:张庆鹏下课吧

体育哲人
2026-01-11 00:37:45
2026-01-11 01:31:00
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1141文章数 18关注度
往期回顾 全部

科技要闻

必看 | 2026开年最顶格的AI对话

头条要闻

男子带父母去四川"纯玩" 不料消费7万连上厕所都收费

头条要闻

男子带父母去四川"纯玩" 不料消费7万连上厕所都收费

体育要闻

怒摔水瓶!杜兰特30+12 难阻火箭遭双杀

娱乐要闻

吴速玲曝儿子Joe是恋爱脑

财经要闻

这不算诈骗吗?水滴保诱导扣款惹众怒

汽车要闻

宝马25年全球销量246.3万台 中国仍是第一大市场

态度原创

时尚
旅游
本地
教育
公开课

伊姐周六热推:电视剧《小城大事》;电视剧《轧戏》......

旅游要闻

科幻IP赋能文旅消费 刘慈欣科幻漫画宇宙主题展在海口日月广场启幕

本地新闻

云游内蒙|“包”你再来?一座在硬核里酿出诗意的城

教育要闻

高考地理中的生物能源

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版