黄水是白酒发酵过程中产生的一种棕黄色液体副产物,由酒醅中的水分、微生物代谢产物及溶解的有机物质在窖池底部积聚而成,含有丰富的有机酸(如乳酸、乙酸)、醇类、酯类等物质。其作为传递窖内酒醅发酵信息与物质的载体,与酒醅发酵质量息息相关,传统工艺中常用黄水感官评价酒醅的发酵质量,黄水味道的酸度就是评价指标之一。研究表明,黄水和酒醅在理化参数、风味物质、微生物上具有较强相关性,可通过检测黄水部分指标的变化(如酸度、pH值、淀粉和还原糖含量)监测窖内酒醅发酵状态。另外,由于黄水的高酸特性及丰富的微生物,使其在酿造食醋、提取有机酸、培养人工窖泥、勾兑白酒等方面具有广泛应用。因此,准确检测黄水的酸度对于监测发酵过程、优化酿造工艺以及评估黄水资源化潜力具有重要意义。
近红外光谱技术作为一种新兴快速无损检测技术,在食品、农业、医疗、制药等领域得到广泛应用,具有显著的技术优势与应用潜力。现有波数筛选方法主要分为筛选特征区间与筛选离散波数点两类,即波段筛选和波点筛选方法。波段筛选的代表方法有:区间偏最小二乘(iPLS)、联合区间偏最小二乘(SiPLS)、反向区间偏最小二乘(BiPLS)等;波点筛选的代表方法有:竞争性自适应重加权采样(CARS)、连续投影算法(SPA)和以遗传算法(GA)为代表的智能优化算法等。以非支配排序遗传算法III(NSGA-III)为代表的多目标优化算法具有更高的灵活性,可构造多个目标函数,同时考虑所选波数组合的数量、重要性、建模效果等。
四川轻化工大学人工智能四川省重点实验室的张贵宇、向星睿*、张磊等研究以发酵过程黄水酸度的近红外光谱无损预测模型的优化为目标,充分利用波段筛选和波点筛选方法各自的优势,联合两类方法筛选黄水近红外光谱特征。先通过波段筛选方法iPLS、SiPLS、BiPLS对黄水酸度特征区间进行初步定位,在初筛波数基础上,构建3 个目标函数分别用于衡量所选波数的预测精度、重要性和数量,采用改进后的NSGA-III方法进一步筛选使目标最优的波数点,筛选出合适数量的重要特征波数,进一步降低模型中的冗余信息,提高黄水酸度的近红外光谱模型的预测精度。

![]()
1 样本集及其划分
利用SPXY法,将黄水样本集按照3∶1的比例划分训练集和测试集,训练集样本有102 个,测试集样本34 个。从表1可以看出,训练集的酸度分布范围覆盖了测试集的酸度分布范围,且训练集和测试集的平均值和标准差相差较小,说明划分结果合理,训练集的代表性较强,有助于提升模型的泛化能力。
![]()
![]()
2 黄水样本的近红外光谱
近红外光谱区与含氢基团(O—H、N—H、C—H)振动的合频和各级倍频的吸收区一致,通过近红外光谱可得到样品的结构和组成信息。图1a为所有不同发酵阶段黄水样本原始光谱图,可以看出,在7 444~5 982、5 353~4 678、4 508~4 000 cm-1范围内存在较为明显的吸收峰,但后两个波峰杂乱带毛刺,这可能与多个化学键的合频振动和泛频振动叠加有关,以及噪声影响。其中,8 466 cm-1附近为C—H的二级倍频,6 850 cm-1附近为O—H的一级倍频,5 627 cm-1和5 465 cm-1附近为C—H键的一级倍频,4 508 cm-1附近为C—H键的伸缩和弯曲组合频。
![]()
![]()
![]()
图1b为不同发酵阶段的黄水样品近红外平均光谱,可以发现,基本上不同发酵阶段的黄水样本近红外光谱之间有明显差异,且随着发酵的进行,最大吸光度对应的波数向较高的方向移动。另外从图1可以明显发现5 353~4 678 cm-1波段存在吸光度过高且吸光度基本不变化的现象,这是因为该波段在水的特征区间内,近红外光谱受水分干扰较大,容易饱和。这种不可靠波段对于黄水酸度检测来讲属于无用或错误信息,需要将其剔除,在后续研究中所有涉及的全光谱数据均剔除了该波段的信息,其波数个数从原来的2 203 个降为2 027 个。
![]()
3 光谱预处理
光谱采集过程中,常会因仪器状态和环境因素引起噪声干扰,使得采集到的光谱中除含有与待测物质相关的信息外还存在大量的干扰信息,故通过预处理消除或者减弱光谱中噪声所带来的影响极为重要。本研究采用卷积平滑(Savitzky-Golay smoothing,SG)对黄水原始全光谱进行预处理,该方法可提高光谱的信噪比,降低其中的随机噪声。SG平滑需要选择一个奇数作为平滑窗口的大小,窗口尺寸的选择至关重要:若窗口过大,可能导致有效信息流失,甚至降低模型的原有精度;若窗口过小,则去噪效果不佳,无法显著提升信噪比。故采用不同个数的窗口点数,对比选择最优的SG参数,由表2可以看出,相较于原始全光谱建立的模型,不同窗口点数SG平滑处理后建立的模型在拟合度和预测稳定性上均得到了提升,其中,5 点3 次SG平滑(SG(3,5))的预处理效果最佳,R2P从0.757 6上升到0.792 9,RMSEP从0.825 0 mmol/100 g下降到0.760 5 mmol/100 g,R2P(CV)从0.748 2上升到0.783 5,RMSEP(CV)从0.840 8 mmol/100 g下降到0.779 7 mmol/100 g,因此后续特征波数筛选都是基于5 点3 次SG平滑后的全光谱进行。
![]()
![]()
4 波段筛选
在使用iPLS、BiPLS、SiPLS进行黄水酸度光谱区间定位时,应考虑区间划分数量对波段筛选结果的影响。区间过少,可能无法有效筛选局部特征,导致模型欠拟合;区间过多,增加迭代次数和计算量,同时提升过拟合风险。经综合对比分析后,本研究将预处理后的全光谱波段(12 000~4 000 cm-1,共2 027 个数据点)划分为23 个子区间。
图2为iPLS的黄水酸度特征波段筛选结果图,其中虚线代表全光谱PLSR模型的RMSECV值,可以看出大部分子区间构建的PLSR模型的RMSECV值在虚线之上,应对其剔除,保留剩余虚线下的子区间参与建模,即9、13、14、15、16、19、20、21号区间,对应波数范围为9 765~9 430、8 408~7 054、6 371~5 357 cm-1。
![]()
表3为BiPLS特征波段筛选结果,在筛选过程中,23号区间被第一个剔除,因其被剔除后模型取得最优预测效果,RMSECV为0.818 2 mmol/100 g,持续剔除操作直到只剩下一个区间(1号区间),可以看出模型的RMSECV整体上呈现先下降后上升的变化。当剔除到剩余8 个区间时,波数变量数为705,模型的RMSECV达到最小值0.768 4 mmol/100 g,因此BiPLS筛选的特征波段为13、14、18、19、11、21、17、1号区间,对应的波数范围为12 000~11 660、9 087~8 751、8 408~7 733、7 050~6 036、5 692~5 357 cm-1。
![]()
表4为SiPLS特征波段筛选结果,当联合子区间数为2时,在所有可能的组合中,在主成分数取4时所建模型预测效果最佳,其RMSECV为0.729 2 mmol/100 g。当联合子区间数为3时,在所有可能的组合中,在主成分数取2时所建模型预测效果最佳,其RMSECV为0.754 2 mmol/100 g。当联合子区间数为4时,在所有可能的组合中,在主成分数取3时所建模型预测效果最佳,RMSECV为0.751 6 mmol/100 g。显然,由2 个区间联合建立模型的RMSECV最小,故将19、20号区间作为SiPLS筛选的特征波段,其对应的波数范围为6 371~5 696 cm-1。
![]()
表5为iPLS、BiPLS、SiPLS筛选的特征波段建模效果,相较于原始全光谱预处理后建立的PLSR模型,在变量数上都有较大程度的降低,且预测精度均有提升,证明这3 种方法可有效消除黄水光谱中大量无关信息。由图3可知,iPLS筛选的波段与BiPLS和SiPLS有重叠部分,分别为8 408~7 733、6 371~5 357 cm-1,其与黄水中乙酸的羧酸O—H和甲基C—H有关,8 408~7 733 cm-1,对应C—H和O—H的二级倍频,6 371~5 357 cm-1,对应C—H和O—H的一级倍频。另外可以发现3 种方法中,iPLS所选区间建模效果最好,R2P、R2P(CV)为0.892 9、0.880 4,RMSEP、RMSEP(CV)为0.547 1、0.578 1 mmol/100 g,说明iPLS可对黄水酸度的特征区间进行更为精准的定位,因此将其作为本研究波段筛选的最优方法。
![]()
![]()
![]()
5 二次波点筛选
在iPLS筛选的特征波段基础上,使用前文提到的多目标优化算法iNSGA-III进行波点筛选,进一步得到合适数量的重要特征波数。并与NSGA-III、GA、CARS、SPA等算法的波点筛选结果作对比,GA中迭代次数设为150,种群个数为80,交叉概率0.8,变异概率0.2;CARS中蒙特卡洛采样数设为50,PLS最大因子数设为13,采用5折交叉验证;SPA中所选波数的最小和最大数量分别设置为1和100。
图4展示了不同方法的波点筛选结果,iNSGA-III、NSGA-III、GA、CARS、SPA将iPLS筛选的特征波段从704 个波数降低到70、123、331、83、24 个,分别占全光谱波数数量的3.45%、6.07%、16.33%、4.09%、1.18%。从图4可以明显发现,5 种方法所选大部分特征波数基本上都集中在波段筛选的重叠区间8 408~7 733、6 371~5 357 cm-1,而SPA在8 408~7 733 cm-1内未选到特征波数,可能存在丢失重要特征波数的情况。此外,5 种方法在iPLS筛选的特征区间9 765~9 430 cm-1,内均有波数选中,iNSGA-III、NSGA-III、GA选中了8、16、26 个,CARS和SPA仅选中了2、1 个,该区间对应黄水中羧酸O—H的二级倍频。
![]()
![]()
![]()
![]()
![]()
![]()
表6为不同方法筛选的特征波数建模效果,可以发现相较于iPLS的筛选结果,经过5 种波点筛选方法二次筛选后,在预测精度上GA、CARS、SPA均有所降低,R2P从0.892 9降到0.876 4、0.870 8、0.852 7,RMSEP从0.547 1 mmol/100 g上升到0.587 7、0.600 7、0.641 5 mmol/100 g,R2P(CV)从0.880 4降到0.867 7、0.853 7、0.840 3,RMSEP(CV)从0.578 1 mmol/100 g上升到0.608 0、0.639 4、0.668 0 mmol/100 g,说明其筛选的特征波数难以表达特征波段的全部信息。其中,SPA以消除共线性为导向,筛选变量数极少,容易丢失重要变量,比如8 408~7 733 cm-1,内未选有特征波数;CARS着重于单个变量的重要性,未考虑变量间的协同作用,可能会破坏iPLS筛选的特征波段内波数间的协同作用;GA可以对特征波数进行组合优化,但这种单目标优化算法往往以预测误差为目标函数,缺乏对所选波数数量和重要性的考量,导致所选波数数量较多,且可能会引入不重要的冗余波数。
![]()
相比之下,本研究采用的NSGA-III多目标算法能够同时考虑所选波数数量、重要性和预测精度,使得其能够在二次筛选上降低波数数量的同时提升预测精度,R2P从0.892 9上升到0.903 3,RMSEP从0.547 1 mmol/100 g降到0.519 6 mmol/100 g,R2P(CV)从0.880 4上升到0.898 2,RMSEP(CV)从0.578 1 mmol/100 g降到0.533 1 mmol/100 g,说明NSGA-III能够有效筛选出黄水酸度特征区间中的重要特征波数,降低波数间的共线性,减少冗余信息。图5为NSGA-III及其改进算法iNSGA-III在波点筛选过程中最优种群个体在3 个目标函数上的适应度迭代图,可以看出,相较于NSGA-III,本研究提出的iNSGA-III不仅在3 个目标函数上表现出更好的收敛性,还具有更优解,更低的变量数、预测误差以及更高的重要性,基于iNSGA-III筛选的最优特征波数组合,波数数量为70 个,在主成分数取15时,R2P和R2P(CV)达到0.930 9和0.939 3,RMSEP和RMSEP(CV)仅为0.439 4 mmol/100 g和0.411 8 mmol/100 g。
![]()
![]()
![]()
![]()
6 模型建立与评价
基于前面的分析可知,使用5 点3 次SG平滑对黄水原始全光谱进行预处理,另外采用波段筛选方法iPLS和波点筛选方法iNSGA-III进行联合筛选特征波数后,建立的PLSR模型对黄水酸度预测效果最好,表7和图6为其在测试集上的预测精度和拟合效果。由表7可知,相较于原始全光谱波段直接建模,SG和iPLS-iNSGA-III优化后的PLSR模型,R2P从0.757 6变为0.930 9,提升了22.88%,RMSEP从0.825 0 mmol/100 g变为0.439 4 mmol/100 g,降低了46.74%,建模变量数也从最开始的2 027 个变到70 个,下降了96.55%。说明iPLS-iNSGA-III能够实现优势互补,共同筛选出原始光谱中的关键特征波数,剔除了大量冗余信息,在降低模型复杂度的同时也提升了预测精度。此外四折交叉验证显示模型的平均R2P、RMSEP为0.939 3、0.411 8 mmol/100 g,与原始SPXY固定划分的模型结果差异微小,表明其在数据集变化时具有较高的泛化能力和鲁棒性。
![]()
![]()
结 论
本研究以不同发酵程度的黄水为研究对象,建立了一种基于傅里叶近红外光谱的黄水酸度无损快检模型。在经SG平滑预处理后的原始近红外光谱基础上,采用波段和波点筛选方法进行联合筛选黄水酸度的特征波数。对比了iPLS、BiPLS和SiPLS 3 种波段筛选方法,发现iPLS能对黄水酸度特征区间进行更准确的定位,建立的PLSR模型预测效果最好。在iPLS筛选结果上,使用本研究提出的改进多目标优化方法iNSGA-III进行二次波点筛选,与NSGA-III、GA、CARS、SPA这些波点筛选方法相比,基于iPLS-iNSGA-III建立的黄水酸度PLSR模型取得最优预测效果,其波数从全光谱的2 027 个降到70 个,R2P从0.757 6上升到0.930 9,RMSEP从0.825 0 mmol/100 g降低到0.439 4 mmol/100 g。本研究为近红外光谱快速检测黄水酸度提供了理论和应用参考。
作者简介
通信作者:
![]()
向星睿硕士研究生
向星睿,四川轻化工大学自动化与信息工程学院、人工智能四川省重点实验室硕士研究生,研究方向为白酒智能化酿造,发表学术论文2 篇。
第一作者:
![]()
张贵宇副教授
张贵宇,副教授,四川轻化工大学自动化与信息工程学院、人工智能四川省重点实验室副教授,硕士生导师,研究方向主要为人工智能、智能检测技术装备及应用、智能酿造技术及装备应用等。四川轻化工大学“652”科研创新团队负责人,四川省人工智能学会智能酿造专委会秘书长,曾获中国酒业协会科学技术进步奖一等奖、二等奖,“盐都万人计划”优秀科技人才、“五粮液科研贡献奖”个人贡献奖和团队贡献奖。先后主持省部级项目3 项、产学研、科技成果转化及市厅级项目15 项,主研参与国家自然科学基金、省部级科研项目6 项;在国内外学术期刊发表论文50余篇,其中SCI、EI检索收录10余篇,获授权发明专利5 项,实用新型专利10余项,软件著作权10余项;参与制定行业团体标准3 项。
本文《近红外光谱测定黄水酸度的iPLS-iNSGA-III联合特征筛选方法》来源于《食品科学》2025年46卷第17期283-291页,作者:张贵宇,向星睿*,张磊,王怡博,严俊,张云龙。DOI:10.7506/spkx1002-6630-20250214-046.。点击下方 阅读原文 即可查看文章相关信息。
实习编辑:刘芯;责任编辑:张睿梅。点击下方阅读原文即可查看全文。图片来源于文章原文及摄图网
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.