基于数据挖掘建立北京地区牛、羊肉串掺假风险预测模型|神经网络|算法

分享至

国内外已经开发出多种肉类掺假鉴别检测技术，例如免疫和质谱技术、聚合酶链式反应（PCR）技术以及光谱、传感器等无损检测技术。目前，我国主要采用实时聚合酶链式反应（real-time PCR）法进行源性成分检测，该方法不受加工处理及待鉴定基质中复杂干扰成分的影响、鉴定结果准确且灵敏度高。检测技术作为一种监控手段，对于食品安全保障必不可少，但是如何实现食品安全的源头防控和主动预防，也是值得认真思考的方向。

我国当前对食品安全风险预测的手段限于数理统计、不合格样品信息通报等，而对于大量检测数据的深入分析与挖掘缺乏有效的手段。数据挖掘技术是指将潜在的、隐含的信息从庞大的、不完整的、有干扰的数据中挖掘出来，提取隐含在其中的有效信息的过程。而人工神经网络（ANN）模型是一种重要的数据挖掘工具，通过模拟生物学中相互连接神经元组成的复杂网络进行建模。目前，常见的ANN模型为反向传播（BP）神经网络，由于其能够通过训练，精准地发现数据中隐含的规律，进而有效识别、记忆食品危险特征，已被成功应用到食品安全风险预警领域中。

目前，国内对食品安全风险调查及风险预测研究多集中在常规检测项目，如食源性致病菌、农兽药残留等，对肉类掺假调查分析较为少见。中国肉类食品综合研究中心、北京食品科学研究院的范维、高晓月和郭文萍*等人对2019年北京市销售的牛、羊肉串掺假情况进行调查分析，旨在获得不同销售渠道的肉串制品具体掺假情况及相关数据，并在此基础上运用数据挖掘技术发现隐藏在检测数据中有价值的信息，构建牛、羊肉串掺假风险预测模型。以期为建立高效的食品安全风险预测机制和风险预警系统提供强有力的技术手段。

1 建模数据的收集

1.1 质控样品检测结果

制备质控样品，将其与采集的样品一同进行DNA提取和源性成分检测。质控样品real-time PCR图谱见图2，检测结果显示，根据SN/T 2051—2008中规定：real-time PCR法检出限可达到0.1 g/100 g（即100 g基底源性中掺入0.1 g其他源性即可检出），对应样品Ct值≤35.0时，报告该源性成分检出。而在实际检测过程中发现，正是因为real-time PCR法的高灵敏度，使得较多样品被检出Ct值不大于35.0（图3、4），但是无法判断是蓄意掺假还是无意沾染。本实验制备1%含量的质控样品并测定其Ct值，根据其Ct值制定源性成分报出限，用于本实验结果判定。

结果显示，纯肉样品Ct值在12.51～16.93之间，1%含量质控样品Ct值在24.51～27.83之间，两者存在显著性差异（P＜0.05）。根据1%含量质控样品Ct值范围，为确保Ct值大于报出限后，源性成分含量小于1%，故设定报出限为Ct值28.0。当0＜Ct≤28.0时，报出样品含有该源性成分；当28.0＜Ct≤35.0，样品虽然检出该源性成分，但其含量小于1%，不具有掺假意义，不报出含有该源性成分；当Ct＞35.0时，样品未检出该源性成分。

1.2 建模样品检测结果

根据质控样品报出限Ct值28.0和标准规定检出限Ct值35.0，将羊肉串和牛肉串样品中各源性Ct值进行分类，绘制样品各源性检测Ct值分布图（图3、4）。结果显示，牛肉串样品中有87 个（87%）样品Ct值在0～28.0之间，可报出含有牛源性，其中86 个样品只含有牛源性，1 个样品含有牛源和猪源性，其余13 个（13%）Ct值大于28.0的样品（不报出牛源性），经检测发现4 个为猪源性、9 个为鸭源性，综上可知牛肉串的不合格率为14%；羊肉串样品中83 个（83%）Ct值在0～28.0的样品里有4 个样品既含有羊源又含有猪源，剩余17 个（17%）Ct值大于28.0的样品（不报出羊源性），其中12 个为猪源性、5 个为鸭源性，综上可知羊肉串的不合格率为21%。

此外，以羊肉串为例，从图4可以看出羊肉串样品中分别有32%、11%和24%的样品其猪源、鸡源和鸭源检出的Ct值在28.0～35.0之间，但实际样品中掺入量不足1%，若将这些样品全部判定为不合格，对于商家而言是不公平的。因此，在实际检测过程中带入质控样品制定报出限，可以在一定程度上规避含量极少的样品判定为不合格的风险。

2 建模数据的挖掘

2.1 不合格样品分布情况分析

本次采样涵盖网购、夜市摊位、农贸市场、街边摊贩在内的10 个销售渠道，不合格样品分布情况见图5。除学校食堂外，其余渠道均有不合格样品；其中夜市摊位共采样20 份，不合格样品8 份，不合格率达40%，高于其他渠道（P＜0.05）。此外，街边摊贩和网购的不合格率也较高，分别为30%（6/20）和25%（5/20）。因此，肉串销售渠道这一属性对源性成分掺假结果具有影响性。

2.2 不合格样品来源情况分析

本次采样共涉及100 家销售单位，其中包括大型单位20 家，中型单位30 家，小型单位50 家。由图6可知，100 家销售单位中有73 家（73%）样品合格，27 家（27%）样品不合格。不合格的27 家单位中，无大型单位，有小型单位22 家（81.4%），中型单位5 家（19.6%）。由此可知，小型销售单位存在不合格样品的风险较高。因此，企业规格也是影响源性成分掺假结果的重要属性。选取BP神经网络算法进行肉串样品的风险调查数据挖掘。

3 肉串样品风险调查数据挖掘与预测模型

3.1 BP神经网络

在众多的神经网络算法中，BP神经网络是应用最为广泛和成功的一种，它利用隐含层将误差从输出向输入逐层进行反向传播，在此过程中以最速下降法修改权值和阈值，使误差函数得以快速收敛，具有良好的算法

3.2 数据预处理

此次排除“样品编号、企业名称、样品规格、商标”等对样品不具代表性且对输出结果不具影响性的属性。最终选取“销售渠道、企业规格、加工日期、样品类型、样品属性、单价”6 个属性作为输入变量，以源性成分检测结果的“合格、不合格”为输出变量（目标变量）。将样品各属性按照IBM SPSS Modeler软件要求，在Excel中进行数据编辑，以便后期数据导入，数据框类型见表3。

3.3 建模流程

采用IBM SPSS Modeler软件进行建模，操作简便，具体流程见图7。首先通过源节点导入Excel整理好的数据；之后通过类型节点读取值与设置角色，将“结果”列为目标变量，其余列为输入变量；通过平衡数据节点，给予结果为“不合格”的数据平衡指令，将数据按一定比例进行平衡；通过分区节点将数据集分为训练集、测试集以及验证集；最后通过类神经网络节点进行建模。

3.4 建模参数设置

数据导入节点设置

数据导入后，选择自动数据准备，样本属性均为名义变量。对于已选定的分类变量，神经网络自动数据准备会将n个类别的分类型变量转化为n个取值为0或1的数值型变量后，采用二进制码将各变量编码，使其符合神经网络的输入要求。

平衡数据节点设置

本次采集样品200 份，每份样品检测项目数为5，共得到肉串样品原始数据1 000 条。其中不合格样本比例为6.5%（65/1 000），相对于合格样本而言，肉串不合格属于小样本。采用过抽样或欠抽样技术，增加样本中小样本事件比率，提高预测准确率。设置SPSS Modeler平衡节点为合格∶不合格=2∶1。

分区节点设置

将数据集分成训练集、测试集和验证集，以提高模型的稳定性和可重复性。在分区节点设置训练分区的大小为70%，测试集分区大小为20%，验证集大小为10%。

建模节点设置

建模时选择类神经网络节点。神经网络模型选取多层感知器，模型使用的停止规则为“无法进一步降低误差”，使用最大训练时间15 min。由于模型的训练为不断向样本学习的过程，因此可通过不断调整网络权值得到较小的预测误差。所有样本学习完毕后，若预测误差仍较大，则需改变建模参数重新进行学习，直到得到理想的精度或满足停止规则。

3.5 建模结果分析

最终经训练后得到的肉串样品源性成分掺假预测模型及模型概要见图8。形成的BP神经网络模型为3 层神经网络，隐藏层中神经元数量为9 个。预混比例2∶1分层挖掘数据得到的肉串样品源性成分掺假总预测准确率达90.3%。

利用训练集生成BP神经网络模型后，用测试集评价模型的预测准确性，用验证集对模型预测能力加以验证。从验证结果可知：建立的预测模型对于不合格样本，判定为不合格率为95.7%，错判为合格率仅为4.3%；对于合格样本，判定为合格率为87.6%，错判为不合格率为12.4%。总体而言，对于实际结果为不合格的样品，所建模型的预测准确率非常高，达95.7%，这正好满足了风险预测的目的，即尽可能准确地预测出不合格的问题样品；而对于实际结果为合格的样本，模型的预测准确率有所降低，这可能是由于样本数据不平衡或样本数据量较少所致，但是若用此模型进行初筛，虽然错判为不合格样品的概率较高，导致较多样品需进一步验证，但这并不会造成食品安全风险隐患，因此预测结果仍有参考和应用价值。此外，这一缺陷可通过进一步完善原始数据、加大数据统计量和调整数据集平衡比例等深入预处理得以改进。

建立的BP神经网络模型，给出了各属性变量对预测结果影响的重要次序。由图9可知，“企业规格”和“销售渠道”对预测结果影响较大；“价格”对预测结果影响较小。这与2.2节中对建模数据深层挖掘的分析结果一致，说明该模型预测结果可靠。

3.6 模型应用

构建的模型在具体肉串样品掺假风险预测中的应用。若已经获得样品如下属性信息，如样品编号、销售渠道、企业规格、样品类型、样品属性、加工日期、单价等。则将相关属性导入IBM SPSS Modeler中，利用已训练好的BP神经网络模型预测出各样品结果。

结论

本实验对2019年北京市10 个销售渠道，100 家销售单位的200 份牛、羊肉串样品源性成分掺假情况进行调查分析，考察影响源性成分掺假的主要风险因素，并通过对检测数据的深层挖掘构建牛、羊肉串源性成分掺假的BP神经网络预测模型。该模型以“销售渠道、企业规格、加工日期、样品类型、样品属性、单价”6个属性作为输入变量，以源性成分检测结果的“合格、不合格”为输出变量（目标变量）。通过IBM SPSS Modeler软件的自动模型验证与参数优过程，最终得到的3 层神经网络预警模型，其总预测准确率为90.3%，其中对实际不合格样品的预测准确率高达95.7%。该模型可用于检测机构样品的初筛预判以及作为监管部门制定抽检方案的依据，但是对预判合格的样品仍存在4.3%的错判率，故无法做到对预测合格样品实施免除检测。此次模型构建没有完全达到预期效果的主要原因在于源性成分掺假风险调查样品较少，导致可获得的数据量有限。因此，之后将在此基础上不断的收集样品数据，完善数据源，进一步提升模型的预测准确率，使其成为建立食品安全风险预测机制和风险预警系统的强有力手段。

本文《基于数据挖掘建立北京地区牛、羊肉串掺假风险预测模型》来源于《食品科学》2020年41卷20期292-299页，作者：范维，高晓月，董雨馨，李贺楠，王琳，郭文萍。DOI:10.7506/spkx1002-6630-20200316-245。

近期研究热点

修改/编辑：袁月；责任编辑：张睿梅

图片来源于摄图网

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.