基于特征选择的食品掺杂物权重可视分析方法技术

技术编号:38679718 阅读:11 留言:0更新日期:2023-09-02 22:53
基于特征选择的食品掺杂物可视分析方法,首先对食品检验数据进行清洗与预处理,构建样本

【技术实现步骤摘要】
基于特征选择的食品掺杂物权重可视分析方法


[0001]本专利技术提出了一种基于特征选择的食品掺杂物权重可视分析方法,该方法基于特征选择方法计算食品掺杂物的权重,将作为行为主体的用户融入可视化流程中,设计多视图及其之间交互流程,提高用户对掺杂物的理解,以得到重要的掺杂物。

技术介绍

[0002]近年来,国家对食品安全监管力度和监测手段的不断提高和加强,为各种基于数据的食品安全研究提供了大量食品检验数据资源。食品抽检数据中通常包含多维度信息,如食品类别、掺杂物、时空属性等,其中食品类别繁多,不同食品类别中检出的掺杂物也呈现出多样性。由于掺杂物与食品之间存在独特的潜在关系,可以将掺杂物看作是不合格食品的特征,通过分析掺杂物信息来挖掘不合格食品中的重要特征。在这一研究背景下,如何充分利用不合格抽检数据中的掺杂物来挖掘不合格食品的特征,则成为食品安全监管环节中的重要问题。
[0003]以往的大部分工作使用统计方法来衡量掺杂物的重要性,例如掺杂物检出的百分比,这种方式较繁琐且需要先验知识的参与;而使用数学方法计算出的掺杂物权重缺乏可解释性,这会导致使用者无法理解从而失去对结果的信任。此外,机器学习算法常被认为是“黑盒”模型,用户只能查看模型计算结果,无法理解模型训练过程中的细节。用户更希望通过了解模型来提升对结果的理解和信心。

技术实现思路

[0004]为了克服现有技术的上述不足,本专利技术提出了一种基于特征选择的食品掺杂物权重可视分析方法。
[0005]本专利技术的基于特征选择的食品掺杂物可视分析方法,包括如下步骤:
[0006]步骤1:以一定规则对食品检验数据进行清洗与预处理,保证数据的有效性,构建样本

掺杂物数据集的特征空间并划分数据集;
[0007]步骤2:将处理好的数据作为特征选择中模型的输入,计算掺杂物的权重值,然后保存学习过程中的样本分类结果、评估指标和模型结构的信息,并计算特征之间的相关性度量;
[0008]步骤3:设计数据可视化视图对数据进行展示,将得到的特征模型数据,分别映射为不同的可视化视图;
[0009]步骤4:通过模型计算与可视化设计为使用者提供对食品掺杂物的理解,并据此获得交互线索,通过多视图间的交互联动选择出高权重的掺杂物特征,并对其进行评估,通过迭代式交互分析得到最优特征组合。
[0010]进一步,步骤1具体包括:
[0011]1.1提取原始数据集中的不合格样本。每条抽检数据中包含食品名称、食品类别、掺杂物、检测结果、是否不合格五个项目。首先根据是否不合格项目筛选出所有检测不合格
数据,再根据食品类别项目对所有不合格数据进行分类。进一步对掺杂物项目中的掺杂物进行文本提取,并将其与检测结果项目中对应检出量一一对应,构建样本

掺杂物总数据集D;
[0012]1.2数据清洗。为清除无效数据,筛除掉少于样本阈值的食品类型。另外,为避免对食品掺杂物特征的主观排除,对于每个食品类型,保留有效数值大于1条的掺杂物特征。优选地,样本阈值设为200。
[0013]1.3构建特征空间X
k
与预分割数据集。首先根据总不合格食品抽检数据集D为每一类构建特征向量空间X
k

[0014][0015]其中,k∈{1,2,...C},其中,C为D中食品类型数。X
k
中有m个行向量,m为D中不合格数据记录的个数,X
k
=(X1,X2,...,X
i
,...X
m
)
T
,其中,i∈{1,2,...,m}。若X
k
中每条不合格数据记录X
i
中有n个掺杂物,则X
k
中有n个列向量,X
k
=(D1,D2,...,D
j
,...D
n
),其中,j∈{1,2,...,n}。
[0016]接下来,为每个食品类型构建预分割数据集,后续将从该数据集中划分出训练集和测试集。首先从上述C

1个数据集中不分类别地随机抽取m条样本表示,与X
k
按行合并,再将数据集的掺杂物特征统一表示为X
k
原有特征,对于样本中的未检出的掺杂物则赋值为0。最终表示如下:
[0017][0018]最后,为设置标签,对属于第k类的样本设置为正样本,不属于第k类的样本设置为负样本。对每类数据集按照8:2划分训练集和测试集。
[0019]进一步,步骤2具体包括:对以上步骤预处理好的食品检验样本

掺杂物数据集X
k
和,首先基于三种特征选择方法(过滤式、嵌入式与包裹式)计算出特征权重,提取嵌入式方法使用的XGBoost模型的样本分类结果、模型结构和评估指标,最后计算出每类食品中掺杂物特征的相关性。
[0020]再进一步,步骤2具体包括:
[0021]2.1基于特征选择的特征权重计算;本专利技术使用三种特征选择方法计算特征权重值,分别为过滤式、嵌入式和包裹式,计算方法如下所示:
[0022]在过滤式方法中,通过计算方差分析(ANalysis Of VAriance,ANOVA)中的F值来衡量特征的重要性,在具体计算中,使用数据集计算各特征的得分,F值的计算如公式(1)所示。
[0023][0024]其中,MSB和MSW分别为类别间方差和类别内方差,k为标签类别数,k=2.n为训练集中样本总数,n
j
为第j个类别中的样本数量,其中,j=1,2.x
ij
表示第j个类别的第i个样本,为第j个类别的样本均值,即为第j个类别的样本均值,即为总样本均值,即
[0025]在嵌入式方法中,选用XGBoost(eXtreme Gradient Boosting)作为机器学习算法,并选用分类回归树(Classification And Regression Tree,CART)作为XGBoost模型的基学习器。将步骤1.1中得到的训练集和测试集,按序放入XGBoost中进行训练和测试。XGBoost中部分重要的超参数设置如下:学习率(0.01

0.1),树的最大深度(6,10),样本集中随机抽取比例(0.8,1.0)等。对训练好的XGBoost模型,提取其节点分裂信息、特征权重以及模型分类结果。
[0026]在包裹式方法中,使用交叉验证递归特征消除(Recursive Feature Elimination,RFE)策略计算特征权重,该算法选用随机森林模型进行多轮迭代训练,每轮迭代开始时对训练集进行重采样,基于采样后的训练集训练模型,采用测试集评估模型,计算所有特征的重要性并排序,移除权值最小的特征,用这种递归的方式删除特征,并基于新的特征集进行下一轮迭代,直到留下指定数量的特征为止。
[0027]具体实现中,为了让包裹式特征选择算法的结果能够贴合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于特征选择的食品掺杂物可视分析方法,包括如下步骤:步骤1:以一定规则对食品检验数据进行清洗与预处理,保证数据的有效性,构建样本

掺杂物数据集的特征空间并划分数据集;步骤2:将处理好的数据作为特征选择中模型的输入,计算掺杂物的权重值,然后保存学习过程中的样本分类结果、评估指标和模型结构的信息,并计算特征之间的相关性度量;步骤3:计数据可视化视图对数据进行展示,将得到的特征模型数据,分别映射为不同的可视化视图;步骤4:通过模型计算与可视化设计为使用者提供对食品掺杂物的理解,并据此获得交互线索,通过多视图间的交互联动选择出高权重的掺杂物特征,并对其进行评估,通过迭代式交互分析得到最优特征组合。2.如权利要求1所述的基于特征选择的食品掺杂物可视分析方法,其特征在于,步骤1具体包括:1.1提取原始数据集中的不合格样本;每条抽检数据中包含食品名称、食品类别、掺杂物、检测结果、是否不合格五个项目;首先根据是否不合格项目筛选出所有检测不合格数据,再根据食品类别项目对所有不合格数据进行分类;再对掺杂物项目中的掺杂物进行文本提取,并将其与检测结果项目中对应检出量一一对应,构建样本

掺杂物总数据集D;1.2数据清洗;为清除无效数据,筛除掉少于样本阈值的食品类型;另外,为避免对食品掺杂物特征的主观排除,对于每个食品类型,保留有效数值大于1条的掺杂物特征;1.3构建特征空间X
k
与预分割数据集首先根据总不合格食品抽检数据集D为每一类构建特征向量空间X
k
:其中,k∈{1,2,...C},其中,C为D中食品类型数;X
k
中有m个行向量,m为D中不合格数据记录的个数,X
k
=(X1,X2,...,X
i
,...X
m
)
T
,其中,i∈{1,2,...,m};若X
k
中每条不合格数据记录X
i
中有n个掺杂物,则X
k
中有n个列向量,X
k
=(D1,D2,...,D
j
,...D
n
),其中,j∈{1,2,...,n};接下来,为每个食品类型构建预分割数据集后续将从该数据集中划分出训练集和测试集;首先从上述C

1个数据集中不分类别地随机抽取m条样本表示,与X
k
按行合并,再将数据集的掺杂物特征统一表示为X
k
原有特征,对于样本中的未检出的掺杂物则赋值为0;最终表示如下:
最后,为设置标签,对属于第k类的样本设置为正样本,不属于第k类的样本设置为负样本;对每类数据集按照8:2划分训练集和测试集。3.如权利要求1所述的基于特征选择的食品掺杂物可视分析方法,其特征在于,步骤2具体包括:对以上步骤预处理好的食品检验样本

掺杂物数据集X
k
和首先基于三种特征选择方法,即过滤式、嵌入式与包裹式,计算出特征权重,提取嵌入式方法使用的XGBoost模型的样本分类结果、模型结构和评估指标,最后计算出每类食品中掺杂物特征的相关性。4.如权利要求3所述的基于特征选择的食品掺杂物可视分析方法,其特征在于,步骤2具体包括:2.1基于特征选择的特征权重计算;使用所述的三种特征选择方法计算特征权重值,计算方法如下:在过滤式方法中,通过计算方差分析(ANalysis Of VAriance,ANOVA)中的F值来衡量特征的重要性,在具体计算中,使用数据集X
kpre
计算各特征的得分,F值的计算如公式(1)所示;其中,MSB和MSW分别为类别间方差和类别内方差,k为标签类别数,k=2.n为训练集中样本总数,n
j
为第j个类别中的样本数量,其中,j=1,2.x
ij
表示第j个类别的第i个样本,为第j个类别的样本均值,即为第j个类别的样本均值,即为总样本均值,即在嵌入式方法中,选用XGBoost(eXtreme Gradient Boosting)作为机器学习算法,并选用分类回归树(Classification And Regression Tree,CART)作为XGBoost模型的基学习器;将步骤1.1中得到的训练集和测试集,按序放入XGBoost中进行训练和测试;对训练好的XGBoost模型,提取其节点分裂信息、特征权重以及模型分类结果;在包裹式方法中,使用交叉验证递归特征消除(Recursive Feature Elimination,RFE)策略计算特征权重,该算法选用随机森林模型进行多轮迭代训练,每轮迭代开始时对训练集进行重采样,基于采样后的训练集训练模型,采用测试集评估模型,计算所有特征的重要性并排序,移除权值最小的特征,用这种递归的方式删除特征,并基于新的特征集进行下一轮迭代,直到留下指定数量的特征为止;
2.2基于XGBoost模型的样本结果表示;需要提取测试集中标签为正的样本及其分类结果、正样本的语义信息以及XGBoost模型的模型结构;首先,使用UMAP(Uniform Manifold Approximation and Projection,统一流形逼近与投影)降维算法对测试集中的正样本的特征表示降至二维,获取各样本的嵌入表示;其次,获取测试集中正样本数据的语义信息;先获取正样本数据集中所有样本的编号,再提取对应编号的样本的食品名称项,保存为js...

【专利技术属性】
技术研发人员:汤颖盛祎琛
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1