当前位置: 首页 > 专利查询>池明旻专利>正文

基于π模型的织物纤维成分半监督分类方法技术

技术编号:31738402 阅读:20 留言:0更新日期:2022-01-05 16:16
本发明专利技术提供了基于π模型的织物纤维成分半监督分类方法,所述基于π模型的织物纤维成分半监督分类方法包括织物近红外高光谱数据的采集和清洗方法,对织物近红外高光谱数据的特征提取神经网络及分类器,应用基于π模型的半监督方法训练模型的方法等;本发明专利技术将织物近红外高光谱数据的采集和清洗,特征提取神经网络及分类器,基于π模型的半监督方法等结合,实现了利用织物近红外高光谱数据对织物的纤维成分进行分析,取得目标织物的纤维成分类别。本发明专利技术利用半监督方法训练神经网络模型,缓解了织物材质标签数据获取难,耗时长,花费高的问题,在实际问题中取得了良好的效果。在实际问题中取得了良好的效果。在实际问题中取得了良好的效果。

【技术实现步骤摘要】
基于
π
模型的织物纤维成分半监督分类方法


[0001]本专利技术涉及一种织物纤维成分分类方法,尤其是涉及一种基于π模型的半监督学习方法。

技术介绍

[0002]织物生产过程容易受到各种外界因素影响,这导致其成品的质量波动较大,需要进行严格的质量检测。传统的织物纤维成分分析分为两个步骤:定性和定量。
[0003]材质定性分析方法:有燃烧法,熔点法,手感目测法,显微镜切片分析法等,一般采用显微镜切片分析法,即用切片器将纤维切片后在显微镜下观察,根据其外貌,判断纤维种类项目定位。
[0004]材质定量分析方法:先是不同的纤维用不同的溶剂进行定性分析,再算出具体的成份含量。
[0005]传统的织物纤维成分分析方法步骤多,耗时长,对技术人员要求高,成本较大,急需技术创新。
[0006]近来也有基于SVM,决策树等传统机器学习方法,或者基于LSTM,RNN等深度神经网络方法。但传统机器学习方法效果较差,深度神经网络需要大量经传统材质分析方法得来的有标签数据。而传统材质分析方法太过昂贵且费时费力,难以大量获得。这就造成了深度神经网络在材质分析问题上难应用,效果差的问题。
[0007]半监督学习不同于有监督学习只利用有标注数据的模式,引入大量无标记数据,通过学习无标注数据的内在属性,构建无监督信号,与有标记数据构建的有监督信号结合,使模型能够充分利用大量的未标注数据不断迭代,最终增强泛化性能,极大地缓解用深度神经网络有监督训练时有标签数据少而带来的过拟合问题。
[0008]同时,半监督学习使用较强的数据增强,引入噪声训练机制,因此训练得到的模型有更强的鲁棒性,面对真实世界中由设备差异,环境差异等带来的噪声影响,得到的结果也会更稳定。
[0009]π模型是一种有效的半监督学习方法,其对有标记数据求交叉熵损失,基于一致性正则原理,对无标记数据拷贝2份进行不同的数据增强,计算其MSE损失作为一致性损失。再将有标记数据的交叉熵损失和无标记的一致性损失相结合为总损失,进行神经网络模型的训练。

技术实现思路

[0010]π模型原本应用在图像分类问题,直接应用于织物纤维分类问题上表现较差,这是因为近红外光谱与图像数据类型不同,不能引入其基于视觉不变性先验的数据增强方法,同时光谱数据维度小,更容易导致数据增强后失真,不再属于原类别,从而不适用一致性正则。
[0011]为了克服现有技术中π模型算法存在的缺陷和不足,本专利技术提供了基于π模型的织
物纤维成分半监督分类方法,在π模型半监督损失的基础上,通过对数据增强样本施加余弦距离筛选,避免数据失真样本参与计算损失;同时还加入置信度检测机制,避免低预测置信度样本参与训练,加大模型训练的稳定性,缓解有标签数据过少导致的网络过拟合问题,提高模型的泛化能力。所述模型训练方式包括以下步骤:
[0012]S1:织物纤维有监督与无监督数据的采集;
[0013]S2:通过所述织物近红外高光谱数据的特征提取神经网络及分类器,使用所述织物近红外高光谱序列数据集的有标签训练数据,对有标签的数据进行有监督训练。
[0014]S3:通过所述织物近红外高光谱数据的特征提取神经网络及分类器,使用所述织物近红外高光谱序列数据集的无标签训练数据,引入所述半监督训练方法,进行无监督训练。
[0015]S4:通过所述半监督训练方法,将有监督数据训练和无监督训练结合起来更新模型;
[0016]S5:织物近红外高光谱数据材质分析,通过所述将织物近红外高光谱数据的采集和清洗方法,特征提取神经网络及分类器,对织物近红外高光谱数据进行采集,清洗,特征提取以及分类,取得目标织物的材质类别组分。
[0017]更进一步地,步骤S1织物纤维有监督与无监督数据的采集具体步骤如下:
[0018]S11:织物近红外高光谱序列数据的采集;S12:有监督的数据标签采集;S13:织物近红外高光谱序列数据的数据清洗,异常排除;S14:织物近红外高光谱序列数据的训练,测试数据集制作
[0019]更进一步地,步骤S11织物近红外高光谱序列数据的采集具体步骤如下:
[0020]S111:为保证采集数据反映某块布匹的整体情况与扩充数据集,多次采样填充进数据库; S112:通过近红外高光谱成像仪采集所述织物近红外高光谱序列数据,截取波长范围为 900nm

1700nm的序列数据。
[0021]更进一步地,步骤S12有监督的数据标签采集具体步骤如下:
[0022]S121:对于S111所采集的织物数据,若该布样已经过传统织物成分分析方法获取到材质组分,则对数据进行标记,构建织物近红外高光谱序列与其材质组分的映射关系;S122:对于S121所采集的织物数据,其材质组分包括棉、人棉、莫代尔、天丝、涤纶、羊毛、氨纶、麻、尼龙、腈纶、真丝、羊绒等常见纯材质及由以上材质组成的混纺织物。材质组分即指的是组成一件织物的材质列表,与各材质所占混纺含量无关。
[0023]更进一步地,步骤S13织品近红外高光谱序列数据的数据清洗,异常排除具体步骤如下:
[0024]S131:针对部分布匹光谱序列噪声多,不平滑的特点,基于Savitzky

Golay平滑降噪算法得到其平滑降噪后的曲线,与原始数据曲线对比得均方误差,将均方误差大于阈值w的采样点排除数据集。
[0025]更进一步地,步骤S14织物近红外高光谱序列数据的训练,测试数据集具体步骤如下:
[0026]S141:将步骤S131所述经过数据清洗,异常排除后的数据根据有无标签,划分为有标签数据和无标签数据。有标签数据按照7:3的比例划分数据集为训练集与测试集。将所有无标签数据投入训练集;S142:针对同一匹布样多个采样点光谱波形相近的特点,不应将同
一匹布样的多个采样点分散到训练集与测试集,否则会造成训练集中混入测试集,导致测试结果偏离实际情况的问题。
[0027]更进一步地,步骤S2有标签的数据进行有监督训练具体步骤如下:
[0028]S21:针对近红外高光谱序列数据的特点,构建基于一维卷积神经网络的特征提取网络; S22:基于步骤S1得到的有标签训练数据,将有标签训练数据输入到一维卷积特征提取神经网络得到特征向量,再由Softmax分类器得到输出概率分布,与真实标签对比得受监督的交叉熵损失,记为有监督损失;S23:基于步骤S22中分类器得到的输出概率分布向量,针对有标签数据量少,模型容易过拟合的问题,设置阈值e。若某条采样点经所述步骤S22特征提取网络与Softmax分类器得到的概率分布向量最大值大于e,则不计入有监督损失;S24:基于步骤S1得到的有标签训练数据,在训练早期,以均匀采样获得有标签训练数据。在训练晚期,以随机加权采样获得有标签训练数据。
[0029]更进一步地,步骤S3引入所述半监督训练方法,进行无监督训练具体步骤如下:
[0030]S31:基于步骤S1所述数据清洗,异常本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于π模型的织物纤维成分半监督分类方法,其特征在于,方法包括以下步骤:采集和清洗织物近红外高光谱数据,所述高光谱数据包含有标签数据和无标签数据;将所述织物有标签数据输入特征提取神经网络和分类器,得到模型输出的概率分布,与其对应标签求交叉熵损失;将所述织物无标签数据分别进行两次随机数据增强,得到一个无标签样本对,将所述样本对输入特征提取神经网络和分类器,得到模型输出的样本对概率分布;衡量同一样本对的不同输出概率分布的L2距离,对该样本对求无监督的MSE损失;将所述交叉熵损失和MSE损失结合为总损失,更新特征提取神经网络模型;神经网络模型训练完成后,使用所述神经网络模型对织物高光谱数据分类。2.根据权利要求1所述的方法,其特征在于,所述步骤有标签数据训练进一步包括:针对近红外高光谱序列数据的特点,构建基于一维卷积神经网络的特征提取网络;由于所述织物近红外高光谱数据中有标签数据量少的特点,所述神经网络模型容易产生过拟合的问题,故设置阈值e,若有标签数据输入神经网络模型输出的概率分布向量最大值大于e,则不计入有监督损失;对于所述有标签数据训练流程,在训练早期,以均匀采样获得有标签训练数据;在训练晚期,以随机加权采样获得有标签训练数据。3.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:池明旻
申请(专利权)人:池明旻
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1