System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于伪标签优化的集成学习半监督工业数据预测方法技术_技高网

一种基于伪标签优化的集成学习半监督工业数据预测方法技术

技术编号:41591577 阅读:17 留言:0更新日期:2024-06-07 00:03
本发明专利技术公开了一种基于伪标签优化的集成学习半监督工业数据预测方法,首先,利用基于投票集成学习的半监督模型,通过结合多个模型的预测结果,进行加权求平均,从而得出初代伪标签,之后利用遗传优化算法,对所生成的伪标签进行迭代优化,得到最优伪标签。最后,再结合CPCAN(Channel Prior Convolutional Attention Network),利用通道注意力机制和多尺度特征融合的方法,进而提高模型的特征提取能力。该发明专利技术解决了现有技术中存在的有标签样本较少和缺失以及特征提取能力弱的预测问题。

【技术实现步骤摘要】

该专利技术专利提出的工业数据预测方法能够在有标签数据较少的情况下,对无标签数据充分利用。


技术介绍

1、工业数据预测是指利用先进的数据分析技术和算法,对工业生产、设备状态、供应链等方面的数据进行分析和挖掘,以预测未来发展趋势、优化生产流程和提高生产效率。这一技术的背景主要源于工业互联网的发展和智能制造的兴起。随着工业设备的互联互通和传感器技术的普及,工业数据呈现爆炸式增长,如何有效地利用这些数据成为制造企业面临的挑战。因此,工业数据预测技术应运而生,通过对海量数据的分析和建模,实现对生产过程的精准监控和未来趋势的预测,帮助企业做出更科学的决策。

2、在工业数据预测技术的背景下,涌现了诸多关键技术和方法。其中,机器学习和深度学习技朧作为重要的数据分析手段,为工业数据预测提供了强大的支撑。通过建立复杂的模型和算法,机器学习可以从历史数据中学习规律并预测未来的发展趋势,而深度学习则能够处理更加复杂和抽象的数据特征,实现更高精度的预测。此外,辅以传感器技术、物联网技术和大数据平台,工业数据预测技术不断完善和深化,为工业生产的智能化和高效化提供了坚实的技术基础。目前,半监督学习不管是在学术界还是工业界都受到了极大的关注。

3、虽然目前半监督学习在工业数据预测中表现出了优异的性能,但是也面临着一些挑战和不足:(1)目前的基于集成学习半监督模型架构,大多数只考虑了集成一种类型的模型,这就造成了预测模型的泛化能力和准确性不足。(2)目前的基于集成学习的半监督模型中,大多数没有考虑到与深度学习模型相结合,这就导致模型的特征提取能力不足,进而影响模型的预测性能。

4、这项专利技术主要涵盖了四个关键方面:确定输入输出变量、数据预处理、建立基于伪标签优化的集成学习半监督工业数据预测模型以及利用辅助变量对关键变量进行实时预测。

5、首先,该专利技术通过精心筛选和分析,确定该模型的输入和输出变量,选择与所研究过程密切相关的变量作为模型的输入,并确认需要对其进行预测的目标变量作为模型的输出。

6、其次,该专利技术将数据预处理视为确保可靠建模的关键步骤。通过采用适当的数据预处理方法,如异常数据去除、缺失值填补、数据归一化等技术,对原始数据进行清洗和优化。这样可以提高数据的准确性和一致性,并为后续的建模工作提供可信赖的数据基础。

7、第三,构建基于伪标签优化的集成学习半监督工业数据预测模型。该模型结合了伪标签优化、集成学习、半监督学习和注意力机制的方法。在该模型中,首先使用投票集成回归器在有标签数据上进行监督学习,投票集成回归器由线性回归、随机森林回归、梯度提升回归和支持向量回归组成。通过集成学习,可以降低模型的泛化误差,并得到更准确的预测结果。然后,使用该模型对未标记的数据进行预测,并将预测结果作为伪标签。之后,使用遗传优化算法来对所生成的伪标签进行迭代优化,找出最优伪标签。接下来,利用回归预测模型进行最终的预测,它主要卷积模块、前馈神经网络、通道注意力机制和多尺度空间注意力机制组成,其中,通道注意力的操作是对于每个通道而言的,通过平均池化和最大池化操作,从而得到该通道在不同空间位置上的平均值和最大值,之后进行空间信息聚合,并将这些聚合后的信息输入到共享的全连接层中,通过学习权重来决定每个通道的重要性,从而实现通道间的自适应加权。多尺度空间注意力机制主要关注特征图中不同尺度的信息,帮助模型更好地捕捉不同尺度上的目标或结构。前馈神经网络由深度可分离卷积(dwconv)和gelu激活函数组成,深度可分离卷积将标准的卷积操作分解为深度卷积和逐点卷积两步,通过这种方式大大减少了需要学习的参数数量。相比于传统的卷积操作,深度可分离卷积在保持模型性能的情况下,提供了更好的特征提取能力。通过在深度和宽度两个维度上分别进行卷积,深度可分离卷积可以更好地捕捉输入数据在空间和通道维度上的特征关系,从而提高了模型对复杂特征的表征能力。

8、最后,为了实时预测工业生产过程中的关键变量,将采集相关的辅助变量作为已训练好的模型的输入。

9、本专利技术基于伪标签优化的集成学习半监督工业数据预测方法的建模详细实施步骤如下:

10、步骤1:需要在工业现场收集与建模相关的数据集,这些数据集应包含与关键质量变量相关的辅助变量,用于确定模型的输入变量。需要确保数据集中包含足够数量且样本多样性丰富的样本,以代表不同的操作条件和变化范围。在建模中,通常通过多个辅助变量来预测一个关键质量变量,可以用一个复杂函数y=f(λ)表示,其中y为需要预测的关键质量变量,λ为辅助变量。λ={λ1,λ2,...,λh},其中h为辅助变量的个数。

11、步骤2:在实际应用中,数据预处理非常重要,因为真实数据往往存在不完整和异常值等问题。为了确保准确的数据挖掘和建模,采取以下数据清洗步骤:首先,通过识别和处理异常点和错误点来消除对模型的干扰,使用统计指标如均值和标准差来检测超出阈值范围的数据点,并进行修正或排除。其次,通过计算每个辅助变量的样本中心,来识别和筛选掉变异性较大的辅助变量,以消除不稳定的辅助变量对模型的影响,提高建模的准确性。最后,采用最大最小归一化方法将数据缩放到[0,1]的区间内,以解决不同变量之间的量纲差异问题,并加快神经网络的求解速度。通过以上数据预处理步骤,可以提高预测的准确性,并确保数据的可靠性和适用性。

12、通过上述数据预处理步骤,成功地对数据进行了清洗和准备,以更好地进行数据挖掘和建模。这种处理方式提高了模型的准确性和稳定性,使其能够更好地适应不完整和含噪声的真实数据。接下来,将数据集分为两部分:训练集和测试集。通常情况下,将80%的数据用于训练集,而将20%的数据用于测试集。这样的划分方式旨在利用训练集来训练模型、调整超参数,并利用测试集来评估模型的性能。这种划分方法有效地帮助评估模型在未见过的数据上的泛化能力。

13、步骤3:构建基于伪标签优化的集成学习半监督工业数据预测模型,详细的网络模型构建分为一下几个步骤:

14、步骤3.1:构建集成学习器。本模型使用投票集成学习回归方法,它通过结合多个回归模型的预测结果来进行最终的预测。它的原理是将多个模型的预测结果进行加权平均,以得到更准确、稳定的预测结果。本模型使用的投票集成学习器分别是线性回归、随机森林回归、梯度提升回归和支持向量回归。线性回归通过最小化目标变量与预测值之间的残差平方和来估计模型的参数,所以它具有直观的解释性,并且,由于它只涉及简单的线性运算,所以它的预测速度通常很快,这也是它在回归预测中被经常使用的一个重要原因之一。随机森林回归是基于随机森林算法,并由多个决策树模型所组成。由于使用了多个决策树进行预测,所以,在其中某些决策树受到异常值或噪声的干扰时,其他决策树可以弥补其影响,从而可以提供更稳定的预测结果。并且它通过自助采样和随机选择特征子集的方式来构建决策树,从而减少了过拟合的风险。总之,由于随机森林回归的高精度和可解释性等特点,被应用于各种回归问题。梯度提升回归通过迭代地加入多个弱回归模型来进行回归,每次迭代都会关注本文档来自技高网...

【技术保护点】

1.一种基于伪标签优化的集成学习半监督工业数据预测方法,用于在有标签数据较少的情况下,对无标签数据充分利用。其特征在于:

【技术特征摘要】

1.一种基于伪标签优化的集成学习半监督工业数据预测方法,用于...

【专利技术属性】
技术研发人员:李天桢高世伟党小超董晓辉李延红王静宇苏文静
申请(专利权)人:西北师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1