数据驱动的基于不平衡装配数据的发动机质量预测方法技术

技术编号:38420922 阅读:10 留言:0更新日期:2023-08-07 11:21
一种数据驱动的基于不平衡装配数据的发动机质量预测方法,通过分析工艺参数在预测产品质量过程中的互补性和冗余性,减少输入变量间的冗余性,提高互补性,选择冗余性最小的关键变量集合,基于所选的关键变量识别柴油发动机不同模态,针对少数类模态基于关键变量的流形距离合成新样本,平滑不平衡训练数据的分布,通过自适应参数优化的集成模型实现柴油发动机的质量预测,显著减少质量预测模型的输入变量间的冗余性,改善数据的不平衡现状,提高质量预测模型的泛化能力,可以帮助现场工程师准确掌握柴油发动机装配过程生产状态和产品质量信息,进而为复杂机械装配产品的决策提供有效参考信息,以便为后续生产的智能化调度参数优化提供指导。数优化提供指导。数优化提供指导。

【技术实现步骤摘要】
数据驱动的基于不平衡装配数据的发动机质量预测方法


[0001]本专利技术涉及的是一种发动机制造领域的技术,具体是一种数据驱动的基于不平衡装配数据的发动机质量预测方法。

技术介绍

[0002]柴油发动机的装配过程涵盖多个阶段以及大量的制造过程参数,需要经过多个工位、多道工序串并行作业。装配现场扰动随机发生,设备运行状态与工人操作精度等在一定范围内浮动,误差随着装配过程传递积累,最终影响柴油发动机最终产品质量。柴油发动机质量只能由工人在装配过程主观判断检查或在生产结束后离线测量,人工检测方法具有一定的主观性和盲目性,质量检测滞后且需要较高的人力和时间成本,未能及时发现的不合格产品造成生产厂家的人力物力损失。实际生产过程中,产品质量在额定值附近浮动,分布不均,针对不平衡数据设计准确性高的预测方法已经成为必然选择。
[0003]准确预测柴油发动机的质量是工业制造商确保质量控制的关键。然而,由于影响质量的特征数量众多,且制造数据分布不平衡,这项任务面临着巨大的挑战。目前数据驱动的复杂机械装配过程产品质量预测的仍面临如下难点:
[0004]1)装配过程工艺参数众多;柴油发动机装配过程往往经过多工位、多工序,是典型的多变量工业产品生产过程。众多的工艺参数并不是都需要应用到产品质量预测中,过多的参数将会影响产品质量预测精度和计算时间成本。并且,工艺参数对产品质量预测存在互补性、冗余性,如何降低输入参数的冗余,在保证预测精度的前提下以尽量少的参数构建预测模型是当前柴油发动机质量预测的难点之一。
[0005]2)数据分布不平衡:由于柴油发动机的装配过程中包括人工操作和机器或自动化设备作业,产品质量在一定范围内容浮动,分布不均匀。传统的机器学习方法往往忽略数据间分布的不均衡特征,致使预测模型在多数类样本上预测准确,在少数类样本上预测精度低。
[0006]3)模型泛化能力差:传统的机器学习方法在特定数据集上训练,经模型参数优化,质量预测模型在训练集上表现出较好的质量预测精度,但是在测试集上预测能力明显下滑,模型的泛化能力亟待提升。

技术实现思路

[0007]本专利技术针对现有技术存在的不足,提出一种数据驱动的基于不平衡装配数据的发动机质量预测方法,通过分析工艺参数在预测产品质量过程中的互补性和冗余性,减少输入变量间的冗余性,提高互补性,选择冗余性最小的关键变量集合,基于所选的关键变量识别柴油发动机不同模态,针对少数类模态基于关键变量的流形距离合成新样本,平滑不平衡训练数据的分布,通过自适应参数优化的集成模型实现柴油发动机的质量预测,显著减少质量预测模型的输入变量间的冗余性,改善数据的不平衡现状,提高质量预测模型的泛化能力,可以帮助现场工程师准确掌握柴油发动机装配过程生产状态和产品质量信息,进
而为复杂机械装配产品的决策提供有效参考信息,以便为后续生产的智能化调度参数优化提供指导。
[0008]本专利技术是通过以下技术方案实现的:
[0009]本专利技术涉及一种数据驱动的基于不平衡装配数据的发动机质量预测方法,通过采集柴油发动机装配工艺参数预处理后得到候选输入变量;采用基于量化因子的最小冗余度混合特征选择方法,从候选输入变量中筛选出质量预测模型最小冗余性输入变量集合;基于K

means聚类算法对最小冗余性输入变量集合进行模态划分,采用轮廓系数和Calinski

Harabasz评估不同模态数目下的模态划分效果,选出最优模态划分数目;在最优模态数目下,为训练集内的少数类模态进行重采样,首先在少数类模态内进行随机采样,然后基于最小冗余性输入变量的流形分布特征对随机采样后的样本进行新样本合成,形成不同模态内样本数目相等的合成数据集以减少不同模态间的数据不平衡性;在重采样训练集上利用贝叶斯优化算法优化XGBoost超参数以构建BO

XGBoost模型,耦合少数类模态重采样与BO

XGBoost模型训练过程,最终输出重采样训练集和BO

XGBoost模型;通过重采样训练集进一步优化BO

XGBoost模型,并在在线阶段通过训练后的BO

XGBoost模型进行柴油发动机装配质量预测。
[0010]所述的柴油发动机装配工艺参数是指:柴油发动机装配过程工艺参数X,x1,x2,

x
i


,x
n
∈X,其中:n为工艺参数数目,表为样本数目。
[0011]所述的柴油发动机装配质量是指:柴油发动机功率Y=(Y
(1)
,Y
(2)


Y
(N)
)
T
,表为样本数目,功率是衡量柴油发动机最重要的性能指标之一,柴油发动机整机装配完成后,经台架测试,功率超过一定范围的柴油发动机即为不合格产品。
[0012]所述的预处理包括:1)缺失值处理,数据采集过程中的由于传感器的接触不良、断触等造成的数据缺失,采用删除法;2)异常值处理,柴油发动机过程数据由于在采集时受到各种变量、干扰、数据记录偏差、设备故障、分析人员操作失误等原因,采集到部分异常、不可用数据,异常值对数据建模会产生较大干扰,导致预测模型准确率不高、泛化能力下降,因此采用箱线图方法剔除异常数据;3)常量处理,部分变量在产品质量浮动中始终保持定值,与产品质量的变化无关,应予剔除;4)离散化处理,方便后续计算柴油发动机装配过程工艺参数和产品质量的信息熵分析变量间的相关性、冗余性和互补性,将连续数据离散化。
[0013]所述的已选输入变量是指:经过数据预处理,在n个柴油发动机装配过程工艺参数中,选出的对柴油发动机质量变量具有较强相关性的柴油发动机装配过程工艺参数F
s
=(f1,f2,

,f
s
),s≤n,为经过数据预处理、选入作为柴油发动机质量预测输入变量的柴油发动机装配过程工艺参数。
[0014]所述的候选变量是指:经过数据预处理,在n个柴油发动机装配过程工艺参数中,尚未被选入已选输入变量的柴油发动机装配过程工艺参数s+i=n,为经过数据预处理的、没有选入作为柴油发动机质量预测的输入变量的柴油发动机装配过程工艺参数。
[0015]所述的量化因子是指:为合理分析候选输入变量、已选输入变量以及产品质量间
的冗余性、相关性和互补性,综合评估候选输入变量与柴油发动机质量变量、与已选输入变量的综合相关关系,定义量化因子IF=I(f
i
;Y)

(1

α

β)I(f
i
;F
S
;Y)

αI(f
i
;F
S
)+βII(f
i
;F
S
|Y),(α+β∈(0,1))。
[0016]所述的冗余性是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据驱动的基于不平衡装配数据的发动机质量预测方法,其特征在于,通过采集柴油发动机装配工艺参数预处理后得到候选输入变量;采用基于量化因子的最小冗余度混合特征选择方法,从候选输入变量中筛选出质量预测模型最小冗余性输入变量集合;基于K

means聚类算法对最小冗余性输入变量集合进行模态划分,采用轮廓系数和Calinski

Harabasz评估不同模态数目下的模态划分效果,选出最优模态划分数目;在最优模态数目下,为训练集内的少数类模态进行重采样,基于最小冗余性输入变量的流形分布特征对重采样后的样本进行新样本合成,形成不同模态内样本数目相等的合成数据集以减少不同模态间的数据不平衡性;在重采样训练集上利用贝叶斯优化算法优化XGBoost超参数以构建BO

XGBoost模型,耦合少数类模态升采样与BO

XGBoost模型训练过程,最终输出升采样训练集和BO

XGBoost模型;通过升采样训练集进一步优化BO

XGBoost模型,并在在线阶段通过训练后的BO

XGBoost模型进行柴油发动机装配质量预测;所述的柴油发动机装配工艺参数是指:柴油发动机装配过程工艺参数X,x1,x2,

,x
i


,x
n
∈X,其中:n为工艺参数数目,表为样本数目;所述的柴油发动机装配质量是指:柴油发动机功率Y=(Y
(1)
,Y
(2)


Y
(N)
)
T
,表为样本数目,柴油发动机整机装配完成后,经台架测试评价柴油发动机装配质量。2.根据权利要求1所述的数据驱动的基于不平衡装配数据的发动机质量预测方法,其特征是,所述的预处理包括:1)缺失值处理,数据采集过程中的由于传感器的接触不良、断触等造成的数据缺失,采用删除法;2)异常值处理,柴油发动机过程数据由于在采集时受到各种变量、干扰、数据记录偏差、设备故障、分析人员操作失误等原因,采集到部分异常、不可用数据,异常值对数据建模会产生较大干扰,导致预测模型准确率不高、泛化能力下降,因此采用箱线图方法剔除异常数据;3)常量处理,部分变量在产品质量浮动中始终保持定值,与产品质量的变化无关,应予剔除;4)离散化处理,方便后续计算柴油发动机装配过程工艺参数和产品质量的信息熵分析变量间的相关性、冗余性和互补性,将连续数据离散化。3.根据权利要求1所述的数据驱动的基于不平衡装配数据的发动机质量预测方法,其特征是,所述的已选输入变量是指:经过数据预处理,在n个柴油发动机装配过程工艺参数中,选出的对柴油发动机质量变量具有较强相关性的柴油发动机装配过程工艺参数F
s
=(f1,f2,

,f
s
),s≤n,为经过数据预处理、选入作为柴油发动机质量预测输入变量的柴油发动机装配过程工艺参数;所述的候选变量是指:经过数据预处理,在n个柴油发动机装配过程工艺参数中,尚未被选入已选输入变量的柴油发动机装配过程工艺参数F=(f1,f2,

,f
i
),s+i=n,为经过数据预处理的、没有选入作为柴油发动机质量预测的输入变量的柴油发动机装配过程工艺参数。4.根据权利要求3所述的数据驱动的基于不平衡装配数据的发动机质量预测方法,其特征是,所述的量化因子是指:IF=I(f
i
;Y)

(1

α

β)I(f
i
;F
S
;Y)

αI(f
i
;F
S
)+βII(f
i
;F
S
|Y),其中:权重系数α+β∈(0,1);所述的冗余性包括:
a)表示候选变量f
i
和已选变量F
S
之间的冗余性的互信息I(f
i
;F
S
),其中:f
i
为候选输入变量,F
S
为已选输入变量;b)表示候选输入变量f
i
和已选输入变量F
s
的冗余性的I(f
i
;F
S
;Y),其中:Y为柴油发动机质量;所述的互补性是指:表示候选输入变量f
i
和已选变量F
S
之间的互补性的I(f
i
;F
S
|Y);所述的相关性是指:表示候选输入变量与柴油发动机质量相关性的I(f
i
;Y)。5.根据权利要求4所述的数据驱动的基于不平衡装配数据的发动机质量预测方法,其特征是,所述的最小冗余度混合特征选择方法,即综合特征选择过滤法和嵌入法的混合特征动态选择方法,包括:候选输入变量动态排序以及基于支持向量机模型的特征组合选择;所述的候选输入变量动态排序是指:在每次选择下一个变量前,评估每个候选输入变量与已选输入变量和柴油发动机质量变量间的相关性、冗余性和互补性,逐次选择最大量化因子IF的候选变量,在候选输入变量动态排序中,在选择第一个已选输入变量之前,计算包含每个候选输入变量的IF信息熵矩阵;由于此时F
s
为空,IF的计算简化为IF=I(f
i
;Y),信息熵矩阵为IF

Matrix=(IF1,IF2,

【专利技术属性】
技术研发人员:秦威胡锦华孙衍宁
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1