【技术实现步骤摘要】
齿轮箱不平衡故障诊断方法
[0001]本公开属于齿轮箱故障诊断领域,特别是一种基于多尺度深度注意强化学习网络的齿轮箱不平衡故障诊断方法。
技术介绍
[0002]实际齿轮箱大多工作于多工况下,且故障类数据量往往少于正常状态数据量,在此情况下的齿轮箱故障诊断仍面临着很大的挑战。多工况下齿轮箱的不同状态间和状态内的差异性发生较大改变,尤其当齿轮箱转速改变时,部件的故障特征频率会随之改变,基于振动信号分析的方法需要依赖专业的知识对每一个工况下故障特征频率进行提取与分析,难以实现大规模部署及自动化诊断;传统浅层机器学习方法严重依赖于特征指标集的构建,而多类型的工况会使同类状态内样本间的差异性增大,不同类状态间的样本间差异性减少,导致人工构建的故障特征集在高维特征空间存在严重的混叠,难以区分齿轮箱的不同状态,同时,面临运行工况的多样性,难以保障人工特征指标提取的全面性和稳定性以使其满足所有工况下诊断需求,影响了传统浅层模型对齿轮箱故障诊断的效果;传统卷积神经网络通常采用单尺度模型提取固定尺度下的特征信息,面临多工况下状态间样本的巨大差异性,也需提取丰富稳定的判别性特征信息,才能增强多工况下齿轮箱故障诊断的准确性。此外,由于故障类数据量较正常状态数据量少,而现有多数方法仅适用于类分布均衡下故障诊断,面临多工况不平衡情况下齿轮箱故障诊断的准确性和通用性仍有待提升。
[0003]深度强化学习方法不仅能够自适应从原始振动信号中提取判别性特征信息,很好地避免了手动特征提取的缺陷,同时具有与环境交互的决策能力,可以很好地解决齿轮箱故 ...
【技术保护点】
【技术特征摘要】
1.一种基于多尺度深度注意强化学习网络的齿轮箱不平衡故障诊断方法,其特征在于,其包括以下步骤:步骤S1:信号采集,获得齿轮箱在多种工况下不同健康状况的振动信号,基于所述振动信号构建训练集及测试集,其中正常状态样本多于故障状态样本;步骤S2:环境模拟构建,建立不平衡分类的马尔科夫决策过程,并设计奖励函数,建立类不平衡下故障诊断所需的数据环境模拟;步骤S3:建立多工况不平衡深度强化学习网络,基于训练集,智能体与环境进行不断地交互,训练智能体自主学习最优的诊断策略,所述智能体包括至少两个相同结构的多尺度特征深度注意力网络;步骤S4:故障识别,将所述测试集中的样本逐个输入训练完成的所述智能体,根据所述诊断策略识别齿轮箱故障类型,及分析诊断结果。2.根据权利要求1所述的齿轮箱不平衡故障诊断方法,其特征在于,优选的,步骤S1中,对所述振动信号进行样本分割,并构建训练样本信号和测试样本信号,每个样本长度包含2048个数据点,并将幅值归一化至[
‑
1,1]范围。3.根据权利要求1所述的齿轮箱不平衡故障诊断方法,其特征在于,步骤S2中,所述马尔可夫决策过程包括状态空间S、动作空间A和奖励函数R;所述状态空间S由所述训练集中所有训练样本组成,每个环境状态s对应一个训练样本;所述动作空间A为对应于齿轮箱健康状况的K种动作,A={0,1,
…
,K
‑
1},其中,故障类型总数为K;所述奖励函数R为:在当前诊断询问下,对应当前环境状态s
t
∈S,智能体执行动作a
t
,对比动作a
t
与当前诊断询问下的标签class是否一致,如果一致,环境返回给智能体一个正奖励,否则返回一个负奖励,形成奖励策略以实现智能体在类数据量分布不均衡下更加关注于少数类样本的学习,实现类不平衡下诊断策略的有效学习,其中,训练集D
train
={D1;D1;
…
;D
k
;
…
},其中D
k
表示第k类的训练子集,其表示为:其中(x
i
,l
i
)表示相应的样本和标签信息,n
k
表示第k类子集中的样本总量,将奖励函数R通过下式设定:式中,R(s
t
,a
t
,l
t
)表示状态s
t
时执行动作a
t
获得的环境反馈奖励值,以r
t
简化替代;log2(
·
)为以2为底的对数函数,用于评价类别间的差异;ρ
k
表示第k类的类偏离度,其为训练集D
train
中第k类子集的样本量相对于D
train
中最少类的样本量的不平衡程度,由下式获得:式中,D
min
表示训练集D
train
中最少类的样本子集,|
·
|表示取模,即表示为样本子集中的样本量。4.根据权利要求1所述的齿轮箱不平衡故障诊断方法,其特征在于,步骤S3中,所述尺度特征深度注意力网络由一个多尺度特征层、一个通道注意力层、一个Inception多尺度
层、一个最大池化层、两个残差模块、一个全局平均池化层以及一个输出层组成。5.根据权利要求1所述的齿轮箱不平衡故障诊断方法,其特征在于,智能体包括至少两个相同结构的当前Q网络Eval
‑
Net的多尺度特征深度注意力网络为和另一个目标Q网络Target
‑
Net的多尺度特征深度注意力网络。6.根据权利要求5所述的齿轮箱不平衡故障诊断方法,其特征在于,步骤S3包括以下步骤:步骤S3.1:设置最大自主学习轮次Episode,最大自主学习轮次Episode指环境从初始状态s1到终状态s
T
的转移轨迹,Episode={s1,a1,r1,s2,a2,r2,
…
,s
T
,a
T
,r
T
},其中T表示终止时间步,便结束当前的训练情节Episode,开始下一情节,直至达到设定交互轮次;每个轮次自主学习包含T次诊断询问,每次诊断询问对应一个环境状态;步骤S3.2:随机发起一次诊断询问,获得当前状态s
t
∈S,将对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。