【技术实现步骤摘要】
基于自学习实体关系联合抽取的钢铁产线设备诊断方法
[0001]本专利技术涉及知识图谱
,尤其是涉及基于自学习实体关系联合抽取的钢铁产线设备诊断方法。
技术介绍
[0002]传统的钢铁行业设备故障诊断往往是基于物理系统和人来完成的。物理系统是各种生产设备和各种信号的采集设备。当生产设备发生故障时,维修人员根据自身经验、数据驱动的设备维修检查系统、现有维修记录、设备内部信息等,感知信号采集设备采集到的信号,进行分析,然后确定故障位置和故障原因。很明显,故障决策知识主要基于专家经验和机理模型,知识来源单一,这种方法不能很好地分析故障位置和具体原因。
[0003]随着科学技术的发展,钢铁工业装备越来越智能化和复杂化。在大数据背景下,数据量的增长速度正在逐步加快。因此,用于故障诊断的知识具有结构复杂、种类繁多、耦合性强的特点,使得多元统计分析法等传统的故障诊断技术不再适用。同时,随着机器学习、人工智能、模式识别、控制理论等学科的进步,故障诊断技术与各类知识的结合取得了质的飞跃。知识图谱技术被引入故障诊断领域。知识图谱构建的过程涉及几个关键步骤:数据获取、知识提取、知识表示、质量评估等。在数据获取阶段,我们已经获得了我们需要的信息。但是,这些信息可能以文本或数据的形式存在,不能直接用于构建知识图谱。我们需要从这些数据中提取可以构建知识图谱的知识,并构建知识图谱的最小元素三元组。这个过程就是实体关系抽取。构建知识图谱的核心任务是识别和解析文本数据中的相关实体及其语义关系,然后将提取的实体对及其关系以三元组语义关系的形
【技术保护点】
【技术特征摘要】
1.一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,包括以下步骤:S1:获取钢铁产线设备数据;S2:构建自学习实体关系联合抽取模型,首先对钢铁产线设备数据中的实体关系进行标注,然后通过编码器层将每个标注的标记转换为向量表示,通过解码器层从向量表示中解码出关系和实体,提取三元组;并通过联合训练的方式,对编码器层和解码器层进行训练;S3:采用所述自学习实体关系联合抽取模型,从人、信息系统和物理系统中提取人机物三元组数据;S4:根据人机物三元组数据构建钢铁产线设备故障知识图谱,并进行可视化显示。2.根据权利要求1所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,所述方法还包括以下步骤:S5:钢铁产线设备故障知识图谱进化。3.根据权利要求2所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S5具体包括以下子步骤:S51:引入强化学习挖掘钢铁产线设备故障知识图谱中的隐式关系,并纠正错误三元组;所述强化学习根据所述钢铁产线设备故障知识图谱中已有的显性知识对尚未存储的隐性知识进行预测;所述强化学习的预测过程包括构建外部环境以及强化学习代理,所述外部环境用于指定代理和指示图谱之间交互的动态,所述外部环境被建模为定义一个元组<S,A,P,R>来表示马尔可夫决策过程,其中,S是连续状态空间,A={a1,a2,
…
,a
n
}表示所有可用的动作的集合,P(S
t+1
=s
′
|S
t
=s,A
t
=a)是转移概率矩阵,R(s,a)是每个(s,a)对的奖励函数;所述强化学习代理包括:通过Policy网络π
θ
(s,a)=p(a|s;θ)将状态向量传输到随机Policy,对神经网络参数θ使用随机梯度下降进行更新;所述动作具体为:给定具有关系r的实体对(e
s
,e
t
),从源实体e
s
开始,在每一步扩展路径中代理使用Policy网络选择最有希望的关系,直到到达目标实体e
t
,选择的关系即为动作,动作空间定义为钢铁产线设备故障知识图谱中的所有关系;所述状态具体为:捕获钢铁产线设备故障知识图谱中实体和关系的语义信息,采取行动后,代理将从一个实体移动到另一个实体,所述状态用于捕获代理在知识图谱中的位置,所述状态的向量计算式为:s
t
=(e
t
,e
tartget
‑
e
t
)其中,e
t
表示步骤t下当前实体节点的嵌入,e
tartget
表示目标实体的嵌入,在初始状态e
t
=e
source
;所述奖励包括全局精度奖励、路径效率奖励和路径多样性奖励,所述全局精度奖励r
GLORAL
的计算表达式为:
所述路径效率奖励r
EFFICIENCY
的计算表达式为:其中,路径p被定义为关系序列r1→
r2→…→
r
n
,length为路径长度的计算函数;所述路径多样性奖励r
DIVERSITY
的计算表达式为:式中,F为路径总个数;所述Policy网络具体为:使用完全连接的神经网络来参数化Policy函数π(s;θ),将状态向量S转换为所有可能动作的概率分布。4.根据权利要求3所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,所述强化学习代理的训练过程包括:采用两侧随机广度优先搜索的监督Policy来训练,插入两侧随机广度优先搜索找到的路径后,用于更新Policy网络的近似梯度,Policy网络的近似梯度的更新表达式为:其中,J(θ)为一个间隔的预期总奖励,对于每个关系,每个实体对的推理被视为一个间隔,r
t
属于路径p;使用奖励函数来重新训练有监督的Policy网络,Policy网络的梯度更新表达式为:R
total
=λ1r
GLOBAL
+λ2r
GLoBAL
+λ3r
DIVERSITY
其中,R
total
是定义的奖励函数的线性组合。5.根据权利要求2所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S5具体包括以下子步骤:S52:引入图神经网络根据测试阶段提供的有限辅助知识计算新实体的嵌入向量;所述图神经网络包括传播模型和输出模型,所述传播模型用于确定如何将信息从节点传播到其邻域节点,所述图神经网络通过反复应用传播模型,将一个节点的信息广播到更远的节点,所述输出模型根据给定任务使用向量表示的节点和边定义目标函数;所述图神经网络根据时间步长n使用不同的传播模型参数,对于每个时间步n处的传播模型的转移函数的计算表达式为:的计算表达式为:的计算表达式为:
式中,e∈ε(G)是一个实体,是e的d维表示向量。在一个知识图谱G中,头实体邻域N
h
(e)={(h,r,e)|(h,r,e)∈G},尾邻域N
t
(e)={(e,r,t)|(e,r,t)∈C},表示依赖于头/尾实体和时间步的转换函数,P表示求和pooling函数,它将一组向量映射到到一个向量。BN表示批量标准化;所述目标函数的计算表达式为:所述目标函数的计算表达式为:所述目标函数的计算表达式为:所述目标函数的计算表达式为:所述目标函数的计算表达式为:式中,式中,描述了关系的复杂性,r
*
表示在位置l
*
处连接最多实体的关系,表示关系在位置i
*
处具有最多实体数的关系数量,[x]
+
=max(0,x),(h,r,t)表示一个正三元组,(h
′
,r,t
′
)表示每个正三元组一个负三元组,τ是分隔正三元组和负三元组的边距。6.根据权利要求1所述的一种基于自学习知识图谱的钢铁产线设备故障诊断方法,其特征在于,步骤S2具体包括以下子步骤:S21:运用翻译模型将钢铁产线设备数据中的中文句子翻译为英文句子,采用BIEOS标注方案对句子中的实体关系进行标注;S22:构建编码器层,该编码器层包括嵌入层和上下文词表征层,所述嵌入层采用BERT预训练语言模型作为共享特征编码来建模,将单词的上下文转换为向量表示,使用CNN对数据的字符特征进行提取;所述上下文词表征层引入带有空洞卷积的BiLSTM捕获上下文信息;S23:构建解码器层,该解码器层包括命名实体识别模块和多关系分类器,所述命名实体识别模块用于检测在文本中存在关系的实体,所述多关系分类器用于识...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。