知识图谱的知识补全方法、系统、电子设备及存储介质技术方案

技术编号:38766581 阅读:14 留言:0更新日期:2023-09-10 10:39
本申请实施例提供了一种知识图谱的知识补全方法、系统、电子设备及存储介质,属于网络安全技术领域。方法包括:获取知识数据,并将数据划分为训练集、验证集和测试集;利用初始向量表示模型对数据中的实体和关系进行预处理,形成嵌入时间信息的实体向量和关系向量;利用训练集训练初始向量表示模型,得到多个候选向量表示模型;利用验证集对多个候选向量表示模型进行验证,得到目标向量表示模型;通过目标向量表示模型对测试集中的实体向量和关系向量进行处理,以构建多个待检验知识;通过打分函数从多个待检验知识中,得到候选知识;对候选知识进行检验,并根据检验结果判断候选知识是否需要补充到知识图谱中。是否需要补充到知识图谱中。是否需要补充到知识图谱中。

【技术实现步骤摘要】
知识图谱的知识补全方法、系统、电子设备及存储介质


[0001]本申请涉及网络安全
,尤其涉及一种知识图谱的知识补全方法、系统、电子设备及存储介质。

技术介绍

[0002]安全知识图谱是指将安全领域的知识进行结构化、分类、整合,并通过图谱的形式来展现和呈现的一种技术手段,通过安全知识图谱,安全从业人员可以更加高效地查找相关信息,准确地分析和识别安全事件,快速地响应和处置安全威胁。然而,由于漏洞和威胁信息持续涌现,需要及时采集、整理和分析,才能生成及时有效的安全知识。
[0003]相关技术中,通常使用知识的嵌入表示技术来解决时序图谱的补全问题。但是,这样无法建立实体和关系在时间上的相关性,难以对安全知识图谱进行有效补全。

技术实现思路

[0004]本申请实施例的主要目的在于提出一种知识图谱的知识补全方法、系统、电子设备及存储介质,能够解决实体和关系在时间上的相关性低的问题。
[0005]为实现上述目的,本申请实施例的第一方面提出了一种知识图谱的知识补全方法,所述方法包括:
[0006]获取知识数据,将所述知识数据划分为训练集、验证集和测试集;其中,所述知识数据包括实体、关系以及由所述实体和所述关系组成的知识;利用初始向量表示模型对所述知识数据中的实体和关系进行预处理,形成嵌入时间信息的实体向量和关系向量;利用所述训练集中的所述实体向量、所述关系向量训练所述初始向量表示模型,得到多个候选向量表示模型;利用所述验证集对多个所述候选向量表示模型进行验证,以计算各个所述候选向量表示模型的评价得分,并根据所述评价得分,得到目标向量表示模型;通过所述目标向量表示模型对所述测试集中的所述实体向量和所述关系向量进行处理,以构建多个待检验知识;通过打分函数对多个所述待检验知识进行打分和排序,得到候选知识;对所述候选知识进行检验,得到检验结果,并根据所述检验结果判断所述候选知识是否需要补充到知识图谱中。
[0007]根据本申请的一些实施例,所述实体包括本体信息和描述信息;所述利用初始向量表示模型对所述知识数据中的实体进行预处理,形成嵌入时间信息的实体向量,包括:获取所述实体对应的所述本体信息,并将所述本体信息转化为本体向量;获取所述实体对应的所述描述信息,并将所述描述信息转化为第一描述向量;获取所述实体信息对应的时间信息,将所述时间信息输入激活函数,得到时间向量,所述激活函数包含所述初始向量表示模型对应的初始模型参数;将所述第一描述向量和所述时间向量相乘,得到嵌入时间信息后的第二描述向量;将所述本体向量与所述第二描述向量进行拼接,得到嵌入时间信息后的实体向量。
[0008]根据本申请的一些实施例,所述本体向量的维度为第一预设维度,所述第一描述
向量的维度为N

第一预设维度,以使得所述实体向量的维度为N维,其中,所述N为大于等于2的正整数;所述将所述本体向量与所述第二描述向量进行拼接,得到嵌入时间信息后的实体向量,包括:获取第一预设维度调节指令;根据所述第一预设维度调节指令,调整所述第一预设维度,以调整所述本体向量在所述实体向量中的维度占比。
[0009]根据本申请的一些实施例,所述利用初始向量表示模型对所述知识数据中的关系进行预处理,形成嵌入时间信息的关系向量,包括:获取所述关系,转换得到当前关系向量;获取所述关系的前序关系,根据所述前序关系转换得到前序关系向量;所述前序关系为发生在所述关系之前的关系;获取所述关系的后序关系,根据所述后序关系转换得到后序关系向量;所述后序关系为发生在所述关系之后的关系;将所述前序关系向量、所述当前关系向量和所述后序关系向量依次进行拼接,得到所述嵌入时间信息的关系向量。
[0010]根据本申请的一些实施例,所述前序关系向量的维度为第一关系维度,所述后序关系向量的维度为第二关系维度,所述当前向量关系为M

第一关系维度

第二关系维度,以使得所述关系向量的维度为M维;其中,所述M为大于等于3的正整数;所述将所述前序关系向量、所述当前关系向量和所述后序关系向量依次进行拼接,得到所述嵌入时间信息的关系向量,包括:获取关系维度调节指令;根据所述关系维度调节指令,调整所述第一关系维度和/或第二关系维度,以调整前序关系向量、所述当前关系向量和所述后序关系向量在所述关系向量中的维度占比。
[0011]根据本申请的一些实施例,所述利用所述训练集中的所述实体向量、所述关系向量训练所述初始向量表示模型,得到多个候选向量表示模型,包括:根据所述训练集,得到多个所述实体向量和多个所述关系向量以及由所述实体和所述关系组成的所述知识;以所述实体向量和所述关系向量组成的知识向量为训练目标,将多个所述实体向量或多个所述关系向量对应替换所述知识向量中的实体向量或关系向量,并根据所述训练目标调整所述初始向量表示模型对应的初始模型参数,得到训练模型,作为一轮训练,并对训练模型重复本步骤流程以进行多轮训练;统计训练轮数,当所述训练轮数达到预设轮数时,停止训练,并将训练过程中保存的多个所述训练模型作为候选向量表示模型。
[0012]根据本申请的一些实施例,所述预设轮数包括第一训练轮数和第二训练轮数,所述第二训练轮数大于所述第一训练轮数;所述统计训练轮数,当所述训练轮数达到预设轮数时,停止训练,并将训练过程中保存的多个所述训练模型作为候选向量表示模型,包括:实时统计训练轮数,当所述训练轮数每达到所述第一训练轮数时,对当前的所述初始向量表示模型进行保存;当所述训练轮数达到所述第二训练轮数时,停止训练,并根据训练过程中保存的多个所述训练模型得到候选向量表示模型。
[0013]根据本申请的一些实施例,所述利用所述验证集对多个所述候选向量表示模型进行验证,以计算各个所述候选向量表示模型的评价得分,并根据所述评价得分,得到目标向量表示模型,包括:分别计算多个所述候选向量表示模型对应的MRR指标值;将所述MRR指标值最高的所述候选向量表示模型确定为目标向量表示模型;其中,所述候选向量表示模型对应的MRR指标值通过以下方式计算得到:根据所述候选向量表示模型中的多个实体向量或关系向量,对所述验证集中的实体或关系进行替换处理,得到多个经过替换后的知识;利用打分函数对多个所述替换后的知识进行打分;根据所述打分确定多个所述替换后的知识在所述验证集中的排名,以计算多个所述替换后的知识的MRR指标值;根据多个所述替换后
的知识的MRR指标值,得到所述候选向量表示模型的MRR指标值。
[0014]根据本申请的一些实施例,所述通过所述目标向量表示模型对所述测试集中的所述实体向量和所述关系向量进行处理,以构建多个待检验知识,包括:获取所述测试集中的实体和关系;将多个所述实体或多个所述关系输入至所述目标向量表示模型,得到多个目标实体向量或者多个目标关系向量,并将多个所述目标实体向量或者多个所述目标关系向量进行随机组合,得到多个待检验知识。
[0015]根据本申请的一些实施例,所述通过打分函数对多个所述待检验知识进行打分和排序,得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱的知识补全方法,其特征在于,所述方法包括:获取知识数据,将所述知识数据划分为训练集、验证集和测试集;其中,所述知识数据包括实体、关系以及由所述实体和所述关系组成的知识;利用初始向量表示模型对所述知识数据中的实体和关系进行预处理,形成嵌入时间信息的实体向量和关系向量;利用所述训练集中的所述实体向量、所述关系向量训练所述初始向量表示模型,得到多个候选向量表示模型;利用所述验证集对多个所述候选向量表示模型进行验证,以计算各个所述候选向量表示模型的评价得分,并根据所述评价得分,得到目标向量表示模型;通过所述目标向量表示模型对所述测试集中的所述实体向量和所述关系向量进行处理,以构建多个待检验知识;通过打分函数对多个所述待检验知识进行打分和排序,得到候选知识;对所述候选知识进行检验,得到检验结果,并根据所述检验结果判断所述候选知识是否需要补充到知识图谱中。2.根据权利要求1所述的知识图谱的知识补全方法,其特征在于,所述实体包括本体信息和描述信息;所述利用初始向量表示模型对所述知识数据中的实体进行预处理,形成嵌入时间信息的实体向量,包括:获取所述实体对应的所述本体信息,并将所述本体信息转化为本体向量;获取所述实体对应的所述描述信息,并将所述描述信息转化为第一描述向量;获取所述实体信息对应的时间信息,将所述时间信息输入激活函数,得到时间向量,所述激活函数包含所述初始向量表示模型对应的初始模型参数;将所述第一描述向量和所述时间向量相乘,得到嵌入时间信息后的第二描述向量;将所述本体向量与所述第二描述向量进行拼接,得到嵌入时间信息后的实体向量。3.根据权利要求2所述的知识图谱的知识补全方法,其特征在于,所述本体向量的维度为第一预设维度,所述第一描述向量的维度为N

第一预设维度,以使得所述实体向量的维度为N维,其中,所述N为大于等于2的正整数;所述将所述本体向量与所述第二描述向量进行拼接,得到嵌入时间信息后的实体向量,包括:获取第一预设维度调节指令;根据所述第一预设维度调节指令,调整所述第一预设维度,以调整所述本体向量在所述实体向量中的维度占比。4.根据权利要求1所述的知识图谱的知识补全方法,其特征在于,所述利用初始向量表示模型对所述知识数据中的关系进行预处理,形成嵌入时间信息的关系向量,包括:获取所述关系,转换得到当前关系向量;获取所述关系的前序关系,根据所述前序关系转换得到前序关系向量;所述前序关系为发生在所述关系之前的关系;获取所述关系的后序关系,根据所述后序关系转换得到后序关系向量;所述后序关系为发生在所述关系之后的关系;将所述前序关系向量、所述当前关系向量和所述后序关系向量依次进行拼接,得到所
述嵌入时间信息的关系向量。5.根据权利要求4所述的知识图谱的知识补全方法,其特征在于,所述前序关系向量的维度为第一关系维度,所述后序关系向量的维度为第二关系维度,所述当前向量关系为M

第一关系维度

第二关系维度,以使得所述关系向量的维度为M维;其中,所述M为大于等于3的正整数;所述将所述前序关系向量、所述当前关系向量和所述后序关系向量依次进行拼接,得到所述嵌入时间信息的关系向量,包括:获取关系维度调节指令;根据所述关系维度调节指令,调整所述第一关系维度和/或第二关系维度,以调整前序关系向量、所述当前关系向量和所述后序关系向量在所述关系向量中的维度占比。6.根据权利要求1所述的知识图谱的知识补全方法,其特征在于,所述利用所述训练集中的所述实体向量、所述关系向量训练所述初始向量表示模型,得到多个候选向量表示模型,包括:根据所述训练集,得到多个所述实体向量和多个所述关系向量;以所述实体向量和所述关系向量组成的知识向量为训练目标,将多个所述实体向量或多个所述关系向量对应替换所述知识向量中的实体向量或关系向量;根据所述训练目标调整所述初始向量表示模型对应的初始模型参数,得到训练模型,作为一轮训练,并对训练模型重复本步骤流程以进行多轮训练;统计训练轮数,当所述训练轮数达到预设轮数时,停止训练,并将训练过程中保存的多个所述训练模型作为候选向量表示模型。7.根据权利要求6所述的知识图谱的知识补全方法,其特征在于,所述预设轮数包括第一训练轮数和第二训练轮数,所述第二训练轮数大于所述第一训练轮数;所述统计训练轮数,当所述训练轮数达到预设轮数时,停止训练,并将训练过程中保存的多个所述训练模型作为候选向量表示模型,包括:实时统计训练轮数,当所述训练轮数每达到所述第一训练轮数时,对当前的所述初始向量表示模型进行保存;当所述训练轮...

【专利技术属性】
技术研发人员:顾钊铨赵昂霄贾焰谢禹舜景晓李润恒周可余涛谢敏容
申请(专利权)人:四川亿览态势科技有限公司电子科技大学深圳高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1