一种语句中实体关系的抽取方法及装置制造方法及图纸

技术编号:30697516 阅读:69 留言:0更新日期:2021-11-06 09:32
本申请提供了一种语句中实体关系的抽取方法及装置,所述抽取方法包括:获取包含有多种词嵌入特征的目标语句的第一特征向量序列;基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。通过所述方法和装置,能够充分提取出目标语句的特征,以缓解关系抽取过程对于词表的依赖性,同时提高关系抽取结果的准确性。系抽取结果的准确性。系抽取结果的准确性。

【技术实现步骤摘要】
一种语句中实体关系的抽取方法及装置


[0001]本申请涉及计算机
,尤其是涉及一种语句中实体关系的抽取方法及装置。

技术介绍

[0002]随着网络和信息化的高速发展,新型威胁和攻击呈现持续性和扩大化的发展趋势,其中高级可持续性攻击(Advanced Persistent Threat,APT)是典型代表。APT攻击向目标计算机投放特种木马(俗称特马)以达到窃取国家机密信息、重要企业的商业信息、破坏网络基础设施等目的。安全公司每天都会发布海量的威胁情报,这些威胁情报大多以文字呈现,无法直观地展示攻击关系。威胁情报报告主要描述了威胁组织使用何种工具以何种手段攻击某一国家的某个行业,安全团队以何种方式进行检测防御等。文字方式呈现的APT报告不利于安全运营人员快速感知异常,导致安全工作人员了解最新攻击事件的效率极低。最后的结果就是,虽有海量威胁情报,但绝大多数都没有得到及时处理、总结,这样对国家以及企业造成的安全隐患极大。
[0003]而信息抽取可以将非结构化的威胁情报文本转化为结构化数据,其中关系抽取是信息抽取中重要的一项任务。威胁情报关系抽取为进一步的网络安全挖掘分析、防御部署奠定坚实的基础,在网络安全防御方面具有良好的实际应用价值和理论意义。目前,威胁情报关系抽取任务主要存在以下问题:1)威胁情报文本的句子长度较长,威胁情报关系数据集中句子包含的令牌数量或者字符数量远大于通用领域数据集,难以充分有效地提取句子特征;2)由于威胁情报文本中包含了文件哈希、加密算法、防御措施等专业领域的信息,关系抽取的过程对于已知的词表具有较强的依赖性,从而导致关系抽取的结果具有局限性。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供了一种语句中实体关系的抽取方法及装置,能够充分提取出目标语句的特征,以缓解关系抽取过程对于词表的依赖性,并且将实体之间的关系以概率分布的形式呈现出来,以提高关系抽取结果的准确性。
[0005]本申请实施例提供了语句中实体关系的抽取方法,所述抽取方法包括:
[0006]获取包含有多种词嵌入特征的目标语句的第一特征向量序列;
[0007]基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;
[0008]将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;
[0009]基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。
[0010]进一步的,所述词嵌入特征包括以下至少一项:词向量、词义向量、词性标签以及实体标签;所述获取包含有多种词嵌入特征的目标语句的第一特征向量序列,包括:
[0011]针对所述目标语句进行分词处理,得到所述目标语句对应的多个分词;
[0012]针对每个分词,将该分词对应的词嵌入特征中的一个或者多个进行拼接,得到该分词的第一特征向量;
[0013]基于得到的分词的第一特征向量,生成包含有多种词嵌入特征的所述目标语句的第一特征向量序列。
[0014]进一步的,所述基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量,包括:
[0015]基于所述目标语句的第一特征向量序列,通过训练好的语义特征转换模型,得到目标语句的语义信息;
[0016]将所述目标语句的语义信息输入至训练好的多层感知器,得到所述目标语句的语义特征向量。
[0017]进一步的,所述基于所述目标语句的第一特征向量序列,生成表征所述目标语句中的实体之间依赖关系的句法依赖特征向量,包括:
[0018]针对所述目标语句中的每个分词,基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量;
[0019]基于生成的分词的第二特征向量,构建以分词为节点,以分词之间的依赖关系为边的所述目标语句的句法依赖图;
[0020]从所述目标语句的句法依赖图的节点中识别出实体节点;所述实体节点是包含有实体标签的分词对应的节点;
[0021]针对任意两个所述实体节点,基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图;
[0022]基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量。
[0023]进一步的,所述基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量,包括:
[0024]基于该分词的第一特征向量和训练好的前向长短时记忆网络,获得该分词的上文隐藏层状态向量;
[0025]基于该分词的第一特征向量和训练好的后向长短时记忆网络,获得该分词的下文隐藏层状态向量;
[0026]将所述上文隐藏层状态向量和所述下文隐藏层状态向量进行拼接,生成该分词的第二特征向量。
[0027]进一步的,所述基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图,包括:
[0028]基于所述目标语句的句法依赖图,从所述目标语句的句法依赖图的节点中识别出动词节点;所述动词节点是词性标签为动词的分词对应的节点;
[0029]从所述目标语句的句法依赖图中识别出至少经过一个动词节点的实体节点之间的最短依赖路径以及所述实体节点之间的最短依赖路径上的节点的关联节点;
[0030]基于所述实体之间的最短依赖路径与所述关联节点,得到表征所述实体之间依赖关系的句法依赖图。
[0031]进一步的,所述基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量,包括:
[0032]基于所述实体之间的句法依赖图,将所述实体之间的句法依赖图中的节点作为目标节点;
[0033]针对每个目标节点,确定出与所述目标节点相邻的相邻节点;
[0034]根据所述目标节点和所述相邻节点的第二特征向量,确定出表征所述目标节点和所述相邻节点的依赖关系的所述目标节点的第三特征向量;
[0035]将所述目标节点的第三特征向量进行拼接,以确定表征实体之间依赖关系的句法拼接向量;
[0036]基于所述句法拼接向量和训练好的多层感知器,生成表征实体之间依赖关系的句法依赖特征向量。
[0037]本申请实施例还提供了一种语句中实体关系的抽取装置,所述抽取装置包括:
[0038]获取模块,用于获取包含有多种词嵌入特征的目标语句的第一特征向量序列;
[0039]生成模块,用于基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;
[0040]拼接模块,用于将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;
[0041]确定模块,用于基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语句中实体关系的抽取方法,其特征在于,所述抽取方法包括:获取包含有多种词嵌入特征的目标语句的第一特征向量序列;基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量以及表征所述目标语句中的实体之间依赖关系的句法依赖特征向量;将所述语义特征向量和所述句法依赖特征向量进行拼接,以得到表征实体之间关系的关系特征向量;基于预先设置的各实体之间的关系类别和所述关系特征向量,确定所述实体之间的关系的概率分布情况。2.根据权利要求1所述的方法,其特征在于,所述词嵌入特征包括以下至少一项:词向量、词义向量、词性标签以及实体标签;所述获取包含有多种词嵌入特征的目标语句的第一特征向量序列,包括:针对所述目标语句进行分词处理,得到所述目标语句对应的多个分词;针对每个分词,将该分词对应的词嵌入特征中的一个或者多个进行拼接,得到该分词的第一特征向量;基于得到的分词的第一特征向量,生成包含有多种词嵌入特征的所述目标语句的第一特征向量序列。3.根据权利要求1所述的方法,其特征在于,所述基于所述目标语句的第一特征向量序列,生成表征所述目标语句的语义信息的语义特征向量,包括:基于所述目标语句的第一特征向量序列,通过训练好的语义特征转换模型,得到目标语句的语义信息;将所述目标语句的语义信息输入至训练好的多层感知器,得到所述目标语句的语义特征向量。4.根据权利要求1所述的方法,其特征在于,所述基于所述目标语句的第一特征向量序列,生成表征所述目标语句中的实体之间依赖关系的句法依赖特征向量,包括:针对所述目标语句中的每个分词,基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量;基于生成的分词的第二特征向量,构建以分词为节点,以分词之间的依赖关系为边的所述目标语句的句法依赖图;从所述目标语句的句法依赖图的节点中识别出实体节点;所述实体节点是包含有实体标签的分词对应的节点;针对任意两个所述实体节点,基于所述目标语句的句法依赖图,提取出表征所述目标语句中实体之间依赖关系的实体之间的句法依赖图;基于所述实体之间的句法依赖图,生成表征实体之间依赖关系的句法依赖特征向量。5.根据权利要求4所述的方法,其特征在于,所述基于该分词的第一特征向量,生成包含有上下文层的该分词的第二特征向量,包括:基于该分词的第一特征向量和训练好的前向长短时记忆网络,获得该分词的上文隐藏层状态向量;基于该分词的第一特征向量和训练好的后向长短时记忆网络,获得该分词的下文隐藏层状态向量;
将所述上文隐藏层状态向量和所述下...

【专利技术属性】
技术研发人员:王旭仁何松恒刘润时熊梦博熊子晗邱德慧
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1