当前位置: 首页 > 专利查询>鹏城实验室专利>正文

网络信息的关系抽取方法、关系抽取装置及介质制造方法及图纸

技术编号:38471574 阅读:6 留言:0更新日期:2023-08-11 14:48
本申请公开了网络信息的关系抽取方法、关系抽取装置及介质,关系抽取方法包括:获取网络信息的样本实例,网络信息的每个样本实例被标注出实体和实体对应的实体关系;按照实体关系的类别对样本实例进行小样本抽取,得到N个支持集和N个查询集,支持集中包括K个样本实例,查询集包括Q个样本实例,N、K和Q均为正整数;通过支持集和查询集对关系抽取模型进行训练;利用经过训练的关系抽取模型对网络信息的数据进行关系抽取。在本申请实施例中,在传统原型网络的基础上引入两个维度的特征信息和关系描述语义提高模型的分类性能和泛化能力,突出语句中的重要的语义特征,增强模型的准确性和鲁棒性。性和鲁棒性。性和鲁棒性。

【技术实现步骤摘要】
网络信息的关系抽取方法、关系抽取装置及介质


[0001]本申请涉及网络安全
,尤其涉及一种网络信息的关系抽取方法、关系抽取装置及介质。

技术介绍

[0002]网络信息是由实体和关系构成的非结构化数据,一般通过深度学习方法进行分析,但是对网络信息进行关系抽取存在数据量匮乏,标注成本高等特点。实际应用场景下,在数据匮乏的环境下训练出来的模型往往达不到预期的标准。
[0003]相关技术下,采用远程监督的方法来自动获得大量带标签的训练数据,可以为有监督的关系抽取模型提供大量的训练语料,提高模型的分类准确率,但是远程监督获取的样本数据通常存在类型分布不均的问题,即关系类型分布的频率通常服从长尾分布,并且存在许多标注错误的样本,这些都会使模型抽取性能下降。这些都影响了网络安全人员对网络信息的分析。

技术实现思路

[0004]本申请实施例提供了一种网络信息的关系抽取方法、关系抽取装置及介质,提升了在网络信息的小样本场景下的关系抽取性能。
[0005]第一方面,本申请实施例提供了一种网络信息的关系抽取方法,包括:获取网络信息的样本实例,所述网络信息的每个所述样本实例被标注出实体和所述实体对应的实体关系;按照所述实体关系的类别对所述样本实例进行小样本抽取,得到N个支持集和N个查询集,所述支持集中包括K个所述样本实例,所述查询集包括Q个所述样本实例,所述N、K和Q均为正整数;通过所述支持集和所述查询集对关系抽取模型进行训练;利用经过训练的关系抽取模型对网络信息的数据进行关系抽取;其中,所述关系抽取模型包括特征抽取模块和标签预测模块;所述特征抽取模块用于对输入的所述样本实例和关系描述文本进行预训练,通过特征级注意力机制对所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量计算注意力权重,然后通过实例级注意力机制调整所述注意力权重;所述标签预测模块用于计算通过特征级注意力机制输出的局部特征向量和所述关系描述文本的全局特征向量的第一实例级原型点,以及计算通过实例级注意力机制调整后输出的特征向量的第二实例级原型点,还用于拼接所述第一实例级原型点和所述第二实例级原型点得到混合原型网络,所述混合原型网络用于根据所述查询集的所述样本实例计算到各个原型点的距离,以得到预测的关系分类结果。
[0006]在一些实施例中,所述按照所述实体关系的类别对所述样本实例进行小样本抽取,得到N个支持集和N个查询集,包括:
创建关于所述实体关系的类别的元任务;随机选择N个所述实体关系的类别,并从每个类别中随机选取K个所述样本实例分别构建所述元任务的支持集,再从每个类别中随机选取Q个所述样本实例分别构建所述元任务的查询集。
[0007]在一些实施例中,所述预训练包括:根据预设字向量表将输入的所述样本实例和关系描述文本进行转换,得到对应的字向量;根据所述样本实例和关系描述文本生成文本向量和位置向量;按照所述样本实例和关系描述文本的对应关系,将所述字向量、所述文本向量和所述位置向量进行加和,并将加和结果作为输入向量;将所述输入向量输入到BERT模型进行预训练。
[0008]在一些实施例中,所述将所述输入向量输入到BERT模型进行预训练,包括:通过自注意力机制对所述输入向量中每个单词进行注意力计算,得到每个单词与上下文中其他单词之间的相关性,并输出所述输入向量中每个单词的向量表征。
[0009]在一些实施例中,所述通过特征级注意力机制对所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量计算注意力权重,包括:通过预训练确定所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量;将所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量输入到特征级注意力模块,得到局部特征向量表示;其中,所述特征级注意力模块的注意力激活函数为softmax函数。
[0010]在一些实施例中,所述通过实例级注意力机制调整所述注意力权重,包括:将所述局部特征向量表示和所述支持集的样本实例的全局特征向量输入到实例级注意力模块,得到注意力权重调整后的局部特征向量表示;其中,所述实例级注意力模块的注意力激活函数为tanh函数。
[0011]在一些实施例中,所述第一实例级原型点和所述第二实例级原型点通过以下公式计算得到:其中,表示实例级原型点,表示维度为d的特征向量,表示实体关系对应的关系描述文本,i为正整数,表示第i个所述样本实例。
[0012]在一些实施例中,所述获取网络信息的样本实例,包括:获取网络信息的原始数据;对所述原始数据进行文本预处理后,通过预设的标注工具标注出实体、实体关系和对应的关系描述文本,和/或,通过预设的实体类型定义表和关系类型定义表标注出实体、实体关系和对应的关系描述文本;其中,所述实体类型定义表存储有实体名词与实体类型的对应关系,所述关系类型定义表存储有关系名词与关系类型、关系描述文本的对应关系。
[0013]第二方面,本申请实施例提供了一种网络信息的关系抽取装置,包括至少一个处理器和用于与所述至少一个处理器通信连接的存储器;所述存储器存储有能够被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的关系抽取方法。
[0014]第三方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的关系抽取方法。
[0015]本申请实施例提供的网络信息的关系抽取方法、关系抽取装置及介质,至少具有如下有益效果:将网络信息的样本实例按照小样本方式进行抽取,得到N个支持集和N个查询集,在训练过程中加入关系描述文本,利用预训练语言模型和多层注意力机制在特征提取模块获得更加丰富的语义信息,通过混合原型网络对数据进行标签预测,其中多层注意力机制采用特征级注意力机制和实例级注意力机制结合,在混合原型网络中,利用关系描述文本获得查询集的第一实例级原型点和支持集的第二实例级原型点,通过拼接获得最终的混合原型网络,即在传统原型网络的基础上引入两个维度的特征信息和关系描述语义提高模型的分类性能和泛化能力,最后得到训练后的关系抽取模型,该模型将关系描述文本和查询集的实体特征加入支持集的训练过程中,突出语句中的重要的语义特征,增强模型的准确性和鲁棒性。
附图说明
[0016]图1是本申请一个实施例提供的网络信息的关系抽取方法的整体流程图;图2是图1中步骤S102的具体方法流程图;图3是本申请一个实施例提供的预训练方法的整体流程图;图4是图3中步骤S304的具体方法流程图;图5是本申请另一个实施例提供的网络信息的关系抽取方法的整体流程图;图6是本申请另一个实施例提供的网络信息的关系抽取方法的整体流程图;图7是图1中步骤S101的具体方法流程图;图8是本申请一个示例提供的关系抽取模型的整体框架图;图9是本申请一个示例提供的多层注意力模块的示意图;图10是本申请一个实施例提供的网络信息的关系抽取装置的结构示意图。
具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络信息的关系抽取方法,其特征在于,包括:获取网络信息的样本实例,所述网络信息的每个所述样本实例被标注出实体和所述实体对应的实体关系;按照所述实体关系的类别对所述样本实例进行小样本抽取,得到N个支持集和N个查询集,所述支持集中包括K个所述样本实例,所述查询集包括Q个所述样本实例,所述N、K和Q均为正整数;通过所述支持集和所述查询集对关系抽取模型进行训练;利用经过训练的关系抽取模型对网络信息的数据进行关系抽取;其中,所述关系抽取模型包括特征抽取模块和标签预测模块;所述特征抽取模块用于对输入的所述样本实例和关系描述文本进行预训练,通过特征级注意力机制对所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量计算注意力权重,然后通过实例级注意力机制调整所述注意力权重;所述标签预测模块用于计算通过特征级注意力机制输出的局部特征向量和所述关系描述文本的全局特征向量的第一实例级原型点,以及计算通过实例级注意力机制调整后输出的特征向量的第二实例级原型点,还用于拼接所述第一实例级原型点和所述第二实例级原型点得到混合原型网络,所述混合原型网络用于根据所述查询集的所述样本实例计算到各个原型点的距离,以得到预测的关系分类结果。2.根据权利要求1所述的关系抽取方法,其特征在于,所述按照所述实体关系的类别对所述样本实例进行小样本抽取,得到N个支持集和N个查询集,包括:创建关于所述实体关系的类别的元任务;随机选择N个所述实体关系的类别,并从每个类别中随机选取K个所述样本实例分别构建所述元任务的支持集,再从每个类别中随机选取Q个所述样本实例分别构建所述元任务的查询集。3.根据权利要求1所述的关系抽取方法,其特征在于,所述预训练包括:根据预设字向量表将输入的所述样本实例和关系描述文本进行转换,得到对应的字向量;根据所述样本实例和关系描述文本生成文本向量和位置向量;按照所述样本实例和关系描述文本的对应关系,将所述字向量、所述文本向量和所述位置向量进行加和,并将加和结果作为输入向量;将所述输入向量输入到BERT模型进行预训练。4.根据权利要求3所述的关系抽取方法,其特征在于,所述将所述输入向量输入到BERT模型进行预训练,包括:通过自注意力机制对所述输入向量中每个单词进行注意力计算,得...

【专利技术属性】
技术研发人员:王海燕鲍俊池罗翠杨伟民向夏雨李仕铸胡宇翔顾钊铨
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1