用于生成信息的方法和装置制造方法及图纸

技术编号:24409926 阅读:17 留言:0更新日期:2020-06-06 08:44
本申请实施例公开了用于生成信息的方法和装置,计算机技术、知识图谱领域。该方法的一具体实施方式包括:获取主体关系二元组和文本,其中,主体关系二元组包括主体和关系;将文本切分成文本词序列;将主体关系二元组和文本词序列输入至预先训练的槽填充模型,得到文本词序列的标注结果,其中,槽填充模型用于标注文本词序列中的客体;基于主体关系二元组和标注结果,生成主体关系客体三元组,其中,主体关系客体三元组包括文本的主体、关系和客体。该实施方式提高了客体识别精准度。

Methods and devices for generating information

【技术实现步骤摘要】
用于生成信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成信息的方法和装置。
技术介绍
知识图谱是从语义角度用结构化形式表示的真实世界知识的大规模知识库,是一张有向图,其中包括实体(节点)、关系(边)等要素。SPO(SubjectPredicationObject,主语谓语宾语)三元组又叫做主体关系客体三元组,是指实体对(S和O)与它们间的关系(P)构成的三元组。从知识图谱构建的角度上看,实体关系抽取可以得到实体缺失的关系属性值,用于提升知识图谱的连通度,高效提升知识图谱的知识丰富度与完备性。目前,常用的实体抽取方法是将主体关系二元组转化成问题,并将问题和文本输入到阅读理解模型,阅读理解模型会标注出客体在文本中的起始位置和结束位置。然而,阅读理解模型实际上是将主体关系二元组退化成了问题,丢失了结构信息,影响客体识别效果。
技术实现思路
本申请实施例提出了用于生成信息的方法和装置。第一方面,本申请实施例提出了一种用于生成信息的方法,获取主体关系二元组和文本,其中,主体关系二元组包括主体和关系;将文本切分成文本词序列;将主体关系二元组和文本词序列输入至预先训练的槽填充模型,得到文本词序列的标注结果,其中,槽填充模型用于标注文本词序列中的客体;基于主体关系二元组和标注结果,生成主体关系客体三元组,其中,主体关系客体三元组包括文本的主体、关系和客体。在一些实施例中,槽填充模型包括输入层、定位层、嵌入层、编码层、解码层和输出层。在一些实施例中,将主体关系二元组和文本词序列输入至预先训练的槽填充模型,得到文本词序列的标注结果,包括:将主体关系二元组和文本词序列输入至输入层,得到词序列特征和距离特征;将距离特征输入到定位层,得到位置信息;将词序列特征和位置信息输入至嵌入层,得到词序列向量和位置向量;将词序列向量输入至编码层,得到编码向量;将位置向量和编码向量输入至解码层,得到解码向量;将解码向量输入至输出层,得到标注结果。在一些实施例中,编码层包括第一双向长短期记忆网络,解码层包括位置注意力模块、关系注意力模块和第二双向长短期记忆网络。在一些实施例中,将位置向量和编码向量输入至解码层,得到解码向量,包括:将位置向量和编码向量的拼接输入至位置注意力模块,得到文本词序列中的词距离主体和关系的位置信息;将关系的长短期记忆网络编码和编码向量输入至关系注意力模块,得到文本词序列中的词与关系的语义相似度;将编码向量、文本词序列中的词距离主体和关系的位置信息和文本词序列中的词与关系的语义相似度输入至第二双向长短期记忆网络,得到解码向量。在一些实施例中,将解码向量输入至输出层,得到标注结果,包括:通过激活函数对文本词序列中的词的解码向量进行多分类,得到文本词序列中的词属于多种类别中的每种类别的概率,其中,多分类是计算词属于多种类别中的每种类别的概率;基于文本词序列中的词的最大概率对应的类别对文本词序列进行标注,生成标注结果。在一些实施例中,词序列特征包括以下至少一项:文本词序列、文本词序列的词性序列、文本词序列的命名实体识别序列和关系的关系词序列,距离特征包括以下至少一项:文本词序列中的词到主体的距离、文本词序列中的词到关系的距离。在一些实施例中,槽填充模型采用BIOES序列标注方式对文本词序列进行标注。第二方面,本申请实施例提出了一种用于生成信息的装置,包括:获取单元,被配置成获取主体关系二元组和文本,其中,主体关系二元组包括主体和关系;切分单元,被配置成将文本切分成文本词序列;标注单元,被配置成将主体关系二元组和文本词序列输入至预先训练的槽填充模型,得到文本词序列的标注结果,其中,槽填充模型用于标注文本词序列中的客体;生成单元,被配置成基于主体关系二元组和标注结果,生成主体关系客体三元组,其中,主体关系客体三元组包括文本的主体、关系和客体。在一些实施例中,槽填充模型包括输入层、定位层、嵌入层、编码层、解码层和输出层。在一些实施例中,标注单元包括:输入子单元,被配置成将主体关系二元组和文本词序列输入至输入层,得到词序列特征和距离特征;定位子单元,被配置成将距离特征输入到定位层,得到位置信息;嵌入子单元,被配置成将词序列特征和位置信息输入至嵌入层,得到词序列向量和位置向量;编码子单元,被配置成将词序列向量输入至编码层,得到编码向量;解码子单元,被配置成将位置向量和编码向量输入至解码层,得到解码向量;输出子单元,被配置成将解码向量输入至输出层,得到标注结果。在一些实施例中,编码层包括第一双向长短期记忆网络,解码层包括位置注意力模块、关系注意力模块和第二双向长短期记忆网络。在一些实施例中,编码子单元进一步被配置成:将位置向量和编码向量的拼接输入至位置注意力模块,得到文本词序列中的词距离主体和关系的位置信息;将关系的长短期记忆网络编码和编码向量输入至关系注意力模块,得到文本词序列中的词与关系的语义相似度;将编码向量、文本词序列中的词距离主体和关系的位置信息和文本词序列中的词与关系的语义相似度输入至第二双向长短期记忆网络,得到解码向量。在一些实施例中,输出子单元进一步被配置成:通过激活函数对文本词序列中的词的解码向量进行多分类,得到文本词序列中的词属于多种类别中的每种类别的概率,其中,多分类是计算词属于多种类别中的每种类别的概率;基于文本词序列中的词的最大概率对应的类别对文本词序列进行标注,生成标注结果。在一些实施例中,词序列特征包括以下至少一项:文本词序列、文本词序列的词性序列、文本词序列的命名实体识别序列和关系的关系词序列,距离特征包括以下至少一项:文本词序列中的词到主体的距离、文本词序列中的词到关系的距离。在一些实施例中,槽填充模型采用BIOES序列标注方式对文本词序列进行标注。第三方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本申请实施例提供的用于生成信息的方法和装置,首先获取主体关系二元组和文本;之后将文本切分成文本词序列;然后将主体关系二元组和文本词序列输入至预先训练的槽填充模型,得到文本词序列的标注结果;最后基于主体关系二元组和标注结果,生成主体关系客体三元组。基于槽填充模型识别客体,保留了主体和关系的和结构,提高了客体识别精准度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构;图2是根据本申请的用于生成信息的方法的一个实施例的流程图;图3是根据本申请的用于生成信息的方法的又一个实施例的流程图;图4示出了槽填充模型的结构示意图;本文档来自技高网...

【技术保护点】
1.一种用于生成信息的方法,包括:/n获取主体关系二元组和文本,其中,所述主体关系二元组包括主体和关系;/n将所述文本切分成文本词序列;/n将所述主体关系二元组和所述文本词序列输入至预先训练的槽填充模型,得到所述文本词序列的标注结果,其中,所述槽填充模型用于标注所述文本词序列中的客体;/n基于所述主体关系二元组和所述标注结果,生成主体关系客体三元组,其中,所述主体关系客体三元组包括所述文本的主体、关系和客体。/n

【技术特征摘要】
1.一种用于生成信息的方法,包括:
获取主体关系二元组和文本,其中,所述主体关系二元组包括主体和关系;
将所述文本切分成文本词序列;
将所述主体关系二元组和所述文本词序列输入至预先训练的槽填充模型,得到所述文本词序列的标注结果,其中,所述槽填充模型用于标注所述文本词序列中的客体;
基于所述主体关系二元组和所述标注结果,生成主体关系客体三元组,其中,所述主体关系客体三元组包括所述文本的主体、关系和客体。


2.根据权利要求1所述的方法,其中,所述槽填充模型包括输入层、定位层、嵌入层、编码层、解码层和输出层。


3.根据权利要求2所述的方法,其中,所述将所述主体关系二元组和所述文本词序列输入至预先训练的槽填充模型,得到所述文本词序列的标注结果,包括:
将所述主体关系二元组和所述文本词序列输入至所述输入层,得到词序列特征和距离特征;
将所述距离特征输入到所述定位层,得到位置信息;
将所述词序列特征和所述位置信息输入至所述嵌入层,得到词序列向量和位置向量;
将所述词序列向量输入至所述编码层,得到编码向量;
将所述位置向量和所述编码向量输入至所述解码层,得到解码向量;
将所述解码向量输入至所述输出层,得到所述标注结果。


4.根据权利要求3所述的方法,其中,所述编码层包括第一双向长短期记忆网络,所述解码层包括位置注意力模块、关系注意力模块和第二双向长短期记忆网络。


5.根据权利要求4所述的方法,其中,所述将所述位置向量和所述编码向量输入至所述解码层,得到解码向量,包括:
将所述位置向量和所述编码向量的拼接输入至所述位置注意力模块,得到所述文本词序列中的词距离所述主体和所述关系的位置信息;
将所述关系的长短期记忆网络编码和所述编码向量输入至所述关系注意力模块,得到所述文本词序列中的词与所述关系的语义相似度;
将所述编码向量、所述文本词序列中的词距离所述主体和所述关系的位置信息和所述文本词序列中的词与所述关系的语义相似度输入至所述第二双向长短期记忆网络,得到所述解码向量。


6.根据权利要求3所述的方法,其中,所述将所述解码向量输入至所述输出层,得到所述标注结果,包括:
通过激活函数对所述文本词序列中的词的解码向量进行多分类,得到所述文本词序列中的词属于多种类别中的每种类别的概率,其中,多分类是计算词属于多种类别中的每种类别的概率;
基于所述文本词序列中的词的最大概率对应的类别对所述文本词序列进行标注,生成所述标注结果。


7.根据权利要求3-6之一所述的方法,其中,所述词序列特征包括以下至少一项:所述文本词序列、所述文本词序列的词性序列、所述文本词序列的命名实体识别序列和所述关系的关系词序列,所述距离特征包括以下至少一项:所述文本词序列中的词到所述主体的距离、所述文本词序列中的词到所述关系的距离。


8.根据权利要求1-6之一所述的方法,其中,所述槽填充模型采用BIOES序列标注方式对所述文本词序列进行标注。


9.一种用于生成信息的装置,包括:
获取单元,被配置成获取主体关系二元组和文本,其中,所述主体关系二元组包括主体和关系;
切分单元,被配置成将所述文本切分成文本词序列;
标注单元,被配置成将所...

【专利技术属性】
技术研发人员:贺薇李双婕史亚冰蒋烨张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1