用于生成信息的方法和装置制造方法及图纸

技术编号：24409926 阅读：17 留言：0更新日期：2020-06-06 08:44

本申请实施例公开了用于生成信息的方法和装置，计算机技术、知识图谱领域。该方法的一具体实施方式包括：获取主体关系二元组和文本，其中，主体关系二元组包括主体和关系；将文本切分成文本词序列；将主体关系二元组和文本词序列输入至预先训练的槽填充模型，得到文本词序列的标注结果，其中，槽填充模型用于标注文本词序列中的客体；基于主体关系二元组和标注结果，生成主体关系客体三元组，其中，主体关系客体三元组包括文本的主体、关系和客体。该实施方式提高了客体识别精准度。

Methods and devices for generating information

全部详细技术资料下载

【技术实现步骤摘要】
用于生成信息的方法和装置
本申请实施例涉及计算机
，具体涉及用于生成信息的方法和装置。
技术介绍
知识图谱是从语义角度用结构化形式表示的真实世界知识的大规模知识库，是一张有向图，其中包括实体(节点)、关系(边)等要素。SPO(SubjectPredicationObject，主语谓语宾语)三元组又叫做主体关系客体三元组，是指实体对(S和O)与它们间的关系(P)构成的三元组。从知识图谱构建的角度上看，实体关系抽取可以得到实体缺失的关系属性值，用于提升知识图谱的连通度，高效提升知识图谱的知识丰富度与完备性。目前，常用的实体抽取方法是将主体关系二元组转化成问题，并将问题和文本输入到阅读理解模型，阅读理解模型会标注出客体在文本中的起始位置和结束位置。然而，阅读理解模型实际上是将主体关系二元组退化成了问题，丢失了结构信息，影响客体识别效果。
技术实现思路
本申请实施例提出了用于生成信息的方法和装置。第一方面，本申请实施例提出了一种用于生成信息的方法，获取主体关系二元组和文本，其中，主体关系二元组包括主体和关系；将文本切分成文本词序列；将主体关系二元组和文本词序列输入至预先训练的槽填充模型，得到文本词序列的标注结果，其中，槽填充模型用于标注文本词序列中的客体；基于主体关系二元组和标注结果，生成主体关系客体三元组，其中，主体关系客体三元组包括文本的主体、关系和客体。在一些实施例中，槽填充模型包括输入层、定位层、嵌入层、编码层、解码层和输出层。在一些实施例中，将主体关系二元组...

【技术保护点】
1.一种用于生成信息的方法，包括：/n获取主体关系二元组和文本，其中，所述主体关系二元组包括主体和关系；/n将所述文本切分成文本词序列；/n将所述主体关系二元组和所述文本词序列输入至预先训练的槽填充模型，得到所述文本词序列的标注结果，其中，所述槽填充模型用于标注所述文本词序列中的客体；/n基于所述主体关系二元组和所述标注结果，生成主体关系客体三元组，其中，所述主体关系客体三元组包括所述文本的主体、关系和客体。/n

【技术特征摘要】
1.一种用于生成信息的方法，包括：
获取主体关系二元组和文本，其中，所述主体关系二元组包括主体和关系；
将所述文本切分成文本词序列；
将所述主体关系二元组和所述文本词序列输入至预先训练的槽填充模型，得到所述文本词序列的标注结果，其中，所述槽填充模型用于标注所述文本词序列中的客体；
基于所述主体关系二元组和所述标注结果，生成主体关系客体三元组，其中，所述主体关系客体三元组包括所述文本的主体、关系和客体。

2.根据权利要求1所述的方法，其中，所述槽填充模型包括输入层、定位层、嵌入层、编码层、解码层和输出层。

3.根据权利要求2所述的方法，其中，所述将所述主体关系二元组和所述文本词序列输入至预先训练的槽填充模型，得到所述文本词序列的标注结果，包括：
将所述主体关系二元组和所述文本词序列输入至所述输入层，得到词序列特征和距离特征；
将所述距离特征输入到所述定位层，得到位置信息；
将所述词序列特征和所述位置信息输入至所述嵌入层，得到词序列向量和位置向量；
将所述词序列向量输入至所述编码层，得到编码向量；
将所述位置向量和所述编码向量输入至所述解码层，得到解码向量；
将所述解码向量输入至所述输出层，得到所述标注结果。

4.根据权利要求3所述的方法，其中，所述编码层包括第一双向长短期记忆网络，所述解码层包括位置注意力模块、关系注意力模块和第二双向长短期记忆网络。

5.根据权利要求4所述的方法，其中，所述将所述位置向量和所述编码向量输入至所述解码层，得到解码向量，包括：
将所述位置向量和所述编码向量的拼接输入至所述位置注意力模块，得到所述文本词序列中的词距离所述主体和所述关系的位置信息；
将所述关系的长短期记忆网络编码和所述编码向量输入至所述关系注意力模块，得到所述文本词序列中的词与所述关系的语义相似度；
将所述编码向量、所述文本词序列中的词距离所述主体和所述关系的位置信息和所述文本词序列中的词与所述关系的语义相似度输入至所述第二双向长短期记忆网络，得到所述解码向量。

6.根据权利要求3所述的方法，其中，所述将所述解码向量输入至所述输出层，得到所述标注结果，包括：
通过激活函数对所述文本词序列中的词的解码向量进行多分类，得到所述文本词序列中的词属于多种类别中的每种类别的概率，其中，多分类是计算词属于多种类别中的每种类别的概率；
基于所述文本词序列中的词的最大概率对应的类别对所述文本词序列进行标注，生成所述标注结果。

7.根据权利要求3-6之一所述的方法，其中，所述词序列特征包括以下至少一项：所述文本词序列、所述文本词序列的词性序列、所述文本词序列的命名实体识别序列和所述关系的关系词序列，所述距离特征包括以下至少一项：所述文本词序列中的词到所述主体的距离、所述文本词序列中的词到所述关系的距离。

8.根据权利要求1-6之一所述的方法，其中，所述槽填充模型采用BIOES序列标注方式对所述文本词序列进行标注。

9.一种用于生成信息的装置，包括：
获取单元，被配置成获取主体关系二元组和文本，其中，所述主体关系二元组包括主体和关系；
切分单元，被配置成将所述文本切分成文本词序列；
标注单元，被配置成将所...

【专利技术属性】
技术研发人员：贺薇，李双婕，史亚冰，蒋烨，张扬，朱勇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人