信息抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30699763 阅读:21 留言:0更新日期:2021-11-06 09:35
本公开提供了一种信息抽取方法、装置、电子设备及存储介质,涉及计算机技术领域,尤其涉及文本处理技术领域。具体实现方案为:获取待处理的数据内容;将该数据内容输入至预先训练完成的目标网络模型,得到输出结果;其中,所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型;所述样本集包括多个正样本和多个负样本,所述正样本为设置有标注信息的样本语句,所述负样本为未设置有所述标注信息的样本语句,所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述;基于所述输出结果,确定所述数据内容中的目标实体和所述目标实体的实体描述。所述目标实体的实体描述。所述目标实体的实体描述。

【技术实现步骤摘要】
信息抽取方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,尤其涉及文本处理
,具体涉及一种信息抽取方法、装置、电子设备及存储介质。

技术介绍

[0002]所谓实体,表示具体的事物,例如:工厂、恒星等;而实体描述能够反映实体的属性。
[0003]目前,针对实体和相应实体描述的信息抽取方案均是无监督的方案,这些无监督的方案属于规则类的抽取方案,具有固定性。若文本中存在实体和该实体的实体描述,但所存在实体和实体描述不符合抽取方案中所设定的抽取规则,此时,则无法抽取到实体和相应的实体描述。

技术实现思路

[0004]本公开提供了一种用于信息抽取的方法、装置、设备以及存储介质。具体方案如下:
[0005]根据本公开的一方面,提供了一种信息抽取方法,包括:
[0006]获取待处理的数据内容;
[0007]将所述数据内容输入至预先训练完成的目标网络模型,得到输出结果;其中,所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型;所述样本集包括多个正样本和多个负样本,所述正样本为设置有标注信息的样本语句,所述负样本为未设置有所述标注信息的样本语句,所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述;
[0008]基于所述输出结果,确定所述数据内容中的目标实体和所述目标实体的实体描述。
[0009]根据本公开的另一方面,提供了一种信息抽取装置,包括:
[0010]获取模块,用于获取待处理的数据内容;
[0011]训练模块,用于将所述数据内容输入至预先训练完成的目标网络模型,得到输出结果;其中,所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型;所述样本集包括多个正样本和多个负样本,所述正样本为设置有标注信息的样本语句,所述负样本为未设置有所述标注信息的样本语句,所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述;
[0012]第一确定模块,用于基于所述输出结果,确定所述数据内容中的目标实体和所述目标实体的实体描述。
[0013]根据本公开的另一方面,提供了一种电子设备,包括:
[0014]至少一个处理器;以及
[0015]与所述至少一个处理器通信连接的存储器;其中,
[0016]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的信息抽取方法的步骤。
[0017]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的信息抽取方法的步骤。
[0018]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述的信息抽取方法的步骤。
[0019]本方案中,先获取待处理的数据内容;将所述数据内容输入至预先训练完成的目标网络模型,得到输出结果;其中,该目标网络模型是基于样本集进行有监督训练所得到的序列标注模型;所述样本集包括多个正样本和多个负样本,所述正样本为设置有标注信息的样本语句,所述负样本为未设置有所述标注信息的样本语句,所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述;再基于所述输出结果,确定所述数据内容中的目标实体和所述目标实体的实体描述。可见,本方案为基于深度学习的有监督的抽取方案,可以解决相关技术中实体和相应的实体描述不符合预设的抽取规则,就无法被抽取的问题,能够适用于多样化的数据内容的信息抽取,适用范围大大提升。
[0020]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0021]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0022]图1是根据本公开所提供的信息抽取方法的示意图;
[0023]图2是根据本公开所提供的信息抽取方法的另一示意图;
[0024]图3是本公开所提供的信息抽取方法的流程图;
[0025]图4是根据本公开所提供的信息抽取方法的另一示意图;
[0026]图5是本公开实施例所提供的信息抽取装置的结构示意图;
[0027]图6是本公开实施例所提供的电子设备的结构示意图。
具体实施方式
[0028]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0029]实体用来表示现实世界中客观存在具体的事物,实体描述用来反映实体的属性。一段文本中,可以存在实体以及该实体相应的实体描述。
[0030]抽取出的实体描述具有以下用途:
[0031]泛化出与与用户搜索的关键字相似的内容,扩充搜索的结构化表达;为实体提供结构化高概括性描述,增强百科的表达能力;通过相似描述对多个实体进行聚合,构建星图。
[0032]相关技术中,针对实体和相应实体描述的信息抽取方案均为无监督的方案,具体而言,无监督的方案是通过预先设定的抽取规则对文本中的实体和相应的实体描述进行抽
取,这种实体描述抽取方案的效果波动较大,对于符合抽取规则的文本能够有效抽取,不符合抽取规则的文本则无法抽取。例如一段文本:“苹果是一种水果”,预先设定了规则:“是一种”之前的文本为实体,之后的文本为实体描述,则可以抽取出实体“苹果”,和实体描述“水果”。如果该文本是“苹果属于水果”,由于预先没有针对“属于”设定规则,虽然该段文本中存在实体和该实体的实体描述,但是无监督的方案不能抽取到该段文本中的实体和相应的实体描述。目前通过信息熵、模板、TF

IDF(TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency))、TruePIE(True Pattern

Based Information Extraction,一种抽取实体属性和属性值方法)、聚类等方法进行的实体描述抽取均为无监督的抽取方法。
[0033]可见,相关技术中,文本中的实体和相应的实体描述不符合预设的抽取规则,就无法被抽取,无法适用于对多样化的文本内容的抽取,适应范围较小。当用户搜索一些十分冷门的问题,例如“天津的后花园”、“北辽末代皇帝”等,出现的搜索结果及数据源往往不够准确。由于无法对多样化的文本内容的进行有效的抽取,所以进一步扩大星图规模比较困难,并且挖掘出来的星图主题比较固定、语义表达的丰富度低。
[0034]为了解决相关技术无法适用于多样化的文本内容的抽取的问题,本公开实施例提供了一种信息抽取方法、装置、电子设备及存储介质。下面首先对本公开本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法,包括:获取待处理的数据内容;将所述数据内容输入至预先训练完成的目标网络模型,得到输出结果;其中,所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型;所述样本集包括多个正样本和多个负样本,所述正样本为设置有标注信息的样本语句,所述负样本为未设置有所述标注信息的样本语句,所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述;基于所述输出结果,确定所述数据内容中的目标实体和所述目标实体的实体描述。2.根据权利要求1所述的方法,其特征在于,任一语句中存在的实体以及所存在实体的实体描述的确定方式包括:对该语句进行语义依存分析,得到分析结果;基于分析结果所表征的语义关系,识别该语句中存在的实体和所存在实体的实体描述。3.根据权利要求2所述的方法,其特征在于,所述确定方式还包括:若对该语句分析失败,则基于预定的辅助识别方式,识别该语句中存在的实体和所存在实体的实体描述。4.根据权利要求1

3任一项所述的方法,还包括:识别所述目标实体的实体描述,是否具有唯一性,其中,所述唯一性表征所述目标实体的实体描述仅用于描述所述目标实体;若具有唯一性,基于所述目标实体的实体描述,确定针对所述目标实体的搜索关键词。5.根据权利要求4所述的方法,其中,基于所述目标实体的实体描述,确定针对所述目标实体的搜索关键词,包括:将所述目标实体的实体描述与各个历史搜索关键词进行匹配分析,得到与所述目标实体的实体描述相匹配的历史搜索关键词;基于所得到的历史搜索关键词,确定所述目标实体的实体描述的泛化结果;所述泛化结果为与所述实体描述所表征含义相同的内容;将所述泛化结果和所述目标实体的实体描述,确定为针对所述目标实体的搜索关键词。6.根据权利要求1所述的方法,还包括:将所述数据内容中的目标实体和所述目标实体的实体描述对应存储至预定数据库。7.根据权利要求6所述的方法,所述数据内容为指定数据源中的文本内容;所述方法还包括:若所述指定数据源中的文本内容发生更改,则从所述指定数据源中确定待分析内容;其中,所述待分析内容为更改后的文本内容;若所述待分析内容对应的原始内容记录在文本词典中,则将所述待分析内容输入至所述目标网络模型,得到所述待分析内容对应的输出结果;其中,所述文本词典中记录有所述预定数据库所存储内容所属的数据内容;基于所述待分析内容对应的输出结果,确定所述待分析内容中存在的实体和所存在实体的实体描述;
利用所述待分析内容中存在的实体和所存在实体的实体描述,对所述预定数据库进行更新。8.根据权利要求1

7任一项所述的方法,其特征在于,所述目标网络模型是基于预训练模型所训练得到的模型。9.一种信息抽取装置,包括:获取模块,用于获取待处理的数据内容;训练模块,用于将所述数据内容输入至预先训练完成的目标网络模型,得到输出结果;其中,所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型;所述样本集包括多个正样本和多个负样本,所述正样本为设置有标注信息的样本语句,所述负样本为未设置有所述标注信息的样本语句,所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述;第一确定...

【专利技术属性】
技术研发人员:魏谨谦施鹏姚后清吴广发
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1