信息抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：30699763 阅读：24 留言：0更新日期：2021-11-06 09:35

本公开提供了一种信息抽取方法、装置、电子设备及存储介质，涉及计算机技术领域，尤其涉及文本处理技术领域。具体实现方案为：获取待处理的数据内容；将该数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述。所述目标实体的实体描述。所述目标实体的实体描述。

全部详细技术资料下载

【技术实现步骤摘要】
信息抽取方法、装置、电子设备及存储介质

[0001]本公开涉及计算机
，尤其涉及文本处理
，具体涉及一种信息抽取方法、装置、电子设备及存储介质。

技术介绍

[0002]所谓实体，表示具体的事物，例如：工厂、恒星等；而实体描述能够反映实体的属性。
[0003]目前，针对实体和相应实体描述的信息抽取方案均是无监督的方案，这些无监督的方案属于规则类的抽取方案，具有固定性。若文本中存在实体和该实体的实体描述，但所存在实体和实体描述不符合抽取方案中所设定的抽取规则，此时，则无法抽取到实体和相应的实体描述。

技术实现思路

[0004]本公开提供了一种用于信息抽取的方法、装置、设备以及存储介质。具体方案如下：
[0005]根据本公开的一方面，提供了一种信息抽取方法，包括：
[0006]获取待处理的数据内容；
[0007]将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；
[0008]基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述。
[0009]根据本公开的另一方面，提供了一种信息抽取装置，包括：
[0010]获取模块，用于获取待处理的数据内容；
[0011]...

【技术保护点】

【技术特征摘要】
1.一种信息抽取方法，包括：获取待处理的数据内容；将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；基于所述输出结果，确定所述数据内容中的目标实体和所述目标实体的实体描述。2.根据权利要求1所述的方法，其特征在于，任一语句中存在的实体以及所存在实体的实体描述的确定方式包括：对该语句进行语义依存分析，得到分析结果；基于分析结果所表征的语义关系，识别该语句中存在的实体和所存在实体的实体描述。3.根据权利要求2所述的方法，其特征在于，所述确定方式还包括：若对该语句分析失败，则基于预定的辅助识别方式，识别该语句中存在的实体和所存在实体的实体描述。4.根据权利要求1
‑
3任一项所述的方法，还包括：识别所述目标实体的实体描述，是否具有唯一性，其中，所述唯一性表征所述目标实体的实体描述仅用于描述所述目标实体；若具有唯一性，基于所述目标实体的实体描述，确定针对所述目标实体的搜索关键词。5.根据权利要求4所述的方法，其中，基于所述目标实体的实体描述，确定针对所述目标实体的搜索关键词，包括：将所述目标实体的实体描述与各个历史搜索关键词进行匹配分析，得到与所述目标实体的实体描述相匹配的历史搜索关键词；基于所得到的历史搜索关键词，确定所述目标实体的实体描述的泛化结果；所述泛化结果为与所述实体描述所表征含义相同的内容；将所述泛化结果和所述目标实体的实体描述，确定为针对所述目标实体的搜索关键词。6.根据权利要求1所述的方法，还包括：将所述数据内容中的目标实体和所述目标实体的实体描述对应存储至预定数据库。7.根据权利要求6所述的方法，所述数据内容为指定数据源中的文本内容；所述方法还包括：若所述指定数据源中的文本内容发生更改，则从所述指定数据源中确定待分析内容；其中，所述待分析内容为更改后的文本内容；若所述待分析内容对应的原始内容记录在文本词典中，则将所述待分析内容输入至所述目标网络模型，得到所述待分析内容对应的输出结果；其中，所述文本词典中记录有所述预定数据库所存储内容所属的数据内容；基于所述待分析内容对应的输出结果，确定所述待分析内容中存在的实体和所存在实体的实体描述；
利用所述待分析内容中存在的实体和所存在实体的实体描述，对所述预定数据库进行更新。8.根据权利要求1
‑
7任一项所述的方法，其特征在于，所述目标网络模型是基于预训练模型所训练得到的模型。9.一种信息抽取装置，包括：获取模块，用于获取待处理的数据内容；训练模块，用于将所述数据内容输入至预先训练完成的目标网络模型，得到输出结果；其中，所述目标网络模型是基于样本集进行有监督训练所得到的序列标注模型；所述样本集包括多个正样本和多个负样本，所述正样本为设置有标注信息的样本语句，所述负样本为未设置有所述标注信息的样本语句，所述标注信息用于表征语句中存在的实体以及所存在实体的实体描述；第一确定...

【专利技术属性】
技术研发人员：魏谨谦，施鹏，姚后清，吴广发，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人