使用一般和目标领域知识的弱监督语义实体识别制造技术

技术编号：30405505 阅读：18 留言：0更新日期：2021-10-20 11:08

提供了使用一般和目标领域知识的弱监督语义实体识别。用于执行语义实体识别的方法和系统。所述方法包括访问存储在存储器中的文档，并基于指定的目标领域从一般知识数据储存库中选择目标领域信息。所述方法还包括基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识生成用于文档的多个弱注释器，并将所述多个弱注释器应用于文档以生成多个弱标签。所述方法进一步包括从所述多个弱标签中选择至少一个弱标签作为训练数据，并使用训练数据训练语义实体预测模型。训练数据训练语义实体预测模型。训练数据训练语义实体预测模型。

全部详细技术资料下载

【技术实现步骤摘要】
使用一般和目标领域知识的弱监督语义实体识别

[0001]实施例涉及使用一般知识和目标领域知识两者的语义实体识别。

技术介绍

[0002]语义实体识别的一个目的是要标识文档中的实体、概念或术语，诸如函数名或信号名。识别这些语义实体是朝着从非结构化文本数据中提取结构化信息的重要步骤。
[0003]在一般领域中，存在利用命名实体识别（例如人、位置和组织）的许多方法。然而，这些方法的性能高度依赖于大量手动标记的数据。在许多情景中，存在不充足的或者甚至没有用于训练特定领域语义实体识别系统的手动标记数据，这使得将现有方法应用于识别特定领域实体具有挑战性。

技术实现思路

[0004]因此，除了其他目标之外，一些实施例的一个目标是要执行语义实体识别，而不依赖于手动标记的数据，而是仅依赖于一般领域知识和特定领域专家知识。
[0005]一个实施例提供了一种用于执行语义实体识别的系统。所述系统包括一般知识数据储存库、特定领域专家知识数据储存库和电子处理器。电子处理器被配置为访问存储在存储器中的文档，基于指定的目标领域从一般知识数据储存库中选择目标领域信息；基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识，生成用于文档的多个弱注释器；将所述多个弱注释器应用于文档以生成多个弱标签；从所述多个弱标签中选择至少一个弱标签作为训练数据；以及使用训练数据训练语义实体预测模型。
[0006]另一个实施例提供了一种用于执行语义实体识别的方法。所述方法包括用电子处理器访问存储在存储器中的文档；用电子处理...

【技术保护点】

【技术特征摘要】
1.一种用于执行语义实体识别的系统，所述系统包括：一般知识数据储存库；特定领域专家知识数据储存库；和电子处理器，被配置为：访问存储在存储器中的文档；基于指定的目标领域，从一般知识数据储存库中选择目标领域信息；基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识，生成用于文档的多个弱注释器；将所述多个弱注释器应用于文档以生成多个弱标签；从所述多个弱标签中选择至少一个弱标签作为训练数据；以及使用训练数据训练语义实体预测模型。2.根据权利要求1所述的系统，其中电子处理器进一步被配置为预处理文档以生成未标记的数据集。3.根据权利要求2所述的系统，其中使用未标记的数据集生成多个潜在语义实体。4.根据权利要求1所述的系统，其中指定的目标领域与文档的领域相关联。5.根据权利要求1所述的系统，其中电子处理器进一步被配置为组合所述多个弱标签中的至少两个弱标签以生成训练数据。6.根据权利要求5所述的系统，其中所述多个弱标签中的每一个被组合以生成训练数据。7.根据权利要求1所述的系统，其中语义实体预测模型是机器学习模型。8.一种用于执行语义实体识别的方法，所述方法包括：用电子处理器访问存储在存储器中的文档；用电子处理器，基于指定的目标领域从一般知识数据储存库中选择目标领域信息；用电子处理器，基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识，生成用于文档的多个弱注释器；用电子处理器将所述多个弱注释器应用于文档以生成多个弱标签；用电子处理器从所述多个弱标签中选择至少一个弱标签作为训练数据；以及用电子处理器使用训练数据训练语义实体预测模型。9.根据权利要求8所述的方法，进一步包括用电子处理器预...

【专利技术属性】
技术研发人员：赵心言，丁海波，冯哲，
申请(专利权)人：罗伯特，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人