提供了使用一般和目标领域知识的弱监督语义实体识别。用于执行语义实体识别的方法和系统。所述方法包括访问存储在存储器中的文档,并基于指定的目标领域从一般知识数据储存库中选择目标领域信息。所述方法还包括基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识生成用于文档的多个弱注释器,并将所述多个弱注释器应用于文档以生成多个弱标签。所述方法进一步包括从所述多个弱标签中选择至少一个弱标签作为训练数据,并使用训练数据训练语义实体预测模型。训练数据训练语义实体预测模型。训练数据训练语义实体预测模型。
【技术实现步骤摘要】
使用一般和目标领域知识的弱监督语义实体识别
[0001]实施例涉及使用一般知识和目标领域知识两者的语义实体识别。
技术介绍
[0002]语义实体识别的一个目的是要标识文档中的实体、概念或术语,诸如函数名或信号名。识别这些语义实体是朝着从非结构化文本数据中提取结构化信息的重要步骤。
[0003]在一般领域中,存在利用命名实体识别(例如人、位置和组织)的许多方法。然而,这些方法的性能高度依赖于大量手动标记的数据。在许多情景中,存在不充足的或者甚至没有用于训练特定领域语义实体识别系统的手动标记数据,这使得将现有方法应用于识别特定领域实体具有挑战性。
技术实现思路
[0004]因此,除了其他目标之外,一些实施例的一个目标是要执行语义实体识别,而不依赖于手动标记的数据,而是仅依赖于一般领域知识和特定领域专家知识。
[0005]一个实施例提供了一种用于执行语义实体识别的系统。所述系统包括一般知识数据储存库、特定领域专家知识数据储存库和电子处理器。电子处理器被配置为访问存储在存储器中的文档,基于指定的目标领域从一般知识数据储存库中选择目标领域信息;基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识,生成用于文档的多个弱注释器;将所述多个弱注释器应用于文档以生成多个弱标签;从所述多个弱标签中选择至少一个弱标签作为训练数据;以及使用训练数据训练语义实体预测模型。
[0006]另一个实施例提供了一种用于执行语义实体识别的方法。所述方法包括用电子处理器访问存储在存储器中的文档;用电子处理器,基于指定的目标领域从一般知识数据储存库中选择目标领域信息;用电子处理器,基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识,生成用于文档的多个弱注释器;用电子处理器,将所述多个弱注释器应用于文档以生成多个弱标签;用电子处理器从所述多个弱标签中选择至少一个弱标签作为训练数据;以及用电子处理器使用训练数据训练语义实体预测模型。
[0007]另一个实施例提供了一种包含指令的非暂时性计算机可读介质,当由电子处理器执行时,所述指令被配置为执行功能集合,所述功能集合包括:访问存储在存储器中的文档;基于指定的目标领域从一般知识数据储存库中选择目标领域信息;基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识,生成用于文档的多个弱注释器;将所述多个弱注释器应用于文档以生成多个弱标签;从所述多个弱标签中选择至少一个弱标签作为训练数据;以及使用训练数据训练语义实体预测模型。
[0008]通过阅读以下详细描述并查阅相关联附图,这些和其他特征、方面和优点将是清楚的。应理解,前述总体描述和以下详细描述均是解释性的,并不限制所要求保护的方面。
附图说明
[0009]图1图示了根据一个实施例的用于执行语义实体识别的系统。
[0010]图2图示了根据一个实施例的用于执行语义实体识别的方法。
[0011]图3图示了根据一个实施例的语义实体识别系统的示例实现。
具体实施方式
[0012]在以下描述和附图中描述和图示了一个或多个实施例。这些实施例不限于本文提供的具体细节,并且可以以各种方式进行修改。此外,可能存在本文没有描述的其他实施例。此外,本文描述为由一个组件执行的功能性可以由多个组件以分布式方式执行。同样,由多个组件执行的功能性可以由单个组件整合和执行。类似地,被描述为执行特定功能性的组件也可以执行本文没有描述的附加功能性。例如,以某种方式“配置”的设备或结构至少以该方式配置,但是也可以以未列出的方式配置。此外,本文描述的一些实施例可以包括一个或多个电子处理器,其被配置为通过执行存储在非暂时性计算机可读介质中的指令来执行所描述的功能性。类似地,本文描述的实施例可以被实现为存储可由一个或多个电子处理器执行以执行所描述的功能性的指令的非暂时性计算机可读介质。如本申请中所使用的,“非暂时性计算机可读介质”包括所有计算机可读介质,但不由暂时性传播信号组成。因此,非暂时性计算机可读介质可以包括例如硬盘、CD
‑
ROM、光学存储设备、磁性存储设备、ROM(只读存储器)、RAM(随机存取存储器)、寄存器存储器、处理器高速缓存或其任何组合。
[0013]此外,本文使用的措辞和术语是为了描述的目的,并且不应当被视为限制。例如,本文对“包括”、“包含”、“含有”、“具有”及其变型的使用意味着涵盖其后列出的项目及其等同物以及附加项目。术语“连接”和“耦合”被广泛使用,并且涵盖直接和间接的连接和耦合两者。此外,“连接”和“耦合”不限于物理或机械连接或耦合,并且可以包括直接或间接的电连接或耦合。此外,电子通信和通知可以使用有线连接、无线连接或其组合来执行,并且可以直接地或通过各种类型的网络、通信信道和连接而通过一个或多个中间设备来传输。此外,诸如第一和第二、顶部和底部等关系性术语在本文中可以仅仅用于区分一个实体或动作与另一个实体或动作,而不一定要求或暗示这样的实体或动作之间的任何实际的这样的关系或顺序。
[0014]图1图示了根据一个实施例的用于执行语义实体识别的系统100。系统100包括输入/输出接口105、电子处理器110和存储器115。输入/输出接口105允许系统100经由有线通信连接或无线通信连接与其他计算系统或电子设备通信。输入/输出接口105还可以包括允许用户访问和操作系统100的人/机接口。除其他事物之外,电子处理器110还被配置为执行下面描述的方法和功能。
[0015]存储器115是非暂时性的计算机可读介质,其存储供电子处理器110执行的指令,所述指令除其他事物之外还使得电子处理器110执行下面描述的方法和功能。存储器115还包括文档储存库120、一般知识数据储存库125和特定领域专家知识数据储存库130。
[0016]文档储存库120存储一个或多个电子文档以及与一个或多个电子文档中的每一个相关联的元数据。电子文档可以是例如文本文档、便携式文档格式(“PDF”)文档或包含电子处理器110可读的文本的其他文档。与每个电子文档相关联的元数据可以包括创建的日期和时间、作者或与该文档相关联的领域。例如,该领域可以是“软件函数”或“电信号名”或某
个其他领域。
[0017]一般知识数据储存库125包括对公众可访问的多个开源一般知识数据库。例如,在线百科全书和其他知识库(诸如Wikipedia
TM
或Freebase
TM
)构成了一般知识数据储存库125。
[0018]特定领域专家知识数据储存库130包括知识库,其中各个领域中的专家具有在一般知识数据库中不可用的输入知识。通过允许专家将他们的知识输入到这些特定领域的数据库中,在一般知识库中不可用的语义实体可以被用于既标识独特的实体(例如特定程序或公司的特定信号或函数名)并且又聚集于来自一般知识库的什么一般知识将被用于标识文档中的语义实体。
[0019]应理解,文档储存库120、一般知识数据储存库125和特定领域专家知识数据储存库130可本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种用于执行语义实体识别的系统,所述系统包括:一般知识数据储存库;特定领域专家知识数据储存库;和电子处理器,被配置为:访问存储在存储器中的文档;基于指定的目标领域,从一般知识数据储存库中选择目标领域信息;基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识,生成用于文档的多个弱注释器;将所述多个弱注释器应用于文档以生成多个弱标签;从所述多个弱标签中选择至少一个弱标签作为训练数据;以及使用训练数据训练语义实体预测模型。2.根据权利要求1所述的系统,其中电子处理器进一步被配置为预处理文档以生成未标记的数据集。3.根据权利要求2所述的系统,其中使用未标记的数据集生成多个潜在语义实体。4.根据权利要求1所述的系统,其中指定的目标领域与文档的领域相关联。5.根据权利要求1所述的系统,其中电子处理器进一步被配置为组合所述多个弱标签中的至少两个弱标签以生成训练数据。6.根据权利要求5所述的系统,其中所述多个弱标签中的每一个被组合以生成训练数据。7.根据权利要求1所述的系统,其中语义实体预测模型是机器学习模型。8.一种用于执行语义实体识别的方法,所述方法包括:用电子处理器访问存储在存储器中的文档;用电子处理器,基于指定的目标领域从一般知识数据储存库中选择目标领域信息;用电子处理器,基于所选目标领域信息和来自特定领域专家知识数据储存库的专家知识,生成用于文档的多个弱注释器;用电子处理器将所述多个弱注释器应用于文档以生成多个弱标签;用电子处理器从所述多个弱标签中选择至少一个弱标签作为训练数据;以及用电子处理器使用训练数据训练语义实体预测模型。9.根据权利要求8所述的方法,进一步包括用电子处理器预...
【专利技术属性】
技术研发人员:赵心言,丁海波,冯哲,
申请(专利权)人:罗伯特,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。