本发明专利技术公开了标准化标注工具的方法和设备。根据本发明专利技术的标准化标注工具的方法包括:选择与待标准化的非标准工具对应的标准工具;对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
【技术实现步骤摘要】
标准化标注工具的方法和设备
本专利技术一般地涉及自然语言处理领域。具体而言,本专利技术涉及一种标准化标注工具的方法和设备。
技术介绍
近年来,随着自然语言处理技术的发展,设计和实现了很多自然语言处理工具,如词性标注工具、句法分析工具、命名实体识别工具等。每一类别的工具又有多种类型的实现,这些不同类别的工具以及同一类别工具的不同种类的实现有可能采用不同的标注体系。这导致难以有效集成不同类别的工具,难以利用同一类别工具的不同种类实现的标注结果。例如,存在多个词性标注工具和一个句法分析工具。句法分析工具需要利用多个词性标注工具的输出结果。假设以上各个工具的标注体系均不相同。在这种情况下,词性标注工具的标注体系均不同于句法分析工具的标注体系,导致句法分析工具无法有效利用前级的数据。而且,多个词性标注工具的标注结果不能以统一的标注体系输出,不利于来自多个词性标注工具的标注结果的共同使用。可见,自然语言处理工具的标注体系不统一,阻碍了自然语言处理工具的有效集成,降低了工具之间的互操作性。因此,需要标准化标注工具的标注体系。然而,由于有很多自然语言处理工具,现有标注体系较多,每种标注体系又有很多种输出标记,所以采用人工的方式,逐个比对各个标注工具的各个标注体系的各个输出标记,以确定其对应关系是十分繁重的工作。因此,期望自动地且高效地实现标注工具的标准化。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的目的是针对现有技术的上述问题,提出了一种能够自动地、高效地标准化标注工具的方法和设备。为了实现上述目的,根据本专利技术的一个方面,提供了一种用于标准化标注工具的方法,其包括:选择与待标准化的非标准工具对应的标准工具;对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。根据本专利技术的另一个方面,提供了一种用于标准化标注工具的设备,其包括:选择装置,被配置为选择与待标准化的非标准工具对应的标准工具;相似度计算装置,被配置为:对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及确定装置,被配置为根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1示出了根据本专利技术实施例的标准化标注工具的方法的流程图;图2示出了根据本专利技术实施例的实例相似度的计算方法的流程图;图3示出了根据本专利技术实施例的实例相似度的另一计算方法的流程图;图4示出了根据本专利技术实施例的标准化标记工具的设备的结构方框图;以及图5示出了可用于实施根据本专利技术实施例的方法和设备的计算机的示意性框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。本专利技术的主要思想是为了实现标注工具的标准化,需要确定非标准工具与标注工具之间输出标记的对应关系。而输出标记又与输出标注类和输出标注属性分别存在一一对应的关系。其中,输出标注类表明被标注对象所属的类别,输出标注属性表明被标注对象所具有的属性。输出标记本身提供的信息有限,而输出标注类和输出标注属性能够提供输出标记的语义信息,可用于推测标记的意义,从而利于确定标记之间的对应关系。因此,可以根据输出标注类和/或输出标注属性的相似度来确定输出标记之间的对应关系。具体地,可以从体现输出标注类和输出标注属性的语义的标签和/或描述来计算相应的相似度。此外,专利技术人创造性地提出了实例相似度的概念,巧妙地运用了标注体系中的指示词,从实例出发,确定输出标注类和/或输出标注属性的相似度。在利用各种相似度的同时,引入了约束条件,以进一步提高结果的正确性。下面将参照图1描述根据本专利技术的实施例的标准化标注工具的方法的流程。图1示出了根据本专利技术实施例的标准化标注工具的方法的流程图。如图1所示,根据本专利技术的标注工具标准化方法,包括如下步骤:选择与待标准化的非标准工具对应的标准工具(步骤S1);对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性(步骤S2);以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系(步骤S3)。在步骤S1中,首先针对待标准化的非标准工具,选择与其对应的标注工具,也即与之具有相同功能的标注工具。可以将标注工具按功能划分为若干类别,如词性标注工具类、句法分析工具类等,并且每一种工具类中至少有一种标准的标注工具。实际上,各个工具类中包括的标准工具可以不断增加,即每当本专利技术处理一个新的标注工具时,首先判断该标注工具是否为标准工具,例如可通过将标注工具使用的本文档来自技高网...
【技术保护点】
一种用于标准化标注工具的方法,包括:选择与待标准化的非标准工具对应的标准工具;对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系。
【技术特征摘要】
1.一种用于自然语言处理的标准化标注工具的方法,包括:选择与待标准化的非标准工具对应的标准工具;对于所述非标准工具的每一个输出标注类,计算其与所述标准工具的每一个输出标注类的相似度,所述输出标注类表明被标注对象所属的类别;和/或对于所述非标准工具的每一个输出标注属性,计算其与所述标准工具的每一个输出标注属性的相似度,所述输出标注属性表明所述被标注对象所具有的属性;以及根据所述输出标注类的相似度和/或所述输出标注属性的相似度,确定所述非标准工具的标记和所述标准工具的标记之间的对应关系;其中根据标签相似度、描述相似度、实例相似度的至少一个,计算所述输出标注类的相似度和/或所述输出标注属性的相似度。2.如权利要求1所述的方法,其中通过如下步骤计算所述实例相似度:获得包含指示词的文本,所述指示词为与所述标准工具使用的标准标注体系中的标记对应的词的示例;使用所述非标准工具和所述标准工具分别对所述文本进行标注;根据所述非标准工具针对所述指示词给出的标记的出现频率,计算与所述标准工具和所述非标准工具针对所述指示词给出的标记对应的所述输出标注类和/或所述输出标注属性的实例相似度。3.如权利要求2所述的方法,其中还根据所述非标准工具针对所述指示词给出的标记所对应的概率和所述标准工具针对所述指示词给出的标记所对应的概率,计算所述实例相似度。4.如权利要求1所述的方法,其中通过计算所述输出标注类的标签之间的字符串相似度来计算所述输出标注类的标签相似度;通过计算所述输出标注属性的标签之间的字符串相似度来计算所述输出标注属性的标签相似度;以及其中通过计算所述输出标注类的描述之间的字符串相似度来计算所述输出标注类的描述相似度;通过计算所述输出标注属性的描述之间的字符串相似度来计算所述输出标注属性的描述相似度。5.如权利要求1所述的方法,其中...
【专利技术属性】
技术研发人员:缪庆亮,孟遥,于浩,
申请(专利权)人:富士通株式会社,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。