本发明专利技术公开了一种基于异构标注数据的快速序列标注方法及装置。该方法包括以下步骤:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含耦合标记集的训练数据,训练基于条件随机场的标注模型;利用标注模型对待标注的样本数据进行标注。应用本发明专利技术实施例所提供的技术方案,达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。
【技术实现步骤摘要】
本专利技术涉及自然语言处理
,特别是涉及一种基于异构标注数据的快速序列标注方法及装置。
技术介绍
随着计算机技术的快速发展,利用大规模训练数据建立统计模型,进而进行各种应用的研究越来越多,训练数据的规模直接影响着统计模型的性能。对于序列标注,不同标注数据库具有不同的标记集。比如,宾州中文树库CTB包含了约5万个标注句子,包含词边界、词性和句法结构,这些可以应用于中文分词和词性标注研究领域。人民日报语料库PD是一个大规模标注了分词和词性的标注数据库,包含约30万个标注句子。这两个标注数据库均具有不同的标记集。将不同标注数据库结合起来应用,可以扩大训练数据规模,提高统计模型的性能。但是,不同标注数据库构建的目的可能不同,比如,宾州中文树库CTB是为句法分析而设计的,人民日报语料库PD是用于支持信息提供系统的,使得不同标注数据库所具有的标记集不同,且不同标记集之间不能用启发式规则实现转换,这使得不同标注数据库很难结合起来应用。
技术实现思路
为解决上述技术问题,本专利技术提供一种基于异构标注数据的快速序列标注方法及装置。一种基于异构标注数据的快速序列标注方法,包括:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型;利用所述标注模型对待标注的样本数据进行标注。在本专利技术的一种具体实施方式中,所述根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集,包括:针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率;根据边缘概率的大小,分别确定该目标词对应于两个标注数据库的候选标记集;根据确定的候选标记集,确定该目标词对应的耦合标记集,所述耦合标记集中的每个元素包含两个候选标记,分别对应于不同标注数据库。在本专利技术的一种具体实施方式中,所述针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型,包括:提取包含所述耦合标记集的训练数据的特征;根据提取的每个特征组成的特征向量,确定基于条件随机场的标注模型的目标函数;对所述目标函数进行处理,获得提取的每个特征对应的权重。在本专利技术的一种具体实施方式中,所述对所述目标函数进行处理,获得提取的每个特征对应的权重,包括:根据所述目标函数,建立所述训练数据的似然函数;对所述似然函数进行求导计算,获得提取的每个特征对应的权重。在本专利技术的一种具体实施方式中,在所述对所述似然函数进行求导计算,获得提取的每个特征对应的权重之后,所述方法还包括:利用随机梯度下降算法,对每个权重进行优化处理。一种基于异构标注数据的快速序列标注装置,包括:初始标记集获取模块,用于获取两个归属于不同标注数据库的初始标记集;耦合标记集建立模块,用于根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;标注模型训练模块,用于针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型;序列标注模块,用于利用所述标注模型对待标注的样本数据进行标注。在本专利技术的一种具体实施方式中,所述耦合标记集建立模块,具体用于:针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率;根据边缘概率的大小,分别确定该目标词对应于两个标注数据库的候选标记集;根据确定的候选标记集,确定该目标词对应的耦合标记集,所述耦合标记集中的每个元素包含两个候选标记,分别对应于不同标注数据库。在本专利技术的一种具体实施方式中,所述标注模型训练模块,包括:特征提取子模块,用于提取包含所述耦合标记集的训练数据的特征;目标函数确定子模块,用于根据提取的每个特征组成的特征向量,确定基于条件随机场的标注模型的目标函数;权重获得子模块,用于对所述目标函数进行处理,获得提取的每个特征对应的权重。在本专利技术的一种具体实施方式中,所述权重获得子模块,具体用于:根据所述目标函数,建立所述训练数据的似然函数;对所述似然函数进行求导计算,获得提取的每个特征对应的权重向量。在本专利技术的一种具体实施方式中,所述标注模型训练模块还包括:优化子模块,用于在所述权重获得子模块对所述似然函数进行求导计算,获得提取的每个特征对应的权重之后,利用随机梯度下降算法,对每个权重进行优化处理。应用本专利技术实施例所提供的方法,通过建立归属于不同标注数据库的初始标记集之间的耦合标记集,针对包含该耦合标记集的训练数据,训练基于条件随机场的标注模型,利用该标注模型对待标注的样本数据进行标注。达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。附图说明为了更清楚的说明本专利技术实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中一种基于异构标注数据的快速序列标注方法的实施流程图;图2为本专利技术实施例中在线剪枝策略实现过程示意图;图3为本专利技术实施例中一种基于异构标注数据的快速序列标注装置的结构示意图。具体实施方式本专利技术的核心是提供一种基于异构标注数据的快速序列标注方法,该方法主要应用于要将不同标注数据库结合起来进行应用或研究的场景中。将归属于不同标注数据库的初始标记集,建立耦合标记集,针对包含耦合标记集的训练数据,训练基于条件随机场的标注模型,利用该标注模型对待标注的样本数据进行标注。这样,可以将不同标注数据库结合起来,扩大训练数据规模,提升标注模型的性能。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1所示,为本专利技术实施例所提供的一种基于异构标注数据的快速序列标注方法的实施流程图,该方法可以包括以下步骤:S110:获取两个归属于不同标注数据库的初始标记集。在本专利技术实施例中,不同标注数据库可以是异构标注数据库。比如,宾州中文树库CTB和人民日报语料库PD。每个标注数据库都分别具有一个初始标记集。在实际应用中,不同标注数据库构建目的可能不同,比如,宾州中文树库CTB是为句法分析而设计的,人民日报语料库PD是用于支持信息提取系统的。要将不同的标注数据库结合起来进行应用或研究,需先获取每个标注数据库各自的初始标记集。S120:根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集。可以理解的是,不同标注数据库所具有的初始标记集是不同的,相互之间可能并不能使用启发式规则实现转化。在本专利技术实施例中,可以根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集。在本专利技术的一种具体实施方式中,步骤S120可以包括以下步骤:步骤一:针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率。训练数据中的目标词,可以是任意一个标注数据库中的词。具体的,可以利用标注数据库a的初始标记集中标记的独立特征向量和对应的权重本文档来自技高网...
【技术保护点】
一种基于异构标注数据的快速序列标注方法,其特征在于,包括:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型;利用所述标注模型对待标注的样本数据进行标注。
【技术特征摘要】
1.一种基于异构标注数据的快速序列标注方法,其特征在于,包括:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型;利用所述标注模型对待标注的样本数据进行标注。2.根据权利要求1所述的方法,其特征在于,所述根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集,包括:针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率;根据边缘概率的大小,分别确定该目标词对应于两个标注数据库的候选标记集;根据确定的候选标记集,确定该目标词对应的耦合标记集,所述耦合标记集中的每个元素包含两个候选标记,分别对应于不同标注数据库。3.根据权利要求1或2所述的方法,其特征在于,所述针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型,包括:提取包含所述耦合标记集的训练数据的特征;根据提取的每个特征组成的特征向量,确定基于条件随机场的标注模型的目标函数;对所述目标函数进行处理,获得提取的每个特征对应的权重。4.根据权利要求3所述的方法,其特征在于,所述对所述目标函数进行处理,获得提取的每个特征对应的权重,包括:根据所述目标函数,建立所述训练数据的似然函数;对所述似然函数进行求导计算,获得提取的每个特征对应的权重。5.根据权利要求4所述的方法,其特征在于,在所述对所述似然函数进行求导计算,获得提取的每个特征对应的权重之后,所述方法还包括:利用随机梯度下降算法,对每个权重进行优化处理。6.一种基于异构标注数据的快速序列标注装置...
【专利技术属性】
技术研发人员:李正华,巢佳媛,张民,
申请(专利权)人:苏州大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。