用于实体标注的方法和装置制造方法及图纸

技术编号:31154911 阅读:13 留言:0更新日期:2021-12-04 09:45
本申请提供了一种用于实体标注的方法和装置。该方法中,处理器可以结合N个样本集对应的N个掩码向量更新第一序列标注模型。由于每个掩码向量的M个维度对应M个命名实体,这样每个掩码向量能够体现关注部分命名实体,不关注剩余部分命名实体,这样,可以在一次更新序列标注模型中,处理器可以调整部分命名实体对应的参数,不调整剩余部分命名实体对应的参数,经过一次或多次更新后,第二序列标注模型可以预测不同语料的预测语句,避免需要为M个样本集训练M个不同的实体标注模型,能够降低复杂度,有助于提高实体标注的性能。示例性地,该方法和装置可以应用于人工智能领域。法和装置可以应用于人工智能领域。法和装置可以应用于人工智能领域。

【技术实现步骤摘要】
用于实体标注的方法和装置


[0001]本申请涉及人工智能(artificial intelligence,AI)领域,并且更具体地涉及AI领域中的用于实体标注的方法和装置。

技术介绍

[0002]命名实体识别(named entity recognition,NER)是自然语言处理(natural language processing,NLP)中的一项基础任务。NER能够识别人名、地名、组织机构名、日期时间等类别的实体,从而可以利用识别的实体进行信息抽取、信息检索、句法分析、语义角色标注等。
[0003]在NER中可以将输入语句输入序列标注模型,从而输出各个词语的标签。在现有技术中,利用特定语料训练的序列标注模型,只能适用于特定的输入语句,例如,训练序列标注模型的样本集的训练语句包括电影语料,则输入序列标注模型进行预测的输入语句需要包括电影,则才能预测标签,如果输入语句包括电影和电视剧,则只能预测电影不能预测电视剧。如果有多种不同语料的多个输入语句,则需要训练不同语料或不同语料组合的多个序列标注模型,则会导致复杂度高。并且为了预测输入语句的标签需要并发运行多个序列标注模型,在多个序列标注模型中匹配适合输入语句的序列标注模型,导致计算量大,复杂度高。

技术实现思路

[0004]本申请实施例提供了一种用于实体标注的方法和装置,能够降低复杂度,有助于提高实体标注的性能。
[0005]第一方面,提供了一种用于实体标注的方法,方法可由处理器或者处理模模块执行,方法包括:确定N个样本集的N个掩码向量,N个样本集与N个掩码向量一一对应,N个样本集中不同样本集对应的实体语料不同,N个样本集中每个样本集包括至少一个实体语料的多个样本,N个掩码向量中每个掩码向量的M个维度对应M个命名实体,M和N为正整数;
[0006]根据N个样本集中每个样本集中的部分样本和N个掩码向量更新第一序列标注模型,得到第二序列标注模型,第二序列标注模型用于实体标注。
[0007]在上述技术方案中,一个样本集对应一个掩码向量,不同样本集对应的实体语料不同,换句话说,不同语料的样本集掩码向量不同,处理器可以结合N个样本集对应的N个掩码向量更新第一序列标注模型。由于每个掩码向量的M个维度对应M个命名实体,这样每个掩码向量能够体现关注部分命名实体,不关注剩余部分命名实体,这样,可以在一次更新序列标注模型中,处理器可以调整部分命名实体对应的参数,不调整剩余部分命名实体对应的参数,经过一次或多次更新后,第二序列标注模型可以预测不同语料的预测语句,避免需要为M个样本集训练M个不同的实体标注模型,能够降低复杂度,有助于提高实体标注的性能。
[0008]可选地,N个掩码向量用于掩码根据N个样本集得到的多个损失向量,掩码后的多
个损失向量用于更新第一序列标注模型。可选地,处理器将N个样本集每个样本集的训练语句的词语输入到更新前的第一序列标注模型得到每个词语的权重向量,处理器根据将每个词语的权重向量和每个词语的实际标签输入到损失函数中,得到多个损失向量。
[0009]N个样本集中不同样本集对应的实体语料不同可以理解为:N个样本集中不同样本集对应的实体语料不完全相同。具体地,上述N个样本集中第一样本集对应第一实体语料,第二样本集对应第二实体语料,第一实体语料与第二实体语料完全不同,或者,第一实体语料与第二实体语料可以存在部分语料相同。换句话说,N个样本集中不同样本集对应的实体语料完全不同或者部分相同部分不同。
[0010]上述N个样本集中不同样本集对应的实体语料的数量相同语料种类不同(存在至少一个语料的种类不同),或者,不同样本集对应的实体语料的数量不同语料种类存在至少一个相同,或者不同样本集对应的实体语料的数量不同语料种类也不同。
[0011]上述N个样本集中一个样本集中包括至少一个实体语料的训练语句,同一样本集中包括的不同训练语句对应相同的实体语料。
[0012]上述N个掩码向量中每个掩码向量的维度相同,都为M维向量。
[0013]上述N个掩码向量中每个掩码向量的一个维度对应一个命名实体,M维的掩码向量与M个命名实体一一对应,N个掩码向量共对应M个命名实体。
[0014]不同的实体语料包括不同的命名实体,例如,第一实体语料包括第一命名实体,第二实体语料包括第二命名实体,第一命名实体与第二命名实体不完全相同。
[0015]可选地,每个掩码向量由0和1组成。
[0016]需要说明的是,上述方案中可以更新一次或多次第一序列标注模型,每更新完一次第一序列标注模型之后,更新完的可以继续称之为第一序列标注模型,这样经过一次或多次更新之后,可以得到第二序列标注模型。
[0017]上述N个样本集中每个样本集由测试集和训练集组成,训练集中的样本用于更新第一序列标注模型,测试集中的样本用于测试第二序列标注模型的稳定性。每个样本集的中样本是包括实体词的语句,在测试集中的样本可以称为测试语句,在训练集中的样本可以称为训练语句。
[0018]在一些可能的实现方式中,根据N个样本集中每个样本集中的部分样本和N个掩码向量更新第一序列标注模型,包括:
[0019]将N个样本集中的第一样本集中的第一样本中的第一词语输入到第一序列标注模型中,输出第一词语的权重向量;
[0020]将第一词语的实际标签向量与权重向量输入到损失函数中,计算第一词语的损失向量;
[0021]将损失向量和第一样本集对应的第一掩码向量相乘,得到掩码后的损失向量;根据掩码后的损失向量更新第一序列标注模型;
[0022]其中,权重向量、实际标签向量和损失向量的维度为M。
[0023]在上述方案中,在更新第一序列标注模型时,以第一词语为例,可以将第一词语输入第一序列标注模型,得到第一词语的权重向量,权重向量在一定程度上能体现第一词语被标记为哪个标签的可能性,利用权重向量与第一词语的实际标签向量计算损失向量,并利用第一掩码向量掩码损失向量,这样,在利用掩码后的损失向量更新第一序列标注模型
时,只调整掩码向量非零位置对应的命名实体的参数,不调整掩码向量零位置对应的命名实体的参数,从而可以使得更新后的第一序列标注模型更接近于掩码向量非零位置对应的命名实体的序列标注模型,从而可以提高第二序列标注模型的准确性。
[0024]上述第一词语的权重向量的维度、第一词语的实际标签向量的维度、损失向量的维度、每个掩码向量的维度和掩码后的损失向量的维度相同。
[0025]可选地,上述的损失函数为交叉熵(cross-entropy)函数。
[0026]需要理解的是,在本申请中,两个向量相乘可以为点乘运算,点乘运算为两个向量对应元素相乘。
[0027]在一些可能的实现方式中,第一词语为第一样本中的实体词,而不是非实体词,这样,可以提高更新第一序列标注模型的效率。
[0028]在一些可能的实现方式中,方法还包括:根据N个样本集中每个样本集中的剩余样本测试第二序列标注模型的稳定性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于实体标注的方法,其特征在于,包括:确定N个样本集的N个掩码向量,所述N个样本集与所述N个掩码向量一一对应,所述N个样本集中不同样本集对应的实体语料不同,所述N个样本集中每个样本集包括至少一个实体语料的多个样本,所述N个掩码向量中每个掩码向量的M个维度对应M个命名实体,M和N为正整数;根据所述N个样本集中每个样本集中的部分样本和所述N个掩码向量更新第一序列标注模型,得到第二序列标注模型,所述第二序列标注模型用于实体标注。2.根据权利要求1所述的方法,其特征在于,所述根据所述N个样本集中每个样本集中的部分样本和所述N个掩码向量更新第一序列标注模型,包括:将所述N个样本集中的第一样本集中的第一样本中的第一词语输入到所述第一序列标注模型中,输出所述第一词语的权重向量;将所述第一词语的实际标签向量与所述权重向量输入到损失函数中,计算所述第一词语的损失向量;将所述损失向量和所述第一样本集对应的第一掩码向量相乘,得到掩码后的所述损失向量;根据所述掩码后的所述损失向量更新所述第一序列标注模型;其中,所述权重向量、所述实际标签向量和所述损失向量的维度为M。3.根据权利要求2所述的方法,其特征在于,所述第一词语为所述第一样本中的实体词。4.根据权利要求2或3所述的方法,其特征在于,所述损失函数为交叉熵函数。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:根据所述N个样本集中每个样本集中的剩余样本测试所述第二序列标注模型的稳定性。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:将预测语句中的第二实体词输入到所述第二序列标注模型,输出预测向量;根据所述预测向量确定所述第二实体词的至少一个标签,所述预测语句为包括所述N个样本集中任一样本集对应的实体语料的语句;其中,所述预测向量的维度为M。7.根据权利要求6所述的方法,其特征在于,所述根据所述预测向量确定所述第二实体词的至少一个标签,包括:确定所述预测向量每个维度的取值是否大于预设值;将所述预测向量中取值大于预设值的维度对应的命名实体标签确定为所述第二实体词的所述至少一个标签。8.根据权利要求1至7中任一项所述的方法,其特征在于,所述确定N个样本集的N个掩码向量,包括:确定所述N个掩码向量中每个掩码向量的维度为所述N个样本集对应的实体语料种类的总数量;根据所述N个样本集中每个样本集对应的实体语料确定所述N个掩码向量每个掩码向量对应的取值。
9.一种用于实体标注的装置,其特征在于,包括:确定单元,用于确定N个样本集的N个掩码向量,所述N个样本集与所述N个掩码向量一一对应,所述N个样本集中不同样本集对应...

【专利技术属性】
技术研发人员:孟函可
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1