用于实体标注的方法和装置制造方法及图纸

技术编号：31154911 阅读：13 留言：0更新日期：2021-12-04 09:45

本申请提供了一种用于实体标注的方法和装置。该方法中，处理器可以结合N个样本集对应的N个掩码向量更新第一序列标注模型。由于每个掩码向量的M个维度对应M个命名实体，这样每个掩码向量能够体现关注部分命名实体，不关注剩余部分命名实体，这样，可以在一次更新序列标注模型中，处理器可以调整部分命名实体对应的参数，不调整剩余部分命名实体对应的参数，经过一次或多次更新后，第二序列标注模型可以预测不同语料的预测语句，避免需要为M个样本集训练M个不同的实体标注模型，能够降低复杂度，有助于提高实体标注的性能。示例性地，该方法和装置可以应用于人工智能领域。法和装置可以应用于人工智能领域。法和装置可以应用于人工智能领域。

全部详细技术资料下载

【技术实现步骤摘要】
用于实体标注的方法和装置

[0001]本申请涉及人工智能(artificial intelligence，AI)领域，并且更具体地涉及AI领域中的用于实体标注的方法和装置。

技术介绍

[0002]命名实体识别(named entity recognition，NER)是自然语言处理(natural language processing，NLP)中的一项基础任务。NER能够识别人名、地名、组织机构名、日期时间等类别的实体，从而可以利用识别的实体进行信息抽取、信息检索、句法分析、语义角色标注等。
[0003]在NER中可以将输入语句输入序列标注模型，从而输出各个词语的标签。在现有技术中，利用特定语料训练的序列标注模型，只能适用于特定的输入语句，例如，训练序列标注模型的样本集的训练语句包括电影语料，则输入序列标注模型进行预测的输入语句需要包括电影，则才能预测标签，如果输入语句包括电影和电视剧，则只能预测电影不能预测电视剧。如果有多种不同语料的多个输入语句，则需要训练不同语料或不同语料组合的多个序列标注模型，则会导致复杂度高。并且为了预测输入语句的标签需要并发运行多个序列标注模型，在多个序列标注模型中匹配适合输入语句的序列标注模型，导致计算量大，复杂度高。

技术实现思路

[0004]本申请实施例提供了一种用于实体标注的方法和装置，能够降低复杂度，有助于提高实体标注的性能。
[0005]第一方面，提供了一种用于实体标注的方法，方法可由处理器或者处理模模块执行，方法包括：确定N个样本集的N个掩码...

【技术保护点】

【技术特征摘要】
1.一种用于实体标注的方法，其特征在于，包括：确定N个样本集的N个掩码向量，所述N个样本集与所述N个掩码向量一一对应，所述N个样本集中不同样本集对应的实体语料不同，所述N个样本集中每个样本集包括至少一个实体语料的多个样本，所述N个掩码向量中每个掩码向量的M个维度对应M个命名实体，M和N为正整数；根据所述N个样本集中每个样本集中的部分样本和所述N个掩码向量更新第一序列标注模型，得到第二序列标注模型，所述第二序列标注模型用于实体标注。2.根据权利要求1所述的方法，其特征在于，所述根据所述N个样本集中每个样本集中的部分样本和所述N个掩码向量更新第一序列标注模型，包括：将所述N个样本集中的第一样本集中的第一样本中的第一词语输入到所述第一序列标注模型中，输出所述第一词语的权重向量；将所述第一词语的实际标签向量与所述权重向量输入到损失函数中，计算所述第一词语的损失向量；将所述损失向量和所述第一样本集对应的第一掩码向量相乘，得到掩码后的所述损失向量；根据所述掩码后的所述损失向量更新所述第一序列标注模型；其中，所述权重向量、所述实际标签向量和所述损失向量的维度为M。3.根据权利要求2所述的方法，其特征在于，所述第一词语为所述第一样本中的实体词。4.根据权利要求2或3所述的方法，其特征在于，所述损失函数为交叉熵函数。5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：根据所述N个样本集中每个样本集中的剩余样本测试所述第二序列标注模型的稳定性。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：将预测语句中的第二实体词输入到所述第二序列标注模型，输出预测向量；根据所述预测向量确定所述第二实体词的至少一个标签，所述预测语句为包括所述N个样本集中任一样本集对应的实体语料的语句；其中，所述预测向量的维度为M。7.根据权利要求6所述的方法，其特征在于，所述根据所述预测向量确定所述第二实体词的至少一个标签，包括：确定所述预测向量每个维度的取值是否大于预设值；将所述预测向量中取值大于预设值的维度对应的命名实体标签确定为所述第二实体词的所述至少一个标签。8.根据权利要求1至7中任一项所述的方法，其特征在于，所述确定N个样本集的N个掩码向量，包括：确定所述N个掩码向量中每个掩码向量的维度为所述N个样本集对应的实体语料种类的总数量；根据所述N个样本集中每个样本集对应的实体语料确定所述N个掩码向量每个掩码向量对应的取值。
9.一种用于实体标注的装置，其特征在于，包括：确定单元，用于确定N个样本集的N个掩码向量，所述N个样本集与所述N个掩码向量一一对应，所述N个样本集中不同样本集对应...

【专利技术属性】
技术研发人员：孟函可，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人