【技术实现步骤摘要】
数据处理方法、装置及设备
[0001]本文件涉及数据处理
,尤其涉及一种数据处理方法、装置及设备。
技术介绍
[0002]命名实体识别在自然语言处理领域中占据十分重要的位置,如在问答系统、知识库构建等应用场景中,可以通过构建实体识别模型,对自然语言文本中包含的实体进行识别,以通过识别出的实体确定对应的问答策略或构建对应的知识库等。
[0003]可以通过人工达标的方式确定用于训练实体识别模型的样本数据对应的标签,但是,由于人工标注的标签的准确性差,通过该样本数据训练得到的实体识别模型的实体识别的准确性差,因此,需要一种能够提高命名实体识别准确性的方案。
技术实现思路
[0004]本说明书实施例的目的是提供一种能够提高命名实体识别准确性的方案。
[0005]为了实现上述技术方案,本说明书实施例是这样实现的:
[0006]第一方面,本说明书实施例提供的一种数据处理方法,包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对所述第一模型进行迭代训练,并在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型;基于所述初步训练的第一模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的预测实体类型的概率分布,确定所述初步训练的第一模型对应的预测熵;基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,并基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型。2.根据权利要求1所述的方法,所述方法还包括:基于第二损失函数、所述文本数据样本及所述文本数据样本包含的词对应的实体类型标签,对第二模型进行迭代训练,并在所述第二模型满足所述预设收敛条件的情况下,得到初步训练的第二模型,所述第二模型与所述第一模型的模型结构相同;通过所述初步训练的第二模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的第一预测实体类型;基于所述文本数据样本包含的词对应的实体类型标签和第一预测实体类型,将所述文本数据样本包含的词划分为第一样本和包含噪声的第二样本;所述基于所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到训练后的第一模型,包括:基于所述第一样本、所述更新后的第一损失函数对所述初步训练的第一模型进行迭代训练,直到所述第一模型收敛,得到所述训练后的第一模型。3.根据权利要求2所述的方法,所述方法还包括:通过所述初步训练的第一模型对所述文本数据样本进行实体识别处理,得到所述文本数据样本包含的词对应的第二预测实体类型;基于所述文本数据样本包含的词对应的实体类型标签和第二预测实体类型,将所述文本数据样本包含的词划分为第三样本和包含噪声的第四样本;基于所述初步训练的第二模型对所述文本数据样本进行实体识别处理得到的所述文本数据样本包含的词对应不同的所述预测实体类型的概率分布,确定所述初步训练的第二模型对应的预测熵;基于所述初步训练的第二模型对应的预测熵,对所述第二损失函数中的参数进行更新处理,得到更新后的第二损失函数,并基于所述第三样本和所述更新后的第二损失函数对所述初步训练的第二模型进行迭代训练,直到所述第二模型收敛,得到训练后的第二模型。4.根据权利要求3所述的方法,所述基于所述文本数据样本包含的词对应的实体类型标签和第二预测实体类型,将所述文本数据样本包含的词划分为第三样本和包含噪声的第四样本,包括:通过所述初步训练的第二模型对所述文本数据样本进行实体识别处理,得到所述文本
数据样本包含的词对应的第二预测实体类型的概率值;基于所述文本数据样本包含的词对应的实体类型标签、所述文本数据样本包含的词对应的第二预测实体类型的概率值以及预设概率阈值,将所述文本数据样本包含的词划分为所述第三样本和所述包含噪声的第四样本。5.根据权利要求3所述的方法,所述方法还包括:对所述训练后的第一模型和所述训练后的第二模型进行模型集成处理,得到用于对文本数据进行实体识别处理的目标模型。6.根据权利要求1所述的方法,所述基于所述初步训练的第一模型对应的预测熵,对所述第一损失函数中的参数进行更新处理,得到更新后的第一损失函数,包括:基于所述初步训练的第一模型的预测熵、初始预测熵以及所述实体类型标签的个数,对所述第一损失函数中的参数进行更新处理,得到所述更新后的第一损失函数。7.根据权利要求1所述的方法,在所述在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型之前,还包括:在所述第一模型的迭代次数到达预设迭代次数的情况下,确定所述第一模型满足所述预设收敛条件。8.根据权利要求1所述的方法,在所述在所述第一模型满足预设收敛条件的情况下,得到初步训练的第一模型之前,还包括:在当前迭代结束后所述第一模型的实体识别准确率小于上一次迭代结束后所述第一模型的实体识别准确率的情况下,确定所述第一模型满足所述预设收敛条件。9.根据权利要求1所述的方法,所述获取所述文本数据样本包含的词对应的实体类型标签,包括:基于预设数据库对所述文本数据样本中包含的词进行匹配处理,并将所述预设数据库中与所述文本数据样本包含的词相匹配的词对应的实体类型标签,确定为所述文本数据样本包含的词对应的实体类型标签。10.根据权利要求2所述的方法,所述第一损失函数和所述第二损失函数为广义交叉熵损失函数。11.一种数据处理方法,包括:在检测到目标用户触发执行目标业务的情况下,基于获取的目标信息确定待识别的目标文本数据,所述目标信息包括所述目标用户触发执行所述目标业务所需的信息,和/或所述目标用户针对触发执行所述目标业务的交互信息;将所述目标文本数据输入所述训练后的第一模型,得到所述目标文本数据对应的预测实体类型;基于所述目标文本数据对应的预测实体类型,确定候选话术中与所述目标用户触发执行所述目标业务匹配的目标话术,并输出所述目标话术;其中,所述第一模型的训练过程包括:获取用于训练第一模型的文本数据样本,以及所述文本数据样本包含的词对应的实体类型标签;基于第一损失函数、所述文本数据样本及所述文...
【专利技术属性】
技术研发人员:马志远,张蝶,周书恒,都金涛,周欣欣,杨淑娟,祝慧佳,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。