一种模型生成方法、实体识别方法、装置及存储介质制造方法及图纸

技术编号：23605267 阅读：27 留言：0更新日期：2020-03-28 06:12

本申请提供一种模型生成方法、实体识别方法、装置及存储介质，所述方法包括：将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率；根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；根据识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一目标路径得分大于所有路径得分中未被选取的路径得分；根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；根据训练损失对神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

A model generation method, entity recognition method, device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
一种模型生成方法、实体识别方法、装置及存储介质
本申请涉及实体识别
，具体而言，涉及一种模型生成方法、实体识别方法、装置及存储介质。
技术介绍
在生产环境中,判别模型的训练任务时,往往标签类别的数量较多,很容易出现标签不均衡的情况.这给模型的泛化能力带来了很大损害。现有技术一般通过数据增强，对不同标签进行上采样和下采样的方式来解决上述问题，但在数据增强中上采样对低分布标签进行重复采样存在着模型过拟合的问题；同时高分布标签的下采样存在着会让模型的学习范围无法覆盖到整个数据集的问题。
技术实现思路
本申请实施例的目的在于提供一种模型生成方法、实体识别方法、装置及存储介质，用以解决在数据增强中上采样对低分布标签进行重复采样存在的模型过拟合的问题；同时高分布标签的下采样存在的会让模型的学习范围无法覆盖到整个数据集的问题。第一方面，实施例提供一种模型生成方法，所述方法包括：将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率；根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分、以及最佳路径得分；根据所述识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一所述目标路径得分大于所述所有路径得分中未被选取的路径得分；根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；根据所述训练损失对所述神经网络模型的各个参数进行迭代更新，以得到实体识别模型。r>在上述设计的模型生成方法中，在神经网络模型的训练过程中，在计算得到所有路径得分，真实路径得分以及最佳路径得分之后，还会从所有路径得分数值中按照由大到小选取预设数量的路径得分，进而根据所有路径得分，真实路径得分、最佳路径得分以及选取的路径得分计算损失函数值，这样使得选取的路径得分值的大小含有更多的预测置信度信息，解决了数据标签不平衡对模型带来的影响：解决了目前在数据增强中上采样对低分布标签进行重复采用存在着的模型过拟合问题；同时解决了对高分布标签的下采样存在着会让模型的学习范围无法覆盖到整个数据集的问题。在第一方面的可选实施方式中，所述预先构建的损失函数Loss为：其中，β为超参，取值为0-1；Sr表示为标签真实路径得分；Sj表示为从j到n的所有路径得分；Sb表示为最佳路径得分；Sk表示为目标路径得分，k为选取的目标路径得分个数。在上述设计的损失函数中，选取的目标路径得分越高或者分布越均匀，说明模型整体对序列标签预测的置信度更低，则此序列对应的标签属于难识别的样本，在后续的损失函数中会给其更大值，进而强化神经网络模型对难识别样本的学习程度；选取的目标路径得分越低或者目标路径的平均得分与最佳路径得分相差较大，说明模型整体对序列标签预测的置信度越高，则此路径对应的标签属于易识别标签，在后面的损失函数中会给其更小值，减弱模型对易识别的样本的学习程度，这样CRF输出的序列便包涵了更多的预测置信度信息，解决了数据标签不平衡对模型带来的影响。在第一方面的可选实施方式中，所述根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分，包括：通过维比特算法根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分、以及最佳路径得分。在第一方面的可选实施方式中，所述预设的神经网络模型可为BERT-BiLSTM模型。第二方面，实施例提供一种实体识别方法，所述方法包括：将待实体识别的语句中的每个单词输入实体识别模型，所述实体识别模型为第一方面中任一可选实施方式生成的所述实体识别模型；获得所述实体识别模型的识别结果，所述识别结果表示为对所述待实体识别的语句中每个单词的预测标签。在上述设计的实体识别方法中，通过前述设计得到的实体识别模型进行待实体识别的语句识别，进而对该待实体识别语句中每个单词的标签进行预测，获得每个单词的预测标签，由于前述设计的实体识别模型解决数据标签不平衡对模型带来的影响，因此，本实体识别方法对实体的总体识别准确率更高。第三方面，实施例提供一种模型生成装置，所述装置包括：输入模块，用于将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率；计算模块，用于根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；选取模块，用于根据所述识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一所述目标路径得分大于所述所有路径得分中未被选取的路径得分；所述计算模块，还用于根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；迭代更新模块，用于根据所述训练损失对所述神经网络模型的各个参数进行迭代更新，以得到实体识别模型。在上述设计的模型生成装置中，在神经网络模型的训练过程中，在计算得到所有路径得分，真实路径得分以及最佳路径得分之后，还会从所有路径得分数值中按照由大到小选取预设数量的路径得分，进而根据所有路径得分，真实路径得分、最佳路径得分以及选取的路径得分计算损失函数值，这样使得选取的路径得分值的大小含有更多的预测置信度信息，解决了数据标签不平衡对模型带来的影响：解决了目前在数据增强中上采样对低分布标签进行重复采用存在着的模型过拟合问题；同时解决了对高分布标签的下采样存在着会让模型的学习范围无法覆盖到整个数据集的问题。在第三方面的可选实施方式中，所述预先构建的损失函数Loss为：其中，β为超参，取值为0-1；Sr表示为标签真实路径得分；Sj表示为从j到n的所有路径得分；Sb表示为最佳路径得分；Sk表示为目标路径得分，k为选取的目标路径得分个数。在第三方面的可选实施方式中，所述计算模块具体用于通过维比特算法根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分。第四方面，实施例提供一种实体识别装置，所述装置包括：输入模块，用于将待实体识别的语句中的每个单词输入实体识别模型，所述实体识别模型为第一方面中任一可选实施方式生成的所述实体识别模型；获得模块，用于获得所述实体识别模型的识别结果，所述识别结果表示为对所述待实体识别的语句中每个单词的预测标签。在上述设计的实体识别装置中，通过前述设计得到的实体识别模型进行待实体识别的语句识别，进而对该待实体识别语句中每个单词的标签进行预测，获得每个单词的预测标签，由于前述设计的实体识别模型解决数据标签不平衡对模型带来的影响，因此，本实体识别方法对实体的总体识别准确率更高。第五方面，实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式中的所述方法。第六方面，实施例提供一种非暂态可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时执行第一方面、第一方面的任一可本文档来自技高网...

【技术保护点】
1.一种模型生成方法，其特征在于，所述方法包括：/n将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率：/n根据每个类别标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；/n根据所述识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一所述目标路径得分大于所述所有路径得分中未被选取的路径得分；/n根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；/n根据所述训练损失对所述神经网络模型的各个参数进行迭代更新，以得到实体识别模型。/n

【技术特征摘要】
1.一种模型生成方法，其特征在于，所述方法包括：
将识别语句中的每个单词输入预设的神经网络模型，以获得每个单词的类别标签对应的预测概率：
根据每个类别标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分；
根据所述识别语句的长度及类别标签的数量、所有路径得分的数值选取预设数量的多个目标路径得分，其中，每一所述目标路径得分大于所述所有路径得分中未被选取的路径得分；
根据标签真实路径得分、所有路径得分、最佳路径得分以及目标路径得分，通过预先构建的损失函数计算对应的训练损失；
根据所述训练损失对所述神经网络模型的各个参数进行迭代更新，以得到实体识别模型。

2.根据权利要求1所述方法，其特征在于，所述预先构建的损失函数Loss为：

其中，β为超参，取值为0-1；Sr表示为标签真实路径得分；Sj表示为从j到n的所有路径得分；Sb表示为最佳路径得分；Sk表示为目标路径得分，k为选取的目标路径得分个数。

3.根据权利要求1所述方法，其特征在于，所述根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分，包括：
通过维比特算法根据每个标签对应的预测概率计算标签所有路径得分、真实路径得分以及最佳路径得分。

4.根据权利要求1所述方法，其特征在于，所述预设的神经网络模型包括BERT-BiLSTM模型。

5.一种实体识别方法，其特征在于，所述方法包括：
将待实体识别的语句中的每个单词输入实体识别模型，所述实体识别模型为所述权利要求1-4中任一项生成的所述实体识别模型；
获得所述实体识别模型的识别结果，所述识别结果包括待实体识别的语句中每个单词的预测标签。

6.一种模型生成...

【专利技术属性】
技术研发人员：杨焱麒，
申请(专利权)人：北京知道智慧信息技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人