文本数据的检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号：30083795 阅读：10 留言：0更新日期：2021-09-18 08:42

本申请涉及计算机技术领域，具体涉及一种文本数据的检测方法、装置、电子设备及存储介质，包括：获取样本数据集；将文本数据样本输入至预先训练的文本分类模型，得到多个预设文本类别的分类概率，并根据分类概率确定文本数据样本的第一概率统计值；从样本数据集中选取部分文本数据样本，并将部分文本数据样本的样本标签统一替换为替代样本标签；将带有替代样本标签的文本数据样本输入文本分类模型，得到多个文本类别的分类概率，并根据分类概率确定带有替代样本标签的文本数据样本的第二概率统计值；根据第一概率统计值与第二概率统计值之间的数值关系确定文本数据样本的样本标签是否标注正确。采用本申请提供的方法能提高文本数据样本的样本标签的正确率。数据样本的样本标签的正确率。数据样本的样本标签的正确率。

全部详细技术资料下载

【技术实现步骤摘要】
文本数据的检测方法、装置、电子设备及存储介质

[0001]本申请涉及计算机
，尤其涉及一种文本数据的检测方法、装置、电子设备及存储介质。

技术介绍

[0002]文本分类在文本处理中是一个很重要的模块，应用十分广泛。在文本分类中标注数据的质量是非常重要的，它关系到分类模型的实际效果。在实际训练中，需要大量的标注数据，如果使用标注错误的数据参与分类模型训练，会导致分类正确率降低，分类错误的情况增多，影响到整个分类表现。
[0003]一般的数据标注由人为设计规则，再由人操作计算机完成。但有时数据集十分庞大，而且针对某些特殊情况或者场景制定的数据比较特殊或者重要，需要众包人员标注。处理时由于设计规则本身存在偏差或者欠考虑，人为操作可能存在问题，常常出现错误标注的数据，混杂在正确标注的数据之中，在后续的训练中影响到了分类表现。由于正确标注的数据占比大，对于错标注数据的排查困难，一般采取的人为勘误耗时耗力，成本太高。

技术实现思路

[0004]为了解决现有技术中由于人为检查错误标注的文本数据成本太高的问题，本申请提供了一种文本数据的检测方法、装置、电子设备及存储介质。
[0005]根据本申请实施例的一个方面，提供了一种文本数据的检测方法，所述方法包括：获取样本数据集，所述样本数据集包括带有样本标签的文本数据样本，所述样本标签用于标识所述文本数据样本的文本类别；将所述文本数据样本输入至预先训练的文本分类模型，得到所述文本分类模型输出的对应于多个预设文本类别的分类概率，并根据所述分类概率确定所述...

【技术保护点】

【技术特征摘要】
1.一种文本数据的检测方法，其特征在于，所述方法包括：获取样本数据集，所述样本数据集包括带有样本标签的文本数据样本，所述样本标签用于标识所述文本数据样本的文本类别；将所述文本数据样本输入至预先训练的文本分类模型，得到所述文本分类模型输出的对应于多个预设文本类别的分类概率，并根据所述分类概率确定所述文本数据样本的第一概率统计值；从所述样本数据集中选取部分文本数据样本，并将所述部分文本数据样本的样本标签统一替换为替代样本标签，所述替代样本标签用于标识除所述多个预设文本类别以外的其他文本类别；将带有所述替代样本标签的文本数据样本输入所述文本分类模型，得到所述文本分类模型输出的对应于多个文本类别的分类概率，并根据所述分类概率确定所述带有所述替代样本标签的文本数据样本的第二概率统计值；根据所述第一概率统计值与所述第二概率统计值之间的数值关系确定所述文本数据样本的样本标签是否标注正确。2.根据权利要求1所述的文本数据的检测方法，其特征在于，根据所述分类概率确定所述文本数据样本的第一概率统计值包括：获取对应于所述样本标签的目标概率，并获取除所述目标概率以外的其他分类概率中的最大概率；根据所述目标概率与所述最大概率确定所述文本数据样本的第一概率统计值。3.根据权利要求2所述的文本数据的检测方法，其特征在于，根据所述目标概率与所述最大概率确定所述文本数据样本的第一概率统计值包括：对所述目标概率与所述最大概率进行差值计算，得到所述目标概率与所述最大概率的差值；对所述目标概率与所述最大概率的差值进行平均值计算，得到所述文本数据样本的第一概率统计值。4.根据权利要求3所述的文本数据的检测方法，其特征在于，对所述目标概率与所述最大概率进行差值计算，得到所述目标概率与所述最大概率的差值包括按照如下公式计算所述目标概率与所述最大概率的差值：式中，M
(t)
(x，y)为t代训练后所述目标概率与所述最大概率的差值，x表示样本数据，y表示样本标签，t表示训练迭代数，表示样本数据通过t代训练后输出的对应于所述样本标签的目标概率值，表示t代训练后，除所述目标概率以外的其他分类概率中的最大概率值。5.根据权利要求3所述的文本数据的检测方法，其特征在于，对所述目标概率与所述最大概率的差值进行平均值计算，得到...

【专利技术属性】
技术研发人员：司世景，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人