文本数据的检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:30083795 阅读:10 留言:0更新日期:2021-09-18 08:42
本申请涉及计算机技术领域,具体涉及一种文本数据的检测方法、装置、电子设备及存储介质,包括:获取样本数据集;将文本数据样本输入至预先训练的文本分类模型,得到多个预设文本类别的分类概率,并根据分类概率确定文本数据样本的第一概率统计值;从样本数据集中选取部分文本数据样本,并将部分文本数据样本的样本标签统一替换为替代样本标签;将带有替代样本标签的文本数据样本输入文本分类模型,得到多个文本类别的分类概率,并根据分类概率确定带有替代样本标签的文本数据样本的第二概率统计值;根据第一概率统计值与第二概率统计值之间的数值关系确定文本数据样本的样本标签是否标注正确。采用本申请提供的方法能提高文本数据样本的样本标签的正确率。数据样本的样本标签的正确率。数据样本的样本标签的正确率。

【技术实现步骤摘要】
文本数据的检测方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本数据的检测方法、装置、电子设备及存储介质。

技术介绍

[0002]文本分类在文本处理中是一个很重要的模块,应用十分广泛。在文本分类中标注数据的质量是非常重要的,它关系到分类模型的实际效果。在实际训练中,需要大量的标注数据,如果使用标注错误的数据参与分类模型训练,会导致分类正确率降低,分类错误的情况增多,影响到整个分类表现。
[0003]一般的数据标注由人为设计规则,再由人操作计算机完成。但有时数据集十分庞大,而且针对某些特殊情况或者场景制定的数据比较特殊或者重要,需要众包人员标注。处理时由于设计规则本身存在偏差或者欠考虑,人为操作可能存在问题,常常出现错误标注的数据,混杂在正确标注的数据之中,在后续的训练中影响到了分类表现。由于正确标注的数据占比大,对于错标注数据的排查困难,一般采取的人为勘误耗时耗力,成本太高。

技术实现思路

[0004]为了解决现有技术中由于人为检查错误标注的文本数据成本太高的问题,本申请提供了一种文本数据的检测方法、装置、电子设备及存储介质。
[0005]根据本申请实施例的一个方面,提供了一种文本数据的检测方法,所述方法包括:获取样本数据集,所述样本数据集包括带有样本标签的文本数据样本,所述样本标签用于标识所述文本数据样本的文本类别;将所述文本数据样本输入至预先训练的文本分类模型,得到所述文本分类模型输出的对应于多个预设文本类别的分类概率,并根据所述分类概率确定所述文本数据样本的第一概率统计值;从所述样本数据集中选取部分文本数据样本,并将所述部分文本数据样本的样本标签统一替换为替代样本标签,所述替代样本标签用于标识除所述多个预设文本类别以外的其他文本类别;将带有所述替代样本标签的文本数据样本输入所述文本分类模型,得到所述文本分类模型输出的对应于多个文本类别的分类概率,并根据所述分类概率确定所述带有所述替代样本标签的文本数据样本的第二概率统计值;根据所述第一概率统计值与所述第二概率统计值之间的数值关系确定所述文本数据样本的样本标签是否标注正确。
[0006]在一个实施例中,根据所述分类概率确定所述文本数据样本的第一概率统计值包括:获取对应于所述样本标签的目标概率,并获取除所述目标概率以外的其他分类概率中的最大概率;根据所述目标概率与所述最大概率确定所述文本数据样本的第一概率统计值。
[0007]在一个实施例中,根据所述目标概率与所述最大概率确定所述文本数据样本的第一概率统计值包括:对所述目标概率与所述最大概率进行差值计算,得到所述目标概率与所述最大概率的差值;对所述目标概率与所述最大概率的差值进行平均值计算,得到所述
文本数据样本的第一概率统计值。
[0008]在一个实施例中,对所述目标概率与所述最大概率进行差值计算,得到所述目标概率与所述最大概率的差值包括:
[0009][0010]式中,M
(t)
(x,y)为t代训练后所述目标概率与所述最大概率的差值,x表示样本数据,y表示样本标签,t表示训练迭代数,表示样本数据通过t代训练后输出的对应于所述样本标签的目标概率值,表示t代训练后,除所述目标概率以外的其他分类概率中的最大概率值。
[0011]在一个实施例中,对所述目标概率与所述最大概率的差值进行平均值计算,得到所述文本数据样本的第一概率统计值包括:
[0012][0013]式中,AUM
x,y
为第一概率统计值,T为总训练迭代数。
[0014]在一个实施例中,从所述样本数据集中选取部分文本数据样本包括根据样本总数和文本类别数确定所述部分文本数据样本。
[0015]在一个实施例中,所述根据样本总数和文本类别数确定所述部分文本数据样本包括:
[0016][0017]式中,S为部分文本数据样本,N为样本总数,c为文本类别数。在一个实施例中,根据所述第一概率统计值与所述第二概率统计值之间的数值关系确定所述文本数据样本的样本标签是否标注正确包括:若所述第一概率统计值小于所述第二概率统计值,则所述样本标签标注不正确;若所述第一概率统计值大于或等于所述第二概率统计值,则所述样本标签标注正确。
[0018]本申请实施例的第二方面,提供了一种文本数据的检测装置,所述装置包括:获取模块,用于获取样本数据集,所述样本数据集包括带有样本标签的文本数据样本,所述样本标签用于标识所述文本数据样本的文本类别;选取模块,用于从所述样本数据集中选取部分文本数据样本,并将所述部分文本数据样本的样本标签统一替换为替代样本标签,所述替代样本标签用于标识除所述多个预设文本类别以外的其他文本类别;预先训练的文本分类模型模块,用于将所述文本数据样本输入至预先训练的文本分类模型,得到所述文本分类模型输出的对应于多个预设文本类别的分类概率,并根据所述分类概率确定所述文本数据样本的第一概率统计值;以及将带有所述替代样本标签的文本数据样本输入所述文本分类模型,得到所述文本分类模型输出的对应于多个文本类别的分类概率,并根据所述分类概率确定所述带有所述替代样本标签的文本数据样本的第二概率统计值;确定模块,用于根据所述第一概率统计值与所述第二概率统计值之间的数值关系确定所述文本数据样本的样本标签是否标注正确。
[0019]在一个实施例中,获取模块,包括:文本数据单元,用于存储多个文本数据;以及文本类别单元,用于根据样本标签标识文本数据样本的文本类别。
[0020]在一个实施例中,选取模块,包括:替代单元,用于从样本数据集中选取的部分文本数据样本的样本标签统一替换为替代样本标签;以及文本类别单元,用于根据替代样本标签标识文本数据样本的文本类别。
[0021]在一个实施例中,预先训练的文本分类模型模块,包括:文本数据单元,用于存储样本数据集中获取的文本数据样本;部分文本数据样本,用于存储样本数据集中获取的部分文本数据样本;第一概率单元,用于输出文本分类模型输出的对应于多个预设文本类别的分类概率,并根据所述分类概率确定所述文本数据样本的第一概率统计值;以及第二概率单元,用于输出文本分类模型输出的对应于多个文本类别的分类概率,并根据所述分类概率确定所述带有所述替代样本标签的文本数据样本的第二概率统计值。
[0022]在一个实施例中,确定模块,包括:判断单元,用于判断第一概率统计值与所述第二概率统计值之间的数值关系;以及删除单元,用于删除错误的文本数据样本。
[0023]本申请实施例的第三方面,还包括一种电子设备,包括:处理单元;存储单元,用于存储程序代码,所述程序代码可以被处理单元执行,可以使得处理单元执行本申请文本数据的检测方法。
[0024]本申请实施例的第四方面,还包括一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现本申请的文本数据的检测方法所述方法的步骤。
[0025]本申请所采用的技术方案具有如下有益效果:
[0026]在上述技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据的检测方法,其特征在于,所述方法包括:获取样本数据集,所述样本数据集包括带有样本标签的文本数据样本,所述样本标签用于标识所述文本数据样本的文本类别;将所述文本数据样本输入至预先训练的文本分类模型,得到所述文本分类模型输出的对应于多个预设文本类别的分类概率,并根据所述分类概率确定所述文本数据样本的第一概率统计值;从所述样本数据集中选取部分文本数据样本,并将所述部分文本数据样本的样本标签统一替换为替代样本标签,所述替代样本标签用于标识除所述多个预设文本类别以外的其他文本类别;将带有所述替代样本标签的文本数据样本输入所述文本分类模型,得到所述文本分类模型输出的对应于多个文本类别的分类概率,并根据所述分类概率确定所述带有所述替代样本标签的文本数据样本的第二概率统计值;根据所述第一概率统计值与所述第二概率统计值之间的数值关系确定所述文本数据样本的样本标签是否标注正确。2.根据权利要求1所述的文本数据的检测方法,其特征在于,根据所述分类概率确定所述文本数据样本的第一概率统计值包括:获取对应于所述样本标签的目标概率,并获取除所述目标概率以外的其他分类概率中的最大概率;根据所述目标概率与所述最大概率确定所述文本数据样本的第一概率统计值。3.根据权利要求2所述的文本数据的检测方法,其特征在于,根据所述目标概率与所述最大概率确定所述文本数据样本的第一概率统计值包括:对所述目标概率与所述最大概率进行差值计算,得到所述目标概率与所述最大概率的差值;对所述目标概率与所述最大概率的差值进行平均值计算,得到所述文本数据样本的第一概率统计值。4.根据权利要求3所述的文本数据的检测方法,其特征在于,对所述目标概率与所述最大概率进行差值计算,得到所述目标概率与所述最大概率的差值包括按照如下公式计算所述目标概率与所述最大概率的差值:式中,M
(t)
(x,y)为t代训练后所述目标概率与所述最大概率的差值,x表示样本数据,y表示样本标签,t表示训练迭代数,表示样本数据通过t代训练后输出的对应于所述样本标签的目标概率值,表示t代训练后,除所述目标概率以外的其他分类概率中的最大概率值。5.根据权利要求3所述的文本数据的检测方法,其特征在于,对所述目标概率与所述最大概率的差值进行平均值计算,得到...

【专利技术属性】
技术研发人员:司世景王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1