样本选择方法、装置、设备及介质制造方法及图纸

技术编号:36984736 阅读:23 留言:0更新日期:2023-03-25 18:03
本发明专利技术公开一种样本选择方法、装置、设备及介质,所述方法通过分类数据增强策略生成的干净样本和噪声样本,并在干净样本中筛选高置信度的样本作为高质量样本,在噪声样本和置信度低的干净样本这类低可信度样本中进行再选择,以在高置信度的干净样本中补充高质量的低可信度样本,从而完成对增强样本中高质量样本的筛选。本发明专利技术不仅能有效筛选数据增强样本中生成的高质量样本,还增加了数据增强样本的多样性,使模型可以学到更多的模式,以提高模型的性能,从而进一步提高模型的泛化性。相应地,本发明专利技术还提供一种样本选择装置、设备及介质。设备及介质。设备及介质。

【技术实现步骤摘要】
样本选择方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种样本选择方法、装置、设备及介质。

技术介绍

[0002]文本分类是许多自然语言处理(英文全称为Natural Language Processing,英文简称为NLP)任务的基础,在情感分析、智能问答等各个领域得到广泛的应用。一般来说,训练一个泛化能力强的分类器,往往需要大量的标记数据,但构建一个大语料库所需要付出的高昂的人工标注成本和大量的时间与精力,往往是人们难以承受的。为了解决此问题,数据增强(英文全称为Data Augmentation)策略被提出,数据增强可以大大增加数据量,缓解数据的不足,以提高模型的泛化能力。然而,在自然语言处理领域,数据增强面临着巨大的挑战,除了文本数据的不连续性外,还有一大原因是语言本身抗干扰能力弱,随意修改语言数据很可能会破坏其语义,生成低质量的样本,极大地影响分类器的判断,从而对模型产生负反馈作用。
[0003]因此,如何在数据增强样本中选取高质量样本显得尤为重要。

技术实现思路

[0004]本专利技术实施例多个方面提供一种样本选择方法、装置、设备及介质,能有效地筛选出数据增强策略生成的高质量样本。
[0005]本专利技术实施例第一方面提供一种样本选择方法,包括:
[0006]获取增强样本,并基于训练后的预训练模型预测所述增强样本的类概率分布,并根据增强样本的类概率分布得到所述增强样本的伪标签;其中,所述增强样本为基于原始标注样本数据增强后生成的无标注样本;
[0007]根据所述增强样本对应的原始标注样本的标签和所述增强样本的伪标签的对比结果,将所述增强样本分类成干净样本和噪声样本;
[0008]引入蒙特卡洛采样训练后的预训练模型预测的所述干净样本在不同模型参数下的类概率分布,以根据不同模型参数下的类概率分布得到所述干净样本的置信度,并根据置信度大小将所述干净样本分类成高置信度样本和低置信度样本;
[0009]根据待召回样本的词汇相似度与设定的词汇相似度阈值、待召回样本的语义流畅度与设定的语义流畅度阈值的对比结果,确认召回样本;其中,所述待召回样本包括低置信度样本和噪声样本;
[0010]将所述高置信度样本和所述召回样本作为最终选择的样本。
[0011]本专利技术实施例第二方面提供一种样本选择装置,包括:
[0012]伪标签获取模块,用于获取增强样本,并基于训练后的预训练模型预测所述增强样本的类概率分布,并根据增强样本的类概率分布得到所述增强样本的伪标签;其中,所述增强样本为基于原始标注样本数据增强后生成的无标注样本;
[0013]第一分类模块,用于根据所述增强样本对应的原始标注样本的标签和所述增强样
本的伪标签的对比结果,将所述增强样本分类成干净样本和噪声样本;
[0014]第二分类模块,用于引入蒙特卡洛采样训练后的预训练模型预测的所述干净样本在不同模型参数下的类概率分布,以根据不同模型参数下的类概率分布得到所述干净样本的置信度,并根据置信度大小将所述干净样本分类成高置信度样本和低置信度样本;
[0015]召回模块,用于根据待召回样本的词汇相似度与设定的词汇相似度阈值、待召回样本的语义流畅度与设定的语义流畅度阈值的对比结果,确认召回样本;其中,所述待召回样本包括低置信度样本和噪声样本;
[0016]选择模块,用于将所述高置信度样本和所述召回样本作为最终选择的样本。本专利技术实施例第三方面提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述实施例提供的样本选择方法。
[0017]本专利技术实施例第四方面提供一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如上述实施例提供的样本选择方法。
[0018]与现有技术相比,本专利技术实施例提供的样本选择方法通过分类数据增强策略生成的干净样本和噪声样本,并在干净样本中筛选高置信度的样本作为高质量样本,在噪声样本和置信度低的干净样本这类低可信度样本中进行再选择,以在高置信度的干净样本中补充高质量的低可信度样本,从而完成对增强样本中高质量样本的筛选。本实施例不仅能有效筛选出数据增强策略生成的高质量样本,还通过对低可信度样本进行召回以增加数据增强样本的多样性,使模型可以学到更多的模式,从而提高模型的性能,进而提高了模型的泛化性。相应地,本专利技术实施例还提供一种样本选择装置、设备及介质。
附图说明
[0019]图1是本专利技术实施例提供的样本选择框架结构图;
[0020]图2是本专利技术实施例提供的样本选择方法的流程示意图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]数据增强策略在解决数据匮乏问题的研究领域中十分热门,是指将训练数据通过某种变换操作生成新数据的过程,让有限的数据产生等价于更多数据的价值,进而提高模型的泛化能力和鲁棒性。数据增强策略在自然语言处理领域也得到很广泛的应用。然而,在自然语言处理领域中,数据增强面临着巨大的挑战,除了文本数据的不连续性外,还有一大原因是语言本身抗干扰能力弱,随意修改语言数据很可能会破坏其语义,生成低质量的样本,极大地影响分类器的判断,从而对模型产生负反馈作用。
[0023]虽然数据增强能在一定程度上缓解模型训练的数据匮乏问题,但低质量的增强样本可能会对模型产生负反馈作用。因此,对增强样本的噪声进行过滤,即样本选择是十分重
要的。目前,对样本的质量进行评估已有相关的研究,如基于分类器判别的数据评估和基于文本相似度的数据评估。
[0024]基于分类器判别的数据评估方法是指利用有标签数据来训练文本分类模型,然后利用文本分类器对无标签数据进行分类或预测,然而,该方法单一地使用分类器对生成数据进行评估,会导致筛选的数据分布拟合于分类器,即保持原始数据分布,导致筛选的样本多样性不高,无法提高分类器的性能。
[0025]基于文本相似度的选择方法在技术实现上无较大难度,一般通过计算文本距离来判别文本相似度。在自然语言处理中,经常会涉及到如何度量两个文本的相似度问题。在诸如对话系统(Dialog system)和信息检索(Information retrieval)等的问题中,如何度量句子或者短语之间的相似度尤为重要。通过原样本与生成样本之间的文本覆盖度筛选模型生成的样本。然而该策略只从文本词汇层面考虑生成样本与原样本之间的相似度,缺少语义层面的信息。
[0026]上述样本评估方法仅从单一维度进行评估,没有从多维度对数据增强的样本进行筛选,因此选择出来的样本总体质量不高。
[002本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本选择方法,其特征在于,包括:获取增强样本,并基于训练后的预训练模型预测所述增强样本的类概率分布,并根据增强样本的类概率分布得到所述增强样本的伪标签;其中,所述增强样本为基于原始标注样本数据增强后生成的无标注样本;根据所述增强样本对应的原始标注样本的的标签和所述增强样本的伪标签的对比结果,将所述增强样本分类成干净样本和噪声样本;引入蒙特卡洛采样训练后的预训练模型预测的所述干净样本在不同模型参数下的类概率分布,以根据不同模型参数下的类概率分布得到所述干净样本的置信度,并根据置信度大小将所述干净样本分类成高置信度样本和低置信度样本;根据待召回样本的词汇相似度与设定的词汇相似度阈值、待召回样本的语义流畅度与设定的语义流畅度阈值的对比结果,确认召回样本;其中,所述待召回样本包括低置信度样本和噪声样本;将所述高置信度样本和所述召回样本作为最终选择的样本。2.如权利要求1所述的样本选择方法,其特征在于,在所述基于训练后的预训练模型预测所述增强样本的类概率分布之前,还包括:获取所述原始标注样本,并基于所述原始标注样本对所述预训练模型采用半监督方法进行训练,得到所述训练后的预训练模型。3.如权利要求1所述的样本选择方法,其特征在于,所述词汇相似度阈值通过如下步骤获取:计算每一高置信度样本与对应的原始标注样本之间的词汇相似度,并根据所有高置信度样本与对应的原始标注样本之间的词汇相似度,得到所述词汇相似度阈值;且所述词汇相似度通过如下公式计算:其中,J(x)表示词汇相似度,x
g
、x
l
分别表示所述增强样本和所述增强样本对应的原始标注样本。4.如权利要求1所述的样本选择方法,其特征在于,所述语义流畅度阈值通过如下方式获取:计算所述高置信度样本对应的原始标注样本的困惑度和所述高置信度样本的困惑度之间的差,得到所述高置信度样本的语义流畅度;根据所有所述高置信度样本的语义流畅度,得到所述语义流畅度阈值。5.如权利要求1所述的样本选择方法,其特征在于,所述引入蒙特卡洛采样训练后的预训练模型预测的所述干净样本在不同模型参数下的类概率分布,以根据不同模型参...

【专利技术属性】
技术研发人员:蒋盛益林晓钿林楠铠付颖雯杨子渝
申请(专利权)人:广东外语外贸大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1