样本选择方法、装置、设备及介质制造方法及图纸

技术编号：36984736 阅读：23 留言：0更新日期：2023-03-25 18:03

本发明专利技术公开一种样本选择方法、装置、设备及介质，所述方法通过分类数据增强策略生成的干净样本和噪声样本，并在干净样本中筛选高置信度的样本作为高质量样本，在噪声样本和置信度低的干净样本这类低可信度样本中进行再选择，以在高置信度的干净样本中补充高质量的低可信度样本，从而完成对增强样本中高质量样本的筛选。本发明专利技术不仅能有效筛选数据增强样本中生成的高质量样本，还增加了数据增强样本的多样性，使模型可以学到更多的模式，以提高模型的性能，从而进一步提高模型的泛化性。相应地，本发明专利技术还提供一种样本选择装置、设备及介质。设备及介质。设备及介质。

全部详细技术资料下载

【技术实现步骤摘要】
样本选择方法、装置、设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种样本选择方法、装置、设备及介质。

技术介绍

[0002]文本分类是许多自然语言处理(英文全称为Natural Language Processing，英文简称为NLP)任务的基础，在情感分析、智能问答等各个领域得到广泛的应用。一般来说，训练一个泛化能力强的分类器，往往需要大量的标记数据，但构建一个大语料库所需要付出的高昂的人工标注成本和大量的时间与精力，往往是人们难以承受的。为了解决此问题，数据增强(英文全称为Data Augmentation)策略被提出，数据增强可以大大增加数据量，缓解数据的不足，以提高模型的泛化能力。然而，在自然语言处理领域，数据增强面临着巨大的挑战，除了文本数据的不连续性外，还有一大原因是语言本身抗干扰能力弱，随意修改语言数据很可能会破坏其语义，生成低质量的样本，极大地影响分类器的判断，从而对模型产生负反馈作用。
[0003]因此，如何在数据增强样本中选取高质量样本显得尤为重要。

技术实现思路

[0004]本专利技术实施例多个方面提供一种样本选择方法、装置、设备及介质，能有效地筛选出数据增强策略生成的高质量样本。
[0005]本专利技术实施例第一方面提供一种样本选择方法，包括：
[0006]获取增强样本，并基于训练后的预训练模型预测所述增强样本的类概率分布，并根据增强样本的类概率分布得到所述增强样本的伪标签；其中，所述增强样本为基于原始标注样本数据增强后生成的无标注样...

【技术保护点】

【技术特征摘要】
1.一种样本选择方法，其特征在于，包括：获取增强样本，并基于训练后的预训练模型预测所述增强样本的类概率分布，并根据增强样本的类概率分布得到所述增强样本的伪标签；其中，所述增强样本为基于原始标注样本数据增强后生成的无标注样本；根据所述增强样本对应的原始标注样本的的标签和所述增强样本的伪标签的对比结果，将所述增强样本分类成干净样本和噪声样本；引入蒙特卡洛采样训练后的预训练模型预测的所述干净样本在不同模型参数下的类概率分布，以根据不同模型参数下的类概率分布得到所述干净样本的置信度，并根据置信度大小将所述干净样本分类成高置信度样本和低置信度样本；根据待召回样本的词汇相似度与设定的词汇相似度阈值、待召回样本的语义流畅度与设定的语义流畅度阈值的对比结果，确认召回样本；其中，所述待召回样本包括低置信度样本和噪声样本；将所述高置信度样本和所述召回样本作为最终选择的样本。2.如权利要求1所述的样本选择方法，其特征在于，在所述基于训练后的预训练模型预测所述增强样本的类概率分布之前，还包括：获取所述原始标注样本，并基于所述原始标注样本对所述预训练模型采用半监督方法进行训练，得到所述训练后的预训练模型。3.如权利要求1所述的样本选择方法，其特征在于，所述词汇相似度阈值通过如下步骤获取：计算每一高置信度样本与对应的原始标注样本之间的词汇相似度，并根据所有高置信度样本与对应的原始标注样本之间的词汇相似度，得到所述词汇相似度阈值；且所述词汇相似度通过如下公式计算：其中，J(x)表示词汇相似度，x
g
、x
l
分别表示所述增强样本和所述增强样本对应的原始标注样本。4.如权利要求1所述的样本选择方法，其特征在于，所述语义流畅度阈值通过如下方式获取：计算所述高置信度样本对应的原始标注样本的困惑度和所述高置信度样本的困惑度之间的差，得到所述高置信度样本的语义流畅度；根据所有所述高置信度样本的语义流畅度，得到所述语义流畅度阈值。5.如权利要求1所述的样本选择方法，其特征在于，所述引入蒙特卡洛采样训练后的预训练模型预测的所述干净样本在不同模型参数下的类概率分布，以根据不同模型参...

【专利技术属性】
技术研发人员：蒋盛益，林晓钿，林楠铠，付颖雯，杨子渝，
申请(专利权)人：广东外语外贸大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人