【技术实现步骤摘要】
噪声的检测方法、装置及电子设备
[0001]本申请属于人工智能
,具体涉及一种噪声的检测方法、装置及电子设备。
技术介绍
[0002]深度学习模型的使用过程一般可以分为样本标注、特征抽取、模型训练三个阶段。在实践过程中,样本标注阶段通常需要人工对大量的训练样本进行标注,从而对应每一训练样本生成该训练样本的标签,进而利用训练样本和标注后的标签进行后面两个阶段。
[0003]目前,由于训练数据的情况较为复杂以及一些人为的因素,导致对部分训练数据标注的标签并不准确,即训练数据的标签中存在一定噪声。这就对后续模型的训练造成了一定影响。例如会导致模型的训练时间增长、模型进行预测的准确性较低等问题。为此,只能在样本标注阶段,对标注人员提高要求,以降低训练数据的标签中的噪声。
[0004]然而,上述方法仍不能排除人为因素的影响,对标签噪声的改善有限,因此,现有技术中仍存在训练数据的标签噪声较高,训练数据整体质量较低的问题。
技术实现思路
[0005]本申请实施例的目的是提供一种噪声的检测方法、装置及电子设备,能够解决相关技术中训练数据的标签噪声较大的问题。
[0006]第一方面,本申请实施例提供了一种噪声的检测方法,该方法包括:
[0007]获取语料集合中的训练样本以及目标模板,其中,所述目标模板为基于所述语料集合和预训练模型确定的提示Prompt模板;
[0008]对目标对象进行向量化,得到目标词向量;其中,所述目标对象包括:所述目标模板和所述训练样本;
[0 ...
【技术保护点】
【技术特征摘要】
1.一种噪声的检测方法,其特征在于,所述方法包括:获取语料集合中的训练样本以及目标模板,其中,所述目标模板为基于所述语料集合和预训练模型确定的提示Prompt模板;对目标对象进行向量化,得到目标词向量;其中,所述目标对象包括:所述目标模板和所述训练样本;将所述目标词向量输入到所述预训练模型,得到所述预训练模型输出的预测标签;基于所述预测标签与标签词集合中各相似词语的语义相似情况,确定目标标签的噪声情况;其中,所述相似词语为与目标标签具有相同语义或相似语义的词语,所述目标标签为对所述训练样本进行标注的标签。2.根据权利要求1所述的方法,其特征在于,所述目标对象还包括:样本关联信息;在所述对目标对象进行向量化,得到目标词向量之前,所述方法还包括:抽取所述训练样本中的实体词语;基于知识图谱数据库得到每一所述实体词语关联的领域信息;对所述实体词语和所述实体词语关联的所述领域信息进行拼接,得到所述样本关联信息。3.根据权利要求2所述的方法,其特征在于,所述对目标对象进行向量化,得到目标词向量,包括:将目标数量的预置标志位、所述目标模板和所述训练样本进行拼接,得到目标输入文本;对所述目标输入文本进行向量化,得到初始词向量;针对所述初始词向量,将所述初始词向量中的目标部分替换为领域知识词向量,得到所述目标词向量;其中,所述目标部分为基于所述目标输入文本中的所述目标数量的预置标志位生成的词向量,所述领域知识词向量为基于预设初始向量与所述样本词向量生成的词向量,所述样本词向量为基于所述样本关联信息生成的词向量。4.根据权利要求3所述的方法,其特征在于,基于预设初始向量与所述样本词向量生成所述领域知识词向量的步骤,包括:将预设初始向量与所述样本词向量进行融合,得到目标融合词向量;将所述目标融合词向量,确定为所述领域知识词向量。5.根据权利要求3所述的方法,其特征在于,基于预设初始向量与所述样本词向量生成所述领域知识词向量的步骤,包括:将预设初始向量与所述样本词向量进行融合,得到目标融合词向量;基于长短期记忆网络对所述目标融合词向量进行处理,得到中间词向量;基于多层感知器对所述中间词向量进行处理,得到所述领域知识词向量。6.根据权利要求4或5所述的方法,其特征在于,在所述样本词向量的数量为至少两组的情况下,所述将预设初始向量与所述样本词向量进行融合,得到所述目标融合词向量,包括:将预设初始向量与至少两组所述样本词向量按照预设方式进行向量融合,得到所述目标融合词向量;其中,所述预设方式包括:N次向量融合,第一次向量融合为所述预设初始向量与第一
样本词向量之间的融合,剩余N
‑
1次的向量融合为每一第二样本词向量与前一次向量融合的结果进行融合;所述第一样本词向量包括:至少两组所述样本词向量中的一个所述样本词向量,所述第二样本词向量包括:至少两组所述样本词向量中除所述第一样本词向量之外的所述样本词向量,N为大于1的整数。7.根据权利要求1所述的方法,其特征在于,所述基于所述预测标签与标签词集合中各相似词语的语义相似情况,确定目标标签的噪声情况,包括:对所述预测标签进行向量化,得到第一标签词向量;分别对每一所述相似词语进行向量化,得到每一所述相似词语对应的相似词向量;分别计算每一所述相似词向量与所述第一标签词向量之间的余弦距离,得到每一所述相似词向量的距离值;计算各所述相似词向量的距离值的平均值,得到相似度评分;基于所述相似度评分,确定所述目标标签的噪声情况。8.一种噪声的检测装置,其特征在于,所述装置包括:获取模块,用于获取语料集合中的训练样本以及目标模板,其中,所述目标模板为基于所述语料集合和预训练模型确定的提示Prompt模板;第一向量化模块,用于对目标对象进行向量化,得到目标词向量;其中,所述目...
【专利技术属性】
技术研发人员:张毅,
申请(专利权)人:维沃移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。