System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,具体涉及深度学习,尤其涉及一种数据处理方法、装置、设备及介质。
技术介绍
1、目前,在通过样本对训练模型时,可以采用批处理训练方式,如可以将一个训练批次内的样本对中的某个样本作为锚点样本,通过锚点样本的正样本和负样本确定模型损失值,以训练模型。其中,可以是通过一个训练批次内的所有锚点样本对于模型的损失值确定一个训练批次对于模型的模型损失值。其中,具体可以是通过一个锚点样本(如样本a)、样本a的正样本和在训练批次内的所有负样本确定样本a对于模型的损失值。
2、然而,一个锚点样本的所有负样本数量较多,其中可能会包含大量简单负样本。这些简单负样本包含的信息量非常有限,模型学习到的特征较少,在模型学习样本的特征信息时可能会带来一些影响,使得模型训练效果低。
技术实现思路
1、本申请实施例提供了一种数据处理方法、装置、设备及介质,可以通过筛选负样本数据提高模型训练效果。
2、一方面,本申请实施例提供了一种数据处理方法,该方法包括:
3、获取用于输入初始模型的n个样本对;一个样本对包括一个第一样本数据和一个第二样本数据;n为大于1的正整数;初始模型用于确定第一样本数据的样本特征以及第二样本数据的样本特征;
4、从n个样本对中获取样本对i,将样本对i中的第一样本数据作为锚点样本数据,将与锚点样本数据在同一样本对的第二样本数据作为锚点样本数据的正样本数据,将与锚点样本数据不在同一样本对的第二样本数据作为锚点样本数据的负样本数据;i为
5、基于锚点样本数据的样本特征,以及正样本数据的样本特征、负样本数据的样本特征以及与负样本数据相关联的样本筛选间隔确定负样本数据针对锚点样本数据的特征距离损失以及权重损失;
6、将负样本数据中,特征距离损失大于距离损失阈值的负样本数据,作为锚点样本数据的复杂负样本数据;
7、通过复杂负样本数据的权重损失对复杂负样本数据的特征距离损失进行损失加权,得到锚点样本数据针对初始模型的训练损失;
8、基于锚点样本数据的训练损失确定用于训练初始模型的模型损失值。
9、另一方面,本申请实施例提供了一种数据处理方法,该方法包括:
10、获取用于输入目标模型的第一目标数据和第二目标数据;目标模型是由针对初始模型的模型损失值对初始模型进行训练得到的;模型损失值是通过锚点样本数据的权重损失对复杂负样本的特征距离损失进行损失加权所得到的;复杂负样本是锚点样本数据的负样本数据中,特征距离损失大于距离损失阈值的负样本数据;锚点样本数据、负样本数据从用于训练初始模型的n个样本对中获取;n为大于1的正整数;
11、将第一目标数据输入目标模型,得到第一目标数据的目标特征,将第二目标数据输入目标模型,得到第二目标数据的目标特征;
12、其中,第一目标数据的目标特征和第二目标数据的目标特征用于确定第一目标数据和第二目标数据之间的特征相似度。
13、一方面,本申请实施例提供了一种数据处理装置,该装置包括:
14、样本获取模块,用于获取用于输入初始模型的n个样本对;一个样本对包括一个第一样本数据和一个第二样本数据;n为大于1的正整数;初始模型用于确定第一样本数据的样本特征以及第二样本数据的样本特征;
15、样本获取模块,还用于从n个样本对中获取样本对i,将样本对i中的第一样本数据作为锚点样本数据,将与锚点样本数据在同一样本对的第二样本数据作为锚点样本数据的正样本数据,将与锚点样本数据不在同一样本对的第二样本数据作为锚点样本数据的负样本数据;i为小于或等于n的正整数;
16、特征损失确定模块,用于基于锚点样本数据的样本特征,以及正样本数据的样本特征、负样本数据的样本特征以及与负样本数据相关联的样本筛选间隔确定负样本数据针对锚点样本数据的特征距离损失以及权重损失;
17、样本筛选模块,用于将负样本数据中,特征距离损失大于距离损失阈值的负样本数据,作为锚点样本数据的复杂负样本数据;
18、训练损失确定模块,用于通过复杂负样本数据的权重损失对复杂负样本数据的特征距离损失进行损失加权,得到锚点样本数据针对初始模型的训练损失;
19、训练损失确定模块,还用于基于锚点样本数据的训练损失确定用于训练初始模型的模型损失值。
20、另一方面,本申请实施例提供了一种数据处理装置,该装置包括:
21、数据获取模块,用于获取用于输入目标模型的第一目标数据和第二目标数据;目标模型是由针对初始模型的模型损失值对初始模型进行训练得到的;模型损失值是通过锚点样本数据的权重损失对复杂负样本的特征距离损失进行损失加权所得到的;复杂负样本是锚点样本数据的负样本数据中,特征距离损失大于距离损失阈值的负样本数据;锚点样本数据、负样本数据从用于训练初始模型的n个样本对中获取;n为大于1的正整数;
22、模型处理模块,用于将第一目标数据输入目标模型,得到第一目标数据的目标特征,将第二目标数据输入目标模型,得到第二目标数据的目标特征;
23、其中,第一目标数据的目标特征和第二目标数据的目标特征用于确定第一目标数据和第二目标数据之间的特征相似度。
24、一方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,其中,存储器用于存储计算机程序,该计算机程序包括程序指令,处理器被配置用于调用该程序指令,执行上述方法中的部分或全部步骤。
25、一方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时,用于执行上述方法中的部分或全部步骤。
26、相应地,根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时可实现上述方法中的部分或全部步骤。
27、本申请实施例中,可以获取用于输入初始模型的n个样本对,并从n个样本对的样本对i中获取锚点样本数据,以及得到该锚点样本数据的正样本数据和在n个样本对中的所有负样本数据。此时可以通过初始模型确定锚点样本数据的样本特征、正样本数据的样本特征和负样本数据的样本特征,基于前述多种样本特征以及与负样本数据相关联的样本筛选间隔确定负样本数据针对锚点样本数据的特征距离损失和权重损失,该特征距离损失可用于衡量负样本数据的复杂度,进而可以根据特征距离损失筛选负样本数据,具体可以是将特征距离损失大于距离损失阈值的负样本数据作为锚点样本数据的复杂负样本数据。可以根据复杂负样本数据的权重损失和特征距离损失确定出锚点样本数据针对初始模型的训练损失,由此得到用于训练初始模型的模型损失值。可以理解,特征距离损失小于或等于距离损失阈值的负样本即为简单负样本,通过复杂负样本数据来训练初始模型,可以使得初始模型不会被简单负样本所干扰,可以更好的学习到复杂负样本数据本文档来自技高网...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述负样本数据为多个,多个负样本数据包括目标负样本数据;
3.根据权利要求2所述的方法,其特征在于,所述基于所述锚点样本数据的样本特征与所述正样本数据的样本特征之间的正样本特征距离、所述锚点样本数据的样本特征与所述目标负样本数据的样本特征之间的目标负样本特征距离、所述样本筛选间隔确定针对所述目标负样本数据的特征距离损失,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述锚点样本数据的样本特征与所述正样本数据的样本特征之间的第一特征相似度、所述锚点样本数据的样本特征分别与所述多个负样本数据中每个负样本数据的样本特征之间的第二特征相似度确定针对所述目标负样本数据的权重损失,包括:
5.根据权利要求1所述的方法,其特征在于,所述复杂负样本数据为多个,多个复杂负样本数据包括目标复杂负样本数据;
6.一种数据处理方法,其特征在于,所述方法包括:
7.一种数据处理装置,其特征在于,所述装置包括:
8.一种数
9.一种电子设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
...【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述负样本数据为多个,多个负样本数据包括目标负样本数据;
3.根据权利要求2所述的方法,其特征在于,所述基于所述锚点样本数据的样本特征与所述正样本数据的样本特征之间的正样本特征距离、所述锚点样本数据的样本特征与所述目标负样本数据的样本特征之间的目标负样本特征距离、所述样本筛选间隔确定针对所述目标负样本数据的特征距离损失,包括:
4.根据权利要求2所述的方法,其特征在于,所述基于所述锚点样本数据的样本特征与所述正样本数据的样本特征之间的第一特征相似度、所述锚点样本数据的样本特征分别与所述多个负样本数据中每个负样本数据的样本特征之间的第二特征相似度确定针对所述目标负样本数据的权重损失,包括...
【专利技术属性】
技术研发人员:陈诚,蔡力坤,李若琦,张道鑫,
申请(专利权)人:小红书科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。