System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及机器学习,尤其涉及一种针对无标签样本的正样本挖掘方法及相关装置。
技术介绍
1、目前,无标签样本数量庞大,且其中可能蕴含大量潜在的正样本,例如推荐给用户的内容中,用户点击的内容为正样本,用户未点击的内容为负样本,而未推荐给用户的内容则为无标签样本,在该无标签样本中可能存在用户感兴趣的内容,即潜在的正样本,通过挖掘无标签样本中潜在的正样本,可以提供更符合用户兴趣的内容。
2、现有方案对所有样本进行统一计算,却没有针对性的挖掘无标签样本中正样本的特征,且在样本的处理中只对负样本进行了优化,缺少了对正样本的处理。
3、因此,如何针对无标签样本的正样本进行挖掘并处理,亟待解决。
技术实现思路
1、本申请实施例提供一种针对无标签样本的正样本挖掘方法及相关装置,通过对新增特征和已有特征进行融合和计算,逐步从无标签样本中挖掘正样本,并在模型训练时对正样本进行数据增强,从而提升了模型的泛化性和对无标签样本的预测能力。
2、第一方面,本申请实施例提供了一种针对无标签样本的正样本挖掘方法,所述方法包括:
3、获取多个用户序列和预设的无标签样本,并确定第一用户序列对应的第一新增特征向量和第一已有特征向量;所述第一用户序列为所述多个用户序列中任意一个用户序列;
4、对所述第一新增特征向量与所述第一已有特征向量分别执行k次随机数据选取操作,得到k个第二新增特征向量和k个第二已有特征向量;k为正整数;
5、计算所述k个第二新增特
6、根据所述目标融合特征向量对预设的原始模型进行训练,得到第一模型,并通过所述第一模型对所述无标签样本进行预测,得到预测结果,并根据预设筛选规则确定所述预测结果中的第一正样本;
7、根据所述第一正样本和预设的参考正样本对第二模型进行训练,得到目标第二模型,并通过所述目标第二模型对所述无标签样本进行预测,得到目标正样本;所述第二模型为与所述原始模型相同类型的不同模型。
8、第二方面,本申请实施例提供了一种针对无标签样本的正样本挖掘装置,所述装置包括获取模块、执行模块、计算模块、训练模块,其中:
9、所述获取模块,用于获取多个用户序列和预设的无标签样本,并确定第一用户序列对应的第一新增特征向量和第一已有特征向量;所述第一用户序列为所述多个用户序列中任意一个用户序列;
10、所述执行模块,用于对所述第一新增特征向量与所述第一已有特征向量分别执行k次随机数据选取操作,得到k个第二新增特征向量和k个第二已有特征向量;k为正整数;
11、所述计算模块,用于计算所述k个第二新增特征向量和所述k个第二已有特征向量之间的相似度,得到k个相似度,再将所述k个相似度进行拼接,得到参考融合特征向量,并对所述参考融合特征向量进行全连接层计算,得到目标融合特征向量;每一相似度对应一个第二新增特征向量和一个第二已有特征向量;
12、所述训练模块,用于根据所述目标融合特征向量对预设的原始模型进行训练,得到第一模型,并通过所述第一模型对所述无标签样本进行预测,得到预测结果,并根据预设筛选规则确定所述预测结果中的第一正样本;
13、所述训练模块,还用于根据所述第一正样本和预设的参考正样本对第二模型进行训练,得到目标第二模型,并通过所述目标第二模型对所述无标签样本进行预测,得到目标正样本;所述第二模型为与所述原始模型相同类型的不同模型。
14、第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。
15、第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。
16、第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
17、通过实施本申请实施例,对新增特征和已有特征进行融合和计算,逐步从无标签样本中挖掘正样本,并在模型训练时对正样本进行数据增强,从而提升了模型的泛化性和对无标签样本的预测能力。
本文档来自技高网...【技术保护点】
1.一种针对无标签样本的正样本挖掘方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述确定第一用户序列对应的第一新增特征向量和第一已有特征向量,包括:
3.如权利要求2所述的方法,其特征在于,所述根据预设特征处理方式对所述已有特征进行处理,得到所述第一已有特征向量,包括:
4.如权利要求2所述的方法,其特征在于,所述获取所述第一用户序列对应的第一随机矩阵,并根据所述第一随机矩阵确定第一用户向量,包括:
5.如权利要求1所述的方法,其特征在于,所述对所述第一新增特征向量与所述第一已有特征向量分别执行k次随机数据选取操作,得到k个第二新增特征向量和k个第二已有特征向量,包括:
6.如权利要求1所述的方法,其特征在于,所述根据所述目标融合特征向量对预设的原始模型进行训练,得到第一模型,包括:
7.如权利要求1-6任一项所述的方法,其特征在于,所述根据所述第一正样本和预设的参考正样本对第二模型进行训练,得到目标第二模型,包括:
8.如权利要求7所述的方法,其特征在于,所述根据所述
9.一种针对无标签样本的正样本挖掘装置,其特征在于,所述装置包括获取模块、执行模块、计算模块、训练模块,其中:
10.一种电子设备,其特征在于,包括:处理器、存储器、通信接口以及一个或多个程序;所述一个或多个程序被存储在所述存储器中,并且被配置成由所述处理器执行,所述程序包括用于执行如权利要求1-8任一项所述的方法中的步骤的指令。
...【技术特征摘要】
1.一种针对无标签样本的正样本挖掘方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述确定第一用户序列对应的第一新增特征向量和第一已有特征向量,包括:
3.如权利要求2所述的方法,其特征在于,所述根据预设特征处理方式对所述已有特征进行处理,得到所述第一已有特征向量,包括:
4.如权利要求2所述的方法,其特征在于,所述获取所述第一用户序列对应的第一随机矩阵,并根据所述第一随机矩阵确定第一用户向量,包括:
5.如权利要求1所述的方法,其特征在于,所述对所述第一新增特征向量与所述第一已有特征向量分别执行k次随机数据选取操作,得到k个第二新增特征向量和k个第二已有特征向量,包括:
6.如权利要求1所述的方法,其特征在于,所...
【专利技术属性】
技术研发人员:牛明航,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。