System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及单曲粗排领域,特别涉及一种单曲搜索粗排方法、设备及介质。
技术介绍
1、在搜索,推荐,广告等需要进行大规模排序的场景中,级联排序架构得到了非常广泛的应用。粗排层有很严格的时间要求,并且需要排序的样本数量较精排更多,并且对于粗排层,不仅需要为后续精排层提供更高质量的样本,而且需要保证模型复杂度较低,因此,粗排模块中负样本的筛选尤为重要。目前,负样本的选择大致可以分为两大类;在第一类中,负样本的选择多与精排类似,以用户操作为基础,将曝光未点击样本作为负样本;在第二类中,考虑精排的排序,将排序太靠后,也即精排打分过低的样本作为负样本。但由于音乐业务复杂,当不同用户搜索同一内容时,搜索结果可能并不相同;如果在单曲搜索粗排的场景中单纯地采用上述两种负样本采样方法,最终通过搜索粗排模型生成的单曲搜索粗排的结果很可能与用户的需求存在较大偏差。
技术实现思路
1、有鉴于此,本专利技术的目的在于提供一种单曲搜索粗排方法、设备及介质,能够通过生成个性化的负样本集,使得基于搜索粗排模型生成的粗排结果更精确,更符合用户个性化需求。其具体方案如下:
2、第一方面,本申请提供了一种单曲搜索粗排方法,包括:
3、获取与目标用户的搜索内容对应的目标曝光单曲列表,并对所述目标曝光单曲列表分别进行窗口采样和长尾采样,以得到负样本候选集;
4、确定与所述目标用户的搜索内容对应的初始排行单曲列表,并基于所述初始排行单曲列表和所述目标曝光单曲列表对所述负样本候选集进行档位标
5、基于所述目标用户的系统单曲列表以及与所述目标用户的预设满意操作对应的满意单曲列表对所述调整后负样本集进行采样,以得到目标负样本集;
6、基于所述目标负样本集构建训练集,并基于所述训练集进行模型训练得到搜索粗排模型,以通过所述搜索粗排模型对与任一用户的搜索内容对应的若干单曲进行粗排得到粗排结果。
7、可选的,所述对所述目标曝光单曲列表分别进行窗口采样和长尾采样,以得到负样本候选集,包括:
8、基于所述目标曝光单曲列表中的被点击单曲对所述目标曝光单曲列表进行窗口采样,以得到窗口负样本集;
9、利用预设曝光单曲列表对所述目标曝光单曲列表进行长尾采样,以得到长尾负样本集;
10、基于所述窗口负样本集和所述长尾负样本集确定负样本候选集,并基于默认档位确定所述负样本候选集中的各个负样本分别对应的档位标签。
11、可选的,所述基于所述目标曝光单曲列表中的被点击单曲对所述目标曝光单曲列表进行窗口采样,以得到窗口负样本集,包括:
12、从所述目标曝光单曲列表中确定与所述目标用户的点击操作对应的若干被点击单曲;
13、从所述目标曝光单曲列表中分别确定与各所述被点击单曲前后相邻的若干未被点击单曲,以得到与各所述被点击单曲分别对应的第一负样本集;
14、对与各所述被点击单曲分别对应的第一负样本集进行合并,以得到合并后负样本集;
15、基于所述若干被点击单曲的单曲数量对所述合并后负样本集进行负样本采样,以得到所述窗口负样本集。
16、可选的,所述从所述目标曝光单曲列表中分别确定与各所述被点击单曲前后相邻的若干未被点击单曲,以得到与各所述被点击单曲分别对应的第一负样本集,包括:
17、基于第一预设数量和第二预设数量从所述目标曝光单曲列表中分别确定与各所述被点击单曲前后相邻的若干相邻单曲,以得到与各所述被点击单曲分别对应的相邻负样本集;
18、对各所述相邻负样本集中包含的所述被点击单曲进行删除,以得到与各所述被点击单曲分别对应的第一负样本集。
19、可选的,所述从所述目标曝光单曲列表中分别确定与各所述被点击单曲前后相邻的若干未被点击单曲,以得到与各所述被点击单曲分别对应的第一负样本集,包括:
20、基于第三预设数量和第四预设数量直接从所述目标曝光单曲列表中分别确定与各所述被点击单曲前后相邻的若干未被点击单曲,以得到与各所述被点击单曲分别对应的第一负样本集。
21、可选的,所述利用预设曝光单曲列表对所述目标曝光单曲列表进行长尾采样,以得到长尾负样本集之前,还包括:
22、对所述目标用户的搜索内容进行若干次搜索,以得到若干个初始曝光单曲列表;
23、将所述若干个初始曝光单曲列表中单曲数量最多的单曲列表确定为所述预设曝光单曲列表。
24、可选的,所述利用预设曝光单曲列表对所述目标曝光单曲列表进行长尾采样,以得到长尾负样本集,包括:
25、对所述预设曝光单曲列表中位于所述目标曝光单曲列表中的单曲进行删除,以得到第二负样本集;
26、对所述第二负样本集进行负样本采样,以得到所述长尾负样本集。
27、可选的,所述确定与所述目标用户的搜索内容对应的初始排行单曲列表,包括:
28、获取与所述目标用户的搜索内容对应的所有搜索单曲,并确定所述所有搜索单曲分别对应的满意度;
29、按照所述满意度从大到小的顺序对所述所有搜索单曲进行排序,以得到搜索单曲列表;
30、基于单曲顺序对所述搜索单曲列表从第一个单曲开始选取若干目标搜索单曲,以得到所述初始排行单曲列表;其中,所述若干目标搜索单曲的满意度之和大于或等于预设满意度阈值,并且所述若干目标搜索单曲中除最后一个单曲外的其他搜索单曲的满意度之和小于所述预设满意度阈值。
31、可选的,所述确定所述所有搜索单曲分别对应的满意度,包括:
32、基于所述所有搜索单曲分别对应的历史下载次数、历史收藏次数、历史加入歌单次数以及历史完播次数确定所述所有搜索单曲分别对应的满意度。
33、可选的,所述基于所述初始排行单曲列表和所述目标曝光单曲列表对所述负样本候选集进行档位标签调整操作,以得到调整后负样本集,包括:
34、从所述目标曝光单曲列表中确定最后一个位于所述初始排行单曲列表中的目标曝光单曲;
35、基于所述目标曝光单曲以及所述目标曝光单曲列表中位于所述目标曝光单曲之前的所有单曲确定目标排行单曲列表;
36、从所述负样本候选集中筛选位于所述目标排行单曲列表中的所有排行负样本,并对所述所有排行负样本进行档位增加操作,以得到高档位负样本集;
37、基于所述负样本候选集中不位于所述目标排行单曲列表中的所有负样本确定低档位负样本集,并对所述高档位负样本集和所述低档位负样本集进行合并,以得到所述调整后负样本集。
38、可选的,所述基于所述目标用户的系统单曲列表以及与所述目标用户的预设满意操作对应的满意单曲列表对所述调整后负样本集进行采样,以得到目标负样本集,包括:
39、确定所述目标用户的系统单曲列表以及与所述目标用户的预设满意操作对应的满意单曲列表;
40、对所述高档位负样本集中位于所述系统单曲列表和所述满本文档来自技高网...
【技术保护点】
1.一种单曲搜索粗排方法,其特征在于,包括:
2.根据权利要求1所述的单曲搜索粗排方法,其特征在于,所述对所述目标曝光单曲列表分别进行窗口采样和长尾采样,以得到负样本候选集,包括:
3.根据权利要求2所述的单曲搜索粗排方法,其特征在于,所述基于所述目标曝光单曲列表中的被点击单曲对所述目标曝光单曲列表进行窗口采样,以得到窗口负样本集,包括:
4.根据权利要求3所述的单曲搜索粗排方法,其特征在于,所述从所述目标曝光单曲列表中分别确定与各所述被点击单曲前后相邻的若干未被点击单曲,以得到与各所述被点击单曲分别对应的第一负样本集,包括:
5.根据权利要求3所述的单曲搜索粗排方法,其特征在于,所述从所述目标曝光单曲列表中分别确定与各所述被点击单曲前后相邻的若干未被点击单曲,以得到与各所述被点击单曲分别对应的第一负样本集,包括:
6.根据权利要求2所述的单曲搜索粗排方法,其特征在于,所述利用预设曝光单曲列表对所述目标曝光单曲列表进行长尾采样,以得到长尾负样本集之前,还包括:
7.根据权利要求6所述的单曲搜索粗排方法,其特征
8.根据权利要求1所述的单曲搜索粗排方法,其特征在于,所述确定与所述目标用户的搜索内容对应的初始排行单曲列表,包括:
9.根据权利要求8所述的单曲搜索粗排方法,其特征在于,所述确定所述所有搜索单曲分别对应的满意度,包括:
10.根据权利要求1所述的单曲搜索粗排方法,其特征在于,所述基于所述初始排行单曲列表和所述目标曝光单曲列表对所述负样本候选集进行档位标签调整操作,以得到调整后负样本集,包括:
11.根据权利要求10所述的单曲搜索粗排方法,其特征在于,所述基于所述目标用户的系统单曲列表以及与所述目标用户的预设满意操作对应的满意单曲列表对所述调整后负样本集进行采样,以得到目标负样本集,包括:
12.根据权利要求11所述的单曲搜索粗排方法,其特征在于,所述系统单曲列表包括系统收藏单曲列表、第一系统完播单曲列表和第二系统完播单曲列表;
13.根据权利要求11所述的单曲搜索粗排方法,其特征在于,确定与所述目标用户的预设满意操作对应的满意单曲列表,包括:
14.根据权利要求1至13任一项所述的单曲搜索粗排方法,其特征在于,所述基于所述目标负样本集构建训练集之前,还包括:
15.一种电子设备,其特征在于,包括:
16.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至14任一项所述的单曲搜索粗排方法。
...【技术特征摘要】
1.一种单曲搜索粗排方法,其特征在于,包括:
2.根据权利要求1所述的单曲搜索粗排方法,其特征在于,所述对所述目标曝光单曲列表分别进行窗口采样和长尾采样,以得到负样本候选集,包括:
3.根据权利要求2所述的单曲搜索粗排方法,其特征在于,所述基于所述目标曝光单曲列表中的被点击单曲对所述目标曝光单曲列表进行窗口采样,以得到窗口负样本集,包括:
4.根据权利要求3所述的单曲搜索粗排方法,其特征在于,所述从所述目标曝光单曲列表中分别确定与各所述被点击单曲前后相邻的若干未被点击单曲,以得到与各所述被点击单曲分别对应的第一负样本集,包括:
5.根据权利要求3所述的单曲搜索粗排方法,其特征在于,所述从所述目标曝光单曲列表中分别确定与各所述被点击单曲前后相邻的若干未被点击单曲,以得到与各所述被点击单曲分别对应的第一负样本集,包括:
6.根据权利要求2所述的单曲搜索粗排方法,其特征在于,所述利用预设曝光单曲列表对所述目标曝光单曲列表进行长尾采样,以得到长尾负样本集之前,还包括:
7.根据权利要求6所述的单曲搜索粗排方法,其特征在于,所述利用预设曝光单曲列表对所述目标曝光单曲列表进行长尾采样,以得到长尾负样本集,包括:
8.根据权利要求1所述的单曲搜索粗排方法,其特征在于,所述确定与所述目标用户的...
【专利技术属性】
技术研发人员:文浩宇,周蓝珺,潘树燊,
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。