短视频排序及模型训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:31083712 阅读:13 留言:0更新日期:2021-12-01 12:32
本发明专利技术实施例提供了一种短视频搜索的排序及模型训练方法、装置,应用于对短视频进行粗排的场景中,其中,所述排序方法包括:获取待排序的多路短视频召回文件;生成多路所述短视频召回文件的特征数组;将多路所述特征数组输入至训练完毕的网络模型,对应输出多路所述短视频召回文件的召回分数;选择出满足预设排序条件的所述召回分数对应的短视频召回文件,作为多路所述短视频召回文件的排序结果。本发明专利技术避免了利用通用的公式对召回文件进行粗排,基于训练完毕的网络模型对多路短视频召回文件进行排序,可以解决现有的粗排方案无法适应多路的短视频召回文件,而且,粗排效率低的技术问题,达到适配多路的短视频召回文件,提升粗排效率的效果。排效率的效果。排效率的效果。

【技术实现步骤摘要】
短视频排序及模型训练方法、装置、电子设备和存储介质


[0001]本专利技术涉及计算机
,特别是涉及一种短视频搜索的排序方法和装置,一种网络模型的训练方法和装置,以及一种电子设备和一种计算机可读存储介质。

技术介绍

[0002]在搜索系统中,粗排可以理解为粗略排序,精排可以理解为精确排序。粗排的作用为从召回的数千个结果中筛选出几百个提供给精排,对最终的搜索结果起着至关重要的作用。
[0003]受限于性能等因素的制约,目前的搜索系统利用通用的公式进行粗排,通用的公式中的参数对应固定的几个特征。在短视频场景下,每一路的召回文件具有明显差别的特征,通用的公式无法适应具有不同特征的不同路的召回文件。而且,对短视频进行粗排时需要同时处理大量的召回文件,现有的粗排方案只能依次对单个召回文件进行打分,然后根据打分结果进行排序。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种短视频搜索的排序方法和装置,一种网络模型的训练方法和装置,以及一种电子设备和一种计算机可读存储介质,解决了传统的粗排方案无法适应多路的召回文件,而且,粗排效率低的问题。具体技术方案如下:
[0005]在本专利技术实施的第一方面,首先提供了一种短视频搜索的排序方法,包括:获取待排序的多路短视频召回文件;生成多路所述短视频召回文件的特征数组;将多路所述特征数组输入至训练完毕的网络模型,对应输出多路所述短视频召回文件的召回分数;选择出满足预设排序条件的所述召回分数对应的短视频召回文件,作为多路所述短视频召回文件的排序结果。
[0006]可选地,所述生成多路所述短视频召回文件的特征数组,包括:获取多路所述视频召回文件的在各维度的特征数据;对所述特征数据进行压缩存储,得到所述特征数组。
[0007]可选地,所述获取多路所述视频召回文件的在各维度的特征数据,包括:获取多路所述视频召回文件在文档维度的以下特征之一:质量特征、新鲜度特征、用户特征;和/或,获取多路所述视频召回文件在查询维度的查询类别特征;和/或,获取多路所述视频召回文件在查询与文档维度的以下特征之一:点击率特征、观看时长特征、展示特征。
[0008]可选地,所述对所述特征数据进行压缩存储,得到所述特征数组,包括:将所述特征数据存储进压缩稀疏行格式的稀疏矩阵,得到所述特征数组。
[0009]可选地,所述选择出满足预设排序条件的所述召回分数对应的短视频召回文件,作为多路所述短视频召回文件的排序结果,包括:按照所述召回分数对多路所述短视频召回文件进行降序排列;将降序排列后靠前的预设数量的所述短视频召回文件作为所述排序结果。
[0010]在本专利技术实施的第二方面,还提供了一种网络模型的训练方法,包括:获取多路的
短视频召回样本文件;为多路所述短视频召回样本文件添加对应的样本特征;根据多路所述短视频召回样本文件和对应的所述样本特征对网络模型进行训练。
[0011]可选地,所述获取多路的短视频召回样本文件,包括:根据观看时长和/或展示点击情况获取多路的短视频召回正样本文件和多路的短视频召回负样本文件。
[0012]可选地,所述为多路所述短视频召回样本文件添加对应的样本特征,包括:为多路所述短视频召回样本文件,添加以下样本特征之一:召回源信息样本特征、召回分数样本特征、召回文件样本特征、用户展示点击样本特征、用户行为样本特征。
[0013]在本专利技术实施的第三方面,还提供了一种短视频搜索的排序装置,包括:文件获取模块,用于获取待排序的多路短视频召回文件;特征生成模块,用于生成多路所述短视频召回文件的特征数组;分数输出模块,用于将多路所述特征数组输入至训练完毕的网络模型,对应输出多路所述短视频召回文件的召回分数;文件选择模块,用于选择出满足预设排序条件的所述召回分数对应的短视频召回文件,作为多路所述短视频召回文件的排序结果。
[0014]可选地,所述特征生成模块,包括:特征数据获取模块,用于获取多路所述视频召回文件的在各维度的特征数据;压缩存储模块,用于对所述特征数据进行压缩存储,得到所述特征数组。
[0015]可选地,所述特征数据获取模块,用于获取多路所述视频召回文件在文档维度的以下特征之一:质量特征、新鲜度特征、用户特征;和/或,获取多路所述视频召回文件在查询维度的查询类别特征;和/或,获取多路所述视频召回文件在查询与文档维度的以下特征之一:点击率特征、观看时长特征、展示特征。
[0016]可选地,所述压缩存储模块,用于将所述特征数据存储进压缩稀疏行格式的稀疏矩阵,得到所述特征数组。
[0017]可选地,所述文件选择模块,包括:分数排序模块,用于按照所述召回分数对多路所述短视频召回文件进行降序排列;结果确定模块,用于将降序排列后靠前的预设数量的所述短视频召回文件作为所述排序结果。
[0018]在本专利技术实施的第四方面,还提供了一种网络模型的训练装置,包括:样本获取模块,用于获取多路的短视频召回样本文件;特征添加模块,用于为多路所述短视频召回样本文件添加对应的样本特征;模型训练模块,用于根据多路所述短视频召回样本文件和对应的所述样本特征对网络模型进行训练。
[0019]可选地,所述样本获取模块,用于根据观看时长和/或展示点击情况获取多路的短视频召回正样本文件和多路的短视频召回负样本文件。
[0020]可选地,所述特征添加模块,用于为多路所述短视频召回样本文件,添加以下样本特征之一:召回源信息样本特征、召回分数样本特征、召回文件样本特征、用户展示点击样本特征、用户行为样本特征。
[0021]在本专利技术实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面所述的短视频搜索的排序方法或第二方面所述的网络模型的训练方法。
[0022]在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行第一方面所述的短视频
搜索的排序方法或第二方面所述的网络模型的训练方法。
[0023]在本专利技术实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第一方面所述的短视频搜索的排序方法或第二方面所述的网络模型的训练方法。
[0024]本专利技术实施例提供的短视频搜索的排序方案,通过采用获取多路短视频召回文件,根据多路短视频召回文件的特征数组和网络模型,输出多路短视频召回文件的召回分数,再根据召回分数确定排序结果的技术手段。避免了利用通用的公式对召回文件进行排序,基于训练完毕的网络模型对多路短视频召回文件进行排序,可以解决现有的粗排方案无法适应多路的短视频召回文件,而且,粗排效率低的技术问题,达到适配多路的短视频召回文件,提升粗排效率的效果。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种短视频搜索的排序方法,其特征在于,包括:获取待排序的多路短视频召回文件;生成多路所述短视频召回文件的特征数组;将多路所述特征数组输入至训练完毕的网络模型,对应输出多路所述短视频召回文件的召回分数;选择出满足预设排序条件的所述召回分数对应的短视频召回文件,作为多路所述短视频召回文件的排序结果。2.根据权利要求1所述的方法,其特征在于,所述生成多路所述短视频召回文件的特征数组,包括:获取多路所述视频召回文件的在各维度的特征数据;对所述特征数据进行压缩存储,得到所述特征数组。3.根据权利要求2所述的方法,其特征在于,所述获取多路所述视频召回文件的在各维度的特征数据,包括:获取多路所述视频召回文件在文档维度的以下特征之一:质量特征、新鲜度特征、用户特征;和/或,获取多路所述视频召回文件在查询维度的查询类别特征;和/或,获取多路所述视频召回文件在查询与文档维度的以下特征之一:点击率特征、观看时长特征、展示特征。4.根据权利要求2所述的方法,其特征在于,所述对所述特征数据进行压缩存储,得到所述特征数组,包括:将所述特征数据存储进压缩稀疏行格式的稀疏矩阵,得到所述特征数组。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述选择出满足预设排序条件的所述召回分数对应的短视频召回文件,作为多路所述短视频召回文件的排序结果,包括:按照所述召回分数对多路所述短视频召回文件进行降序排列;将降序排列后靠前的预设数量的所述短视频召回文件作为所述排序结果。6.一种网络模型的训练方法,其特征在于,包括:获取多路的短视频召回样本文件;为多路所述短视频召回样本文件添加对应的样本特征;根据多路所述短视频召回样本文件和对应的所述样本特征对网络模型进行训练。7.根据权利要求6所述的方法,其特征在于,所述获...

【专利技术属性】
技术研发人员:温恒一
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1