一种哈希特征压缩方法及相关装置制造方法及图纸

技术编号:33079911 阅读:27 留言:0更新日期:2022-04-15 10:30
本申请实施例公开了一种人工智能领域的哈希特征压缩方法及相关装置,其中该方法包括:获取属于目标数据类型的目标对象对应的待压缩哈希码,待压缩哈希码是通过目标哈希模型编码处理目标对象的目标特征得到的;基于低效哈希位索引确定待压缩哈希码中的低效哈希位并去除低效哈希位,得到目标对象对应的压缩哈希码;低效哈希位索引是目标哈希码中重要度满足预设非重要条件的哈希位的索引值;低效哈希位索引是根据属于目标数据类型的训练对象的目标特征和通过目标哈希模型编码处理训练对象的目标特征得到的训练哈希码确定的。该方法能够有效减少哈希码中参考价值较低的信息,可实现多媒体检索、广告检索等车联网场景或者智慧交通场景下的应用。慧交通场景下的应用。慧交通场景下的应用。

【技术实现步骤摘要】
一种哈希特征压缩方法及相关装置


[0001]本申请涉及计算机
,尤其涉及一种哈希特征压缩方法及相关装置。

技术介绍

[0002]随着互联网技术和计算机技术的迅速发展,图像、文本、视频等多媒体数据急剧增长,大规模数据检索已成为目前的研究热点。面对海量的多媒体数据,最近邻搜索(Approximate Nearest Neighbor,ANN)技术表现出了明显的应用优势,从而成为数据检索领域中一项关键技术。
[0003]ANN技术下的哈希技术由于具备低廉的存储成本以及高效的查询效率,得到了相关技术人员越来越多的关注。哈希技术用于将高维数据编码成低维紧凑的二值哈希码;具体的,给定一个d维的样本特征向量x
i
∈R1×
d
,哈希技术旨在通过一个映射(即哈希函数)将该样本特征向量编码成r维的二值哈希码b
i
∈{+1,

1}1×
r
,其中r<<d。经哈希编码后,样本之间的距离可以通过汉明距离表示,而汉明距离的计算可通过计算机的位异或(XOR)支持,从而实现距离度量的加速。
[0004]在一些情况下,通过哈希技术计算得到的哈希码中可能包括参考价值较低的信息(如冗余信息等),即哈希码中并非所有哈希位均是有意义的、均能起到积极作用,存储这种哈希码会造成存储资源的浪费,增加不必要的存储成本。

技术实现思路

[0005]本申请实施例提供了一种哈希特征压缩方法及相关装置,能够有效减少哈希码中参考价值较低的信息,同时保留哈希码中参考价值较高的信息,使得存储资源能够得到合理的利用。
[0006]有鉴于此,本申请第一方面提供了一种哈希特征压缩方法,所述方法包括:
[0007]获取目标对象对应的待压缩哈希码;所述目标对象属于目标数据类型,所述待压缩哈希码是通过目标哈希模型对所述目标对象的目标特征进行编码处理得到的;
[0008]基于低效哈希位索引确定所述待压缩哈希码中的低效哈希位,去除所述待压缩哈希码中的所述低效哈希位,得到所述目标对象对应的压缩哈希码;
[0009]其中,所述低效哈希位索引是目标哈希码中重要度满足预设非重要条件的哈希位的索引值,所述目标哈希码是通过所述目标哈希模型对属于所述目标数据类型的对象的目标特征进行编码处理得到的哈希码;所述低效哈希位索引是根据训练对象的目标特征、和通过所述目标哈希模型对所述训练对象的目标特征进行编码处理得到的训练哈希码确定的,所述训练对象属于所述目标数据类型。
[0010]本申请第二方面提供了一种哈希特征压缩装置,所述装置包括:
[0011]哈希码获取模块,用于获取目标对象对应的待压缩哈希码;所述目标对象属于目标数据类型,所述待压缩哈希码是通过目标哈希模型对所述目标对象的目标特征进行编码处理得到的;
[0012]哈希码压缩模块,用于基于低效哈希位索引确定所述待压缩哈希码中的低效哈希位,去除所述待压缩哈希码中的所述低效哈希位,得到所述目标对象对应的压缩哈希码;其中,所述低效哈希位索引是目标哈希码中重要度满足预设非重要条件的哈希位的索引值,所述目标哈希码是通过所述目标哈希模型对属于所述目标数据类型的对象的目标特征进行编码处理得到的哈希码;所述低效哈希位索引是根据训练对象的目标特征、和通过所述目标哈希模型对所述训练对象的目标特征进行编码处理得到的训练哈希码确定的,所述训练对象属于所述目标数据类型。
[0013]可选的,所述装置还包括:哈希索引确定模块;所述哈希索引确定模块包括:
[0014]第一特征确定子模块,用于根据n个所述训练对象各自的目标特征,构建训练目标特征矩阵;所述n为大于或等于1的整数;
[0015]第二特征确定子模块,用于通过所述目标哈希模型,对n个所述训练对象各自的目标特征分别进行编码处理,得到n个所述训练对象各自对应的训练哈希码;并根据n个所述训练对象各自对应的训练哈希码,构建训练哈希特征矩阵;
[0016]低效索引确定子模块,用于根据所述训练目标特征矩阵和所述训练哈希特征矩阵,确定所述训练哈希码中各个哈希位各自对应的重要度;并将所对应的重要度满足所述预设非重要条件的哈希位的索引值,作为所述低效哈希位索引。
[0017]可选的,所述低效索引确定子模块具体用于:
[0018]基于哈希位重要度衡量算法,根据所述训练目标特征矩阵和所述训练哈希特征矩阵,确定所述训练哈希码中各个哈希位各自对应的重要度;
[0019]其中,所述哈希位重要度衡量算法是以最小化目标函数为目标确定的;所述目标函数用于表征n个所述训练对象在目标特征空间下的相似度与n个所述训练对象在哈希特征空间下的参考相似度之间的差距,所述n个训练对象在哈希特征空间下的参考相似度是基于重要度矩阵对n个所述训练哈希码之间的相似度进行处理得到的,所述重要度矩阵包括所述训练哈希码中各个哈希位各自对应的重要度。
[0020]可选的,所述低效索引确定子模块具体用于:
[0021]根据所述训练哈希特征矩阵和所述训练哈希特征矩阵对应的转置矩阵,计算第一参考矩阵;计算所述第一参考矩阵与其自身的哈达玛积,得到第二参考矩阵;
[0022]对所述训练目标特征矩阵中的元素进行归一化处理,得到归一训练目标特征矩阵;根据所述归一训练目标特征矩阵对应的转置矩阵和所述训练哈希特征矩阵,计算第三参考矩阵;计算所述第三参考矩阵与其自身的哈达玛积,得到第四参考矩阵;
[0023]根据所述第二参考矩阵和所述第四参考矩阵,计算所述重要度矩阵;所述重要度矩阵中各对角元素的取值分别为所述训练哈希码中各个哈希位各自对应的重要度。
[0024]可选的,所述低效索引确定子模块具体用于:
[0025]对所述训练哈希码中各个哈希位各自对应的重要度进行升序排序,确定排序靠前的a个重要度对应的哈希位的索引值,作为所述低效哈希位索引;所述a为大于或等于1的整数;
[0026]分别去除n个所述训练哈希码中所述低效哈希位索引对应的哈希位,得到n个更新后的训练哈希码;根据n个所述更新后的训练哈希码,构建更新后的训练哈希特征矩阵;
[0027]根据所述训练目标特征矩阵和所述更新后的训练哈希特征矩阵,确定所述更新后
的训练哈希码中各个哈希位各自对应的重要度;并对所述更新后的训练哈希码中各个哈希位各自对应的重要度进行升序排序,确定排序靠前的a个重要度对应的哈希位的索引值,作为所述低效哈希位索引;
[0028]重复执行上述过程,直至所确定的所述低效哈希位索引的数量达到预设数量。
[0029]可选的,所述哈希码获取模块具体用于:
[0030]通过m1种所述目标哈希模型,分别对所述目标对象的目标特征进行编码处理,得到m1种所述目标哈希模型各自对应的哈希码;所述m1为大于1的整数;
[0031]拼接m1种所述目标哈希模型各自对应的哈希码,得到所述目标对象对应的待压缩哈希码。
[0032]可选的,所述哈希码获取模块具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种哈希特征压缩方法,其特征在于,所述方法包括:获取目标对象对应的待压缩哈希码;所述目标对象属于目标数据类型,所述待压缩哈希码是通过目标哈希模型对所述目标对象的目标特征进行编码处理得到的;基于低效哈希位索引确定所述待压缩哈希码中的低效哈希位,去除所述待压缩哈希码中的所述低效哈希位,得到所述目标对象对应的压缩哈希码;其中,所述低效哈希位索引是目标哈希码中重要度满足预设非重要条件的哈希位的索引值,所述目标哈希码是通过所述目标哈希模型对属于所述目标数据类型的对象的目标特征进行编码处理得到的哈希码;所述低效哈希位索引是根据训练对象的目标特征、和通过所述目标哈希模型对所述训练对象的目标特征进行编码处理得到的训练哈希码确定的,所述训练对象属于所述目标数据类型。2.根据权利要求1所述的方法,其特征在于,所述低效哈希位索引是通过以下方式确定的:根据n个所述训练对象各自的目标特征,构建训练目标特征矩阵;所述n为大于或等于1的整数;通过所述目标哈希模型,对n个所述训练对象各自的目标特征分别进行编码处理,得到n个所述训练对象各自对应的训练哈希码;并根据n个所述训练对象各自对应的训练哈希码,构建训练哈希特征矩阵;根据所述训练目标特征矩阵和所述训练哈希特征矩阵,确定所述训练哈希码中各个哈希位各自对应的重要度;并将所对应的重要度满足所述预设非重要条件的哈希位的索引值,作为所述低效哈希位索引。3.根据权利要求2所述的方法,其特征在于,所述根据所述训练目标特征矩阵和所述训练哈希特征矩阵,确定所述训练哈希码中各个哈希位各自对应的重要度,包括:基于哈希位重要度衡量算法,根据所述训练目标特征矩阵和所述训练哈希特征矩阵,确定所述训练哈希码中各个哈希位各自对应的重要度;其中,所述哈希位重要度衡量算法是以最小化目标函数为目标确定的;所述目标函数用于表征n个所述训练对象在目标特征空间下的相似度与n个所述训练对象在哈希特征空间下的参考相似度之间的差距,所述n个训练对象在哈希特征空间下的参考相似度是基于重要度矩阵对n个所述训练哈希码之间的相似度进行处理得到的,所述重要度矩阵包括所述训练哈希码中各个哈希位各自对应的重要度。4.根据权利要求3所述的方法,其特征在于,所述基于哈希位重要度衡量算法,根据所述训练目标特征矩阵和所述训练哈希特征矩阵,确定所述训练哈希码中各个哈希位各自对应的重要度,包括:根据所述训练哈希特征矩阵和所述训练哈希特征矩阵对应的转置矩阵,计算第一参考矩阵;计算所述第一参考矩阵与其自身的哈达玛积,得到第二参考矩阵;对所述训练目标特征矩阵中的元素进行归一化处理,得到归一训练目标特征矩阵;根据所述归一训练目标特征矩阵对应的转置矩阵和所述训练哈希特征矩阵,计算第三参考矩阵;计算所述第三参考矩阵与其自身的哈达玛积,得到第四参考矩阵;根据所述第二参考矩阵和所述第四参考矩阵,计算所述重要度矩阵;所述重要度矩阵中各对角元素的取值分别为所述训练哈希码中各个哈希位各自对应的重要度。
5.根据权利要求2至4任一项所述的方法,其特征在于,所述将所对应的重要度满足所述预设非重要条件的哈希位的索引值,作为所述低效哈希位索引,包括:对所述训练哈希码中各个哈希位各自对应的重要度进行升序排序,确定排序靠前的a个重要度对应的哈希位的索引值,作为所述低效哈希位索引;所述a为大于或等于1的整数;分别去除n个所述训练哈希码中所述低效哈希位索引对应的哈希位,得到n个更新后的训练哈希码;根据n个所述更新后的训练哈希码,构建更新后的训练哈希特征矩阵;根据所述训练目标特征矩阵和所述更新后的训练哈希特征矩阵,确定所述更新后的训练哈希码中各个哈希位各自对应的重要度;并对所述更新后的训练哈希码中各个哈希位各自对应的重要度进行升序排序,确定排序靠前的a个重要度对应的哈希位的索引值,作为所述低效哈希位索引;重复执行上述过程,直至所确定的所述低效哈希位索引的数量达到预设数量。6.根据权利要求1所述的方法,其特征在于,所述获取目标对象对应的待压缩哈希码,包括:通过m1种所述目标哈希模型,分别对所述目标对象的目标特征进行编码处理,得到m1种所述目标哈希模型各自对应的哈希码;所述m1为大于1的整数;拼接m1种所述目标哈希模型各自对应的哈希码,得到所述目标对象对应的待压缩哈希码。7.根据...

【专利技术属性】
技术研发人员:刘威林庆泓蒋杰田上萱赵文哲
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1