搜索方法、可读存储介质和电子设备技术

技术编号:27030699 阅读:75 留言:0更新日期:2021-01-12 11:13
本发明专利技术实施例公开了一种搜索方法、可读存储介质和电子设备,所述方法基于中央处理器(CPU)和图形处理器(GPU)构成的异构计算机架构对数据进行搜索,实现了搜索时根据属性标签对数据进行筛选,且利用了图形处理器并行加速的优势,避免了在图形处理器中做数据处理时因数据规模庞大产生的性能瓶颈。同时构建了一个包括在中央处理器中数据筛选步骤和由中央处理器至图形处理器数据传输步骤的流水线,通过流水线内各部件并行的进行数据筛选,传输和计算搜索操作,有效的掩盖在中央处理器中对数据进行筛选及拷贝所产生的额外开销。

【技术实现步骤摘要】
搜索方法、可读存储介质和电子设备
本专利技术涉及计算机
,尤其涉及一种搜索方法、可读存储介质和电子设备。
技术介绍
相似度查询泛指通过比较相似性,对一些数据对象进行搜索,例如在图片库里搜索和指定的某张图片最相似的一张或多张图片。在现代大数据运用中,数据规模愈加庞大,数据类型也更多种多样,进行高效的相似度查询变得尤为重要,例如对文字、图片、语音、视频等复杂的数据进行查询。目前在进行相似度搜索时我们通常选用的方法为最邻近搜索。所述最邻近搜索是指在搜索空间内找到距离指定的搜索对象最近的一个或多个数据,包括多种算法。其中用于判断与所述指定的搜索对象距离的依据有很多种,最经典的是欧几里得距离。但现有的最邻近搜索算法不支持在数据集带有额外属性标签的情况下,在搜索时筛选数据的属性标签。例如,现有算法能够在图片库里找到和某张人脸最相似的图片,但在搜索时不能筛选出带有“年龄为20岁”“喜欢打篮球”等属性标签,并和搜索人脸对象最相似的图片。
技术实现思路
有鉴于此,本专利技术实施例提供一种搜索方法、可读存储介质和电子设备,旨在进行最邻近搜索的时能够通过属性标签对数据进行筛选。第一方面,本专利技术实施例提供了一种搜索方法,包括:根据输入对象确定检索特征向量和第一标签;根据第一标签和所述检索特征向量确定第一数据集,所述第一数据集包括至少一个数据子集,每个所述数据子集包括多个经聚类的特征向量和与所述特征向量对应的第二标签;确定所述每个数据子集的筛选模式,所述筛选模式包括在中央处理器或图形处理器中进行筛选;根据所述第一标签和确定的筛选模式对所述第一数据集中的数据子集进行筛选;将所述检索特征向量和筛选的数据子集中的特征向量进行匹配;根据匹配结果确定输出数据。进一步地,所述根据第一标签和所述检索特征向量确定第一数据集包括:确定第二数据集,所述第二数据集包含全部可搜索的数据子集;根据所述第一标签和每个数据子集中包含的特征向量对应的第二标签确定筛选强度,所述筛选强度用于判断每个数据子集经筛选后包含的特征向量数量;根据所述第二数据集中包含的数据子集数量和每个数据子集对应的筛选强度确定所述第一数据集中包含的数据子集数量N;计算所述检索特征向量与所述第二数据集包含的每个数据子集中心的距离,所述数据子集中心用于表征对应的数据子集;根据所述距离确定N个数据子集组成第一数据集。进一步地,所述确定所述每个数据子集的筛选模式包括:响应于所述数据子集对应的筛选强度高于第一阈值,确定所述数据子集的筛选模式为在所述中央处理器中进行筛选。进一步地,所述确定所述每个数据子集的筛选模式包括:响应于所述数据子集对应的筛选强度低于第一阈值,确定所述数据子集的筛选模式为在所述图形处理器中进行筛选。进一步地,所述根据所述第一标签和确定的筛选模式对所述第一数据集中的数据子集进行筛选包括:响应于所述数据子集的筛选模式为在所述图形处理器中进行筛选,将所述数据子集传输至所述图形处理器进行筛选。进一步地,所述根据所述第一标签和确定的筛选模式对所述第一数据集中的数据子集进行筛选包括:响应于所述数据子集的筛选模式为在所述中央处理器中进行筛选,通过中央处理器的第一处理单元在所述中央处理器中进行数据子集的筛选;以及在筛选完成后,通过所述中央处理器的第二处理单元将所述筛选后的数据子集传输至所述图形处理器。进一步地,在所述第二处理单元将所述筛选后的数据子集传输至所述图形处理器的同时,通过所述第一处理单元处理下一个数据子集的筛选。进一步地,所述通过所述中央处理器的第二处理单元将所述筛选后的数据子集传输至所述图形处理器包括:响应于多个完成筛选的数据子集中包含的特征向量数量小于第二阈值,将所述多个数据子集合成一个数据子集后传输至所述图形处理器。第二方面,本专利技术实施例还提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面任一项所述的方法。第三方面,本专利技术实施例还提供一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面任一项所述的方法。本申请实施例基于中央处理器(CPU)和图形处理器(GPU)构成的异构计算机架构对数据进行搜索,实现了搜索时根据属性标签对数据进行筛选,且利用了图形处理器并行加速的优势,避免了在图形处理器中做数据处理时因数据规模庞大产生的性能瓶颈。同时通过构建流水线并行的进行数据筛选,传输和计算搜索操作,有效的掩盖在中央处理器中对数据进行筛选及拷贝所产生的额外开销。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:图1为异构计算机架构的示意图;图2为本专利技术实施例的搜索方法的流程图;图3为本专利技术实施例的一种可选实现方式根据第一标签和所述检索特征向量确定第一数据集的流程图;图4为本专利技术实施例的确定第二数据集过程的示意图;图5为本专利技术实施例的数据筛选步骤和数据传输步骤构成的流水线示意图;图6为本专利技术实施例的一种电子设备示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。图1为异构计算机架构的示意图,如图1所示,所述异构计算机架构由中央处理器(CPU)和图形处理器(GPU)组成,所述中央处理器和图形处理器通过高速串行总线(PCIe-bus)连接。具体地,所述中央处理器和所述图形处理器的运算核心包括控制单元(control)10、运算器(ALU)11、高速缓冲存储器(cache)12和动态随机存取存储器(DRAM)13。由图可见,中央处理器中的中的运算核心较少而图形处理器中的运算核心较多,使得所述图形处理器更为适合执行计算简单但并行性高的任务,而所述中央处理器更为适合执行计算复杂但并行性低的任务。在本专利技术实施例提供的搜索方法过程中,可以通过中央处理器处理计算复杂且并行性较低的任务,例如确定第一数据集、确定每个数据子集的筛选模式等过程。同时可以通过图形本文档来自技高网...

【技术保护点】
1.一种搜索方法,其特征在于,包括:/n根据输入对象确定检索特征向量和第一标签;/n根据第一标签和所述检索特征向量确定第一数据集,所述第一数据集包括至少一个数据子集,每个所述数据子集包括多个经聚类的特征向量和与所述特征向量对应的第二标签;/n确定所述每个数据子集的筛选模式,所述筛选模式包括在中央处理器或图形处理器中进行筛选;/n根据所述第一标签和确定的筛选模式对所述第一数据集中的数据子集进行筛选;/n将所述检索特征向量和筛选的数据子集中的特征向量进行匹配;/n根据匹配结果确定输出数据。/n

【技术特征摘要】
1.一种搜索方法,其特征在于,包括:
根据输入对象确定检索特征向量和第一标签;
根据第一标签和所述检索特征向量确定第一数据集,所述第一数据集包括至少一个数据子集,每个所述数据子集包括多个经聚类的特征向量和与所述特征向量对应的第二标签;
确定所述每个数据子集的筛选模式,所述筛选模式包括在中央处理器或图形处理器中进行筛选;
根据所述第一标签和确定的筛选模式对所述第一数据集中的数据子集进行筛选;
将所述检索特征向量和筛选的数据子集中的特征向量进行匹配;
根据匹配结果确定输出数据。


2.如权利要求1所述的方法,其特征在于,所述根据第一标签和所述检索特征向量确定第一数据集包括:
确定第二数据集,所述第二数据集包含全部可搜索的数据子集;
根据所述第一标签和每个数据子集中包含的特征向量对应的第二标签确定筛选强度,所述筛选强度用于判断每个数据子集经筛选后包含的特征向量数量;
根据所述第二数据集中包含的数据子集数量和每个数据子集对应的筛选强度确定所述第一数据集中包含的数据子集数量N;
计算所述检索特征向量与所述第二数据集包含的每个数据子集中心的距离,所述数据子集中心用于表征对应的数据子集;
根据所述距离确定N个数据子集组成第一数据集。


3.如权利要求2所述的方法,其特征在于,所述确定所述每个数据子集的筛选模式包括:
响应于所述数据子集对应的筛选强度高于第一阈值,确定所述数据子集的筛选模式为在所述中央处理器中进行筛选。


4.如权利要求2所述的方法,其特征在于,所述确定所述每个数据子集的筛选模式包括:
响应于所述数据子集对应的筛选强度低于第一阈值,确定所述数据子...

【专利技术属性】
技术研发人员:谢超竺知茹易小萌
申请(专利权)人:上海赜睿信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1