数据检索方法和装置、数据处理方法和装置、设备及介质制造方法及图纸

技术编号:34815145 阅读:15 留言:0更新日期:2022-09-03 20:24
提供了一种数据检索方法和装置、数据处理方法和装置、设备及介质,涉及计算机技术领域,能够用于数据检索和数据聚类,实现方法包括:响应于接收到待检索向量,确定待检索向量所对应的至少一个待检索存储介质;针对至少一个待检索存储介质中的每一待检索存储介质,利用该待检索存储介质所对应的存储控制器,从该待检索存储介质所存储的至少一个样本向量中提取第一数量的样本向量,第一数量的样本向量与待检索向量的相似度高于至少一个样本向量中除第一数量的样本向量之外的其它样本向量与待检索向量的相似度;以及基于来自至少一个待检索存储介质中的每一者的第一数量的样本向量,确定待检索向量所对应的检索结果。确定待检索向量所对应的检索结果。确定待检索向量所对应的检索结果。

【技术实现步骤摘要】
数据检索方法和装置、数据处理方法和装置、设备及介质


[0001]本公开涉及计算机
,特别是涉及一种数据检索方法、数据处理方法、数据检索装置、数据处理装置、计算机设备、计算机可读存储介质及计算机程序产品。

技术介绍

[0002]随着网络技术的发展,搜索引擎的功能越来越强大,检索的内容也日益丰富,例如,语音、图片、视频、语音文字、用户行为等,都能够作为检索的样本数据提供给用户。在信息高速发展的时代,用户对于信息的需求在不断的增加。因此,如何能够更加快速、高效、准确地提供检索服务是当前搜索引擎技术面临的挑战。

技术实现思路

[0003]本公开提供一种数据检索方法、数据处理方法、数据检索装置、数据处理装置、计算机设备、计算机可读存储介质及计算机程序产品。
[0004]根据本公开的一方面,提供了一种数据检索方法,包括:响应于接收到待检索向量,确定待检索向量所对应的至少一个待检索存储介质,其中,至少一个待检索存储介质中的每一者均存储有至少一个样本向量,并且每个待检索存储介质均具有对应的存储控制器;针对至少一个待检索存储介质中的每一待检索存储介质,利用该待检索存储介质所对应的存储控制器,从该待检索存储介质所存储的至少一个样本向量中提取第一数量的样本向量,第一数量的样本向量与待检索向量的相似度高于至少一个样本向量中除第一数量的样本向量之外的其它样本向量与待检索向量的相似度;以及基于来自至少一个待检索存储介质中的每一者的第一数量的样本向量,确定待检索向量所对应的检索结果。
[0005]根据本公开的另一方面,提供了一种数据处理方法,包括:将第二数量的质心向量传输至多个存储介质中的每一者所对应的存储控制器,其中,第二数量的质心向量用于划分多个样本向量,每个存储介质均存储有多个样本向量中的部分样本向量;针对多个存储介质中的每一存储介质,利用该存储介质所对应的存储控制器,计算第二数量的质心向量中的每一者与该存储介质中的每个样本向量之间的相似度;以及针对第二数量的质心向量中的每一质心向量执行修正操作,其中,修正操作包括:确定该质心向量所对应的至少一个相似样本向量,其中,每个相似样本向量与该质心向量之间的相似度不小于该相似样本向量与第二数量的质心向量中的其它质心向量之间的相似度;以及基于至少一个相似样本向量,修正该质心向量。
[0006]根据本公开的另一方面,提供了一种数据检索装置,包括:第一确定单元,被配置用于响应于接收到待检索向量,确定待检索向量所对应的至少一个待检索存储介质,其中,至少一个待检索存储介质中的每一者均存储有至少一个样本向量,并且每个待检索存储介质均具有对应的存储控制器;提取单元,被配置用于针对至少一个待检索存储介质中的每一待检索存储介质,利用该待检索存储介质所对应的存储控制器,从该待检索存储介质所存储的至少一个样本向量中提取第一数量的样本向量,第一数量的样本向量与待检索向量
的相似度高于至少一个样本向量中除第一数量的样本向量之外的其它样本向量与待检索向量的相似度;以及第二确定单元,被配置用于基于来自至少一个待检索存储介质中的每一者的第一数量的样本向量,确定待检索向量所对应的检索结果。
[0007]根据本公开的另一方面,提供了一种数据处理装置,包括:传输单元,被配置用于将第二数量的质心向量传输至多个存储介质中的每一者所对应的存储控制器,其中,第二数量的质心向量用于划分多个样本向量,每个存储介质均存储有多个样本向量中的部分样本向量;控制单元,被配置用于针对多个存储介质中的每一存储介质,利用该存储介质所对应的存储控制器,计算第二数量的质心向量中的每一者与该存储介质中的每个样本向量之间的相似度;以及修正单元,被配置用于针对第二数量的质心向量中的每一质心向量执行修正操作,其中,修正单元包括:确定子单元,被配置用于确定该质心向量所对应的至少一个相似样本向量,其中,每个相似样本向量与该质心向量之间的相似度不小于该相似样本向量与第二数量的质心向量中的其它质心向量之间的相似度;以及修正子单元,被配置用于基于至少一个相似样本向量,修正该质心向量。
[0008]根据本公开的另一方面,提供了一种计算机设备,包括:处理器;以及存储器,其上存储有计算机程序,其中,计算机程序在被处理器执行时,使处理器执行上述任意一种方法。
[0009]根据本公开的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,使处理器执行上述任意一种方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,使处理器执行上述任意一种方法。
[0011]根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
[0012]在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
[0013]图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
[0014]图2是图示出根据示例性实施例的数据检索方法的流程图;
[0015]图3是图示出根据示例性实施例的存储控制器的示意图;
[0016]图4是图示出根据示例性实施例的基于多个存储控制器的处理系统的示意图;
[0017]图5是图示出根据另一示例性实施例的数据处理方法的流程图;
[0018]图6是图示出根据示例性实施例的数据检索装置的示意性框图;
[0019]图7是图示出根据示例性实施例的数据处理装置的示意性框图;以及
[0020]图8是图示出能够应用于示例性实施例的示例性计算机设备的框图。
具体实施方式
[0021]在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另
一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
[0022]在本公开中对各种示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。如本文使用的,术语“多个”意指两个或更多,并且术语“基于”应解释为“至少部分地基于”。此外,术语“和/或”以及
“……
中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
[0023]向量检索是信息检索中的一种重要方式。数据库中的每一个样本数据,例如,语音、图片、视频、语音文字、用户行为等均可以用一个向量来表示,称为样本向量。样本向量的数量庞杂,在实际应用中,往往分散地存储于多个不同的存储介质之中。在检索过程中,用户输入的待检索信息也可以用一个向量表示,称为待检索向量。待检索向量需要与数据库中的每一个样本向量计算相似度,并根据每个样本向量所对应的相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据检索方法,包括:响应于接收到待检索向量,确定所述待检索向量所对应的至少一个待检索存储介质,其中,所述至少一个待检索存储介质中的每一者均存储有至少一个样本向量,并且每个待检索存储介质均具有对应的存储控制器;针对所述至少一个待检索存储介质中的每一待检索存储介质,利用该待检索存储介质所对应的存储控制器,从该待检索存储介质所存储的至少一个样本向量中提取第一数量的样本向量,所述第一数量的样本向量与所述待检索向量的相似度高于所述至少一个样本向量中除所述第一数量的样本向量之外的其它样本向量与所述待检索向量的相似度;以及基于来自所述至少一个待检索存储介质中的每一者的第一数量的样本向量,确定所述待检索向量所对应的检索结果。2.根据权利要求1所述的方法,其中,所述确定所述待检索向量所对应的至少一个待检索存储介质包括:在预存的多个候选质心向量中确定与所述待检索向量相匹配的至少一个匹配质心向量,其中,每个匹配质心向量均对应多个样本向量;以及将存储有所述多个样本向量中的至少一个样本向量的存储介质确定为待检索存储介质。3.根据权利要求2所述的方法,其中,所述至少一个匹配质心向量中的每一者为该匹配质心向量所对应的多个样本向量的均值。4.根据权利要求2所述的方法,其中,所述预存的多个候选质心向量具有对应的索引数据结构,并且其中,所述在预存的多个候选质心向量中确定与所述待检索向量相匹配的至少一个匹配质心向量包括:通过对所述索引数据结构的检索,从所述多个候选质心向量中确定至少一个匹配质心向量,所述至少一个匹配质心向量与所述待检索向量的相似度高于所述多个候选质心向量中除所述至少一个匹配质心向量之外的其它候选质心向量与所述待检索向量的相似度。5.根据权利要求1至4中任意一项所述的方法,其中,所述利用该待检索存储介质所对应的存储控制器,从该待检索存储介质所存储的至少一个样本向量中提取第一数量的样本向量包括:计算所述至少一个样本向量中的每一者与所述待检索向量的相似度值;以及通过对所述至少一个样本向量分别对应的相似度值的排序,从该待检索存储介质中提取所述第一数量的样本向量。6.根据权利要求5所述的方法,其中,所述存储控制器中包括用于缓存所述至少一个样本向量中的每一者的相似度值的缓存器。7.根据权利要求5所述的方法,其中,所述基于来自所述至少一个待检索存储介质中的每一者的第一数量的样本向量,确定所述待检索向量所对应的检索结果包括:通过对来自所述至少一个待检索存储介质中的每一者的每个样本向量的相似度值的排序,确定所述待检索向量所对应的检索结果。8.一种数据处理方法,包括:将第二数量的质心向量传输至多个存储介质中的每一者所对应的存储控制器,其中,所述第二数量的质心向量用于划分多个样本向量,每个存储介质均存储有所述多个样本向
量中的部分样本向量;针对所述多个存储介质中的每一存储介质,利用该存储介质所对应的存储控制器,计算所述第二数量的质心向量中的每一者与该存储介质中的每个样本向量之间的相似度;以及针对所述第二数量的质心向量中的每一质心向量执行修正操作,其中,所述修正操作包括:确定该质心向量所对应的至少一个相似样本向量,其中,每个相似样本向量与该质心向量之间的相似度不小于该相似样本向量与所述第二数量的质心向量中的其它质心向量之间的相似度;以及基于所述至少一个相似样本向量中的每一者与该质心向量...

【专利技术属性】
技术研发人员:廖振生周莹陈凯
申请(专利权)人:瀚博半导体上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1