向量数据的查询方法技术

技术编号：38412447 阅读：19 留言：0更新日期：2023-08-07 11:17

本发明专利技术提供了一种向量数据的查询方法，包括：使用聚类算法将查询向量库的所有待查询向量分为多个向量区域，每个向量区域具有一个聚类中心向量；输入第一查询向量，查找第一查询向量与向量区域距离最小的n个向量区域；将第一查询向量与对应的n个向量区域存储在缓存区中；输入第二查询向量，在缓存区中查询是否存在与第二查询向量相同的查询向量；如果有，则直接查找对应的n个向量区域作为第二查询向量对应的n个向量区域；如果不存在，则在存储区中进行查找第二查询向量与区域距离最小的n个区域的操作，将第二查询向量和对应的n个向量区域存储在缓存区中；在存储区中进行从n个向量区域中查询与第二查询向量距离较小的k个待查询向量。询向量。询向量。

全部详细技术资料下载

【技术实现步骤摘要】
向量数据的查询方法

[0001]本专利技术涉及数据处理
，尤其是涉及一种向量数据的查询方法。

技术介绍

[0002]通过向量数据的查询方法，可以根据输入的查询向量在大量的待查询向量中中查找到想要的数据。在向量查询算法中，主要利用一些相似性对比来得到想要的数据，而这些对比方式主要是利用距离计算得到的。
[0003]近似最近邻搜索索引以近似最近邻搜索算法为基础，是用于在高维空间中有效搜索给定查询点的最近邻的数据结构，以搜索准确性为代价提高最近邻查询速度，主流向量数据库都使用近似最近邻检索索引。现有技术的近似最近邻搜索算法大多是基于内存的算法，基于内存的算法意味着是在进行查询操作前需要将存储区中所有的向量数据载入进内存。
[0004]但是，随着向量数据的爆炸性增长和向量数据处理技术在实际业务中的应用场景增多，需要向量数据库处理的向量数据量从百万级别上升到了亿级别，在亿级别或更高的数据量情况下，将存储区中所有的向量数据载入进内存变得不现实，将现有技术的基于内存的搜索算法应用于硬盘上的向量数据会带来巨大的性能损耗，对硬盘I/O带来了巨大压力。

技术实现思路

[0005]本专利技术的目的在于提供一种向量数据的查询方法，可以减少在硬盘中进行查询向量的查询计算的步骤，从而，可以减少硬盘I/O压力和性能损耗。
[0006]为了达到上述目的，本专利技术提供了一种向量数据的查询方法，包括：使用聚类算法将查询向量库的所有待查询向量分为多个向量区域，每个所述向量区域具有一个聚类中心向量；输入第一查...

【技术保护点】

【技术特征摘要】
1.一种向量数据的查询方法，其特征在于，包括：使用聚类算法将查询向量库的所有待查询向量分为多个向量区域，每个所述向量区域具有一个聚类中心向量；输入第一查询向量，查找所述第一查询向量与所述向量区域距离最小的n个向量区域；将所述第一查询向量与对应的n个向量区域存储在缓存区中；输入第二查询向量，在所述缓存区中查询是否存在与所述第二查询向量相同的查询向量；如果所述缓存区中存在与所述第二查询向量相同的查询向量，则直接查找该查询向量对应的n个向量区域，作为所述第二查询向量对应的n个向量区域；如果所述缓存区中查询不存在与所述第二查询向量相同的查询向量，则在存储区中进行查找所述第二查询向量与所述向量区域距离最小的n个向量区域的操作，同时，将所述第二查询向量和对应的n个向量区域存储在所述缓存区中或者使用所述第二查询向量和对应的n个向量区域替换所述缓存区中的某一查...

【专利技术属性】
技术研发人员：吴一梵，苏鹏，李剑楠，黄炎，李恒，阎虎青，陈书俊，
申请(专利权)人：上海爱可生信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人