基于向量索引的工业品物料替换物料搜索方法及系统技术方案

技术编号:38073715 阅读:9 留言:0更新日期:2023-07-06 08:42
本发明专利技术提供了一种基于向量索引的工业品物料替换物料搜索方法及系统,包括:步骤S1:根据品类物料的使用场景和物料特点,设置物料的技术属性架构;步骤S2:将技术属性结合技术属性权重编码为技术属性向量;步骤S3:基于FAISS搭建技术属性的向量索引,通过向量索引检索计算物料的可替换物料集合,并根据向量距离排序;所述物料的技术属性架构包括当前品类物料具备的技术属性以及当前技术属性对描述当前物料的权重。物料的权重。物料的权重。

【技术实现步骤摘要】
基于向量索引的工业品物料替换物料搜索方法及系统


[0001]本专利技术涉及向量搜索
,具体地,涉及基于向量索引的工业品物料替换物料搜索方法及系统,更为具体地,涉及基于专家经验和向量索引的工业品物料替换物料搜索方法。

技术介绍

[0002]目前众多物料相似计算方法采用文本和图像相似度进行判断。基于图像和文本的相似度计算难以将其技术属性作为相似因素,即使将技术属性作为文本一起嵌入,也难以根据不同品类区分不同技术属性的重要程度。由于在工业品领域中物料是否相似是否可替换主要取决于其品类以及技术属性,所以基于文本和图像相似度的相似商品计算方法无法确保结果的可靠性。
[0003]专利文献CN104504055B(申请号:201410798968.3)公开了基于图像相似度的商品相似计算方法及商品推荐系统,所述方法包括:对目标图像进行预处理,去除亮度、色差等光照条件的变化所带来的图像差异;对目标图像进行处理检测出前景框;通过双线性插值,把前景框内的商品图像变换为不同尺度的像素图,在不同尺度下的获取前景框中商品图像不同维度的属性特征;计算前景框中商品图像属性特征向量与商品样本图像属性特征向量在不同维度下属性特征相似度;采用决策森林模型联合不同维度下的属性特征相似度,计算前景框中商品图像与商品样本图像在不同尺度的像素图像下的商品图像的相似度;以商品图像作为商品在不同商务平台的统一标识,极大地增加了推荐系统的可靠性。该专利虽然使用了基于图像相似度的相似商品计算方法,但计算结果相对粗糙,无法适用与要求严格的工业品领域。
>
技术实现思路

[0004]针对现有技术中的缺陷,本专利技术的目的是提供一种基于向量索引的工业品物料替换物料搜索方法及系统。
[0005]根据本专利技术提供的一种基于向量索引的工业品物料替换物料搜索方法,包括:
[0006]步骤S1:根据品类物料的使用场景和物料特点,设置物料的技术属性架构;
[0007]步骤S2:将技术属性结合技术属性权重编码为技术属性向量;
[0008]步骤S3:基于FAISS搭建技术属性的向量索引,通过向量索引检索计算物料的可替换物料集合,并根据向量距离排序;
[0009]所述物料的技术属性架构包括当前品类物料具备的技术属性以及当前技术属性对描述当前物料的权重。
[0010]优选地,所述步骤S1采用:
[0011]步骤S1.1:基于商品物料库中的商品物料数据,对商品物料品类和技术属性数据进行预处理;
[0012]步骤S1.2:对预处理后的技术属性数据按品类统计分析得到各品类物料包含的技
术属性以及各技术属性在各品类下的出现率;
[0013]步骤S1.3:基于统计分析结果为各品类设置物料的技术属性架构,包括:品类物料核心技术属性、品类物料必需技术属性以及品类物料选填技术属性;
[0014]所述品类物料核心技术属性是同品类两个物料技术属性相同,可以互相替换;
[0015]所述品类物料必需技术属性是描述当前物料必需的技术属性;
[0016]所述品类物料选填技术属性是描述当前物料非必需的技术属性。
[0017]优选地,所述步骤S1.1采用:对商品物料品类和技术属性数据进行数据预处理和数据对齐,包括:单位转化对齐、数据规范统一以及错误噪声数据清洗。
[0018]优选地,所述步骤S2采用:
[0019]步骤S2.1:针对类别型技术属性采用onehot编码方式编码;
[0020]步骤S2.2:对数值型技术属性进行预处理,得到预处理后的数值型技术属性;
[0021]步骤S2.3:将预处理后的数值型技术属性和编码后的类别型技术属性组成物料的技术属性向量。
[0022]优选地,所述步骤S2.2采用:对数值型技术属性在单位统一、去除异常值的基础上进行归一化处理;
[0023][0024]其中,x表示数值型技术属性,min(x)表示当前技术属性值的最小值,max(x)表示当前技术属性中的最大值。
[0025]优选地,所述步骤S3采用:
[0026]步骤S3.1:基于物料的技术属性向量将物料按品类分为子数据集,每个子数据集包含一个品类的物料;
[0027]步骤S3.2:根据品类设置技术属性的预设权重,将每个子数据集技术属性向量乘以对应的预设权重向量;
[0028]步骤S3.3:对每个子数据集筛除包含技术属性值种类小于等于1的技术属性,对剩余技术属性分别建立faiss索引,针对每个物料计算该品类下该物料技术属性向量与该品类下其他物料技术属性向量的距离;
[0029]步骤S3.4:根据距离由近到远排序,计算每个点之间距离的梯度;若最小距离大于预设值,则无可替换物料,若最小距离小于预设值,找到梯度出现第一次剧烈上升的位置,取该梯度涉及到的第一个物料以及之前所有的物料,作为计算得到的目标物料的可替换物料,保留排序;针对所有物料进行计算得到每个物料对应的可替换物料集合。
[0030]根据本专利技术提供的一种基于向量索引的工业品物料替换物料搜索系统,包括:
[0031]模块M1:根据品类物料的使用场景和物料特点,设置物料的技术属性架构;
[0032]模块M2:将技术属性结合技术属性权重编码为技术属性向量;
[0033]模块M3:基于FAISS搭建技术属性的向量索引,通过向量索引检索计算物料的可替换物料集合,并根据向量距离排序;
[0034]所述物料的技术属性架构包括当前品类物料具备的技术属性以及当前技术属性对描述当前物料的权重。
[0035]优选地,所述模块M1采用:
[0036]模块M1.1:基于商品物料库中的商品物料数据,对商品物料品类和技术属性数据进行预处理;
[0037]模块M1.2:对预处理后的技术属性数据按品类统计分析得到各品类物料包含的技术属性以及各技术属性在各品类下的出现率;
[0038]模块M1.3:基于统计分析结果为各品类设置物料的技术属性架构,包括:品类物料核心技术属性、品类物料必需技术属性以及品类物料选填技术属性;
[0039]所述品类物料核心技术属性是同品类两个物料技术属性相同,可以互相替换;
[0040]所述品类物料必需技术属性是描述当前物料必需的技术属性;
[0041]所述品类物料选填技术属性是描述当前物料非必需的技术属性;
[0042]所述模块M1.1采用:对商品物料品类和技术属性数据进行数据预处理和数据对齐,包括:单位转化对齐、数据规范统一以及错误噪声数据清洗。
[0043]优选地,所述模块M2采用:
[0044]模块M2.1:针对类别型技术属性采用onehot编码方式编码;
[0045]模块M2.2:对数值型技术属性进行预处理,得到预处理后的数值型技术属性;
[0046]模块M2.3:将预处理后的数值型技术属性和编码后的类别型技术属性组成物料的技术属性向量;
[0047]所述模块M2.2本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于向量索引的工业品物料替换物料搜索方法,其特征在于,包括:步骤S1:根据品类物料的使用场景和物料特点,设置物料的技术属性架构;步骤S2:将技术属性结合技术属性权重编码为技术属性向量;步骤S3:基于FAISS搭建技术属性的向量索引,通过向量索引检索计算物料的可替换物料集合,并根据向量距离排序;所述物料的技术属性架构包括当前品类物料具备的技术属性以及当前技术属性对描述当前物料的权重。2.根据权利要求1所述的基于向量索引的工业品物料替换物料搜索方法,其特征在于,所述步骤S1采用:步骤S1.1:基于商品物料库中的商品物料数据,对商品物料品类和技术属性数据进行预处理;步骤S1.2:对预处理后的技术属性数据按品类统计分析得到各品类物料包含的技术属性以及各技术属性在各品类下的出现率;步骤S1.3:基于统计分析结果为各品类设置物料的技术属性架构,包括:品类物料核心技术属性、品类物料必需技术属性以及品类物料选填技术属性;所述品类物料核心技术属性是同品类两个物料技术属性相同,可以互相替换;所述品类物料必需技术属性是描述当前物料必需的技术属性;所述品类物料选填技术属性是描述当前物料非必需的技术属性。3.根据权利要求2所述的基于向量索引的工业品物料替换物料搜索方法,其特征在于,所述步骤S1.1采用:对商品物料品类和技术属性数据进行数据预处理和数据对齐,包括:单位转化对齐、数据规范统一以及错误噪声数据清洗。4.根据权利要求1所述的基于向量索引的工业品物料替换物料搜索方法,其特征在于,所述步骤S2采用:步骤S2.1:针对类别型技术属性采用onehot编码方式编码;步骤S2.2:对数值型技术属性进行预处理,得到预处理后的数值型技术属性;步骤S2.3:将预处理后的数值型技术属性和编码后的类别型技术属性组成物料的技术属性向量。5.根据权利要求4所述的基于向量索引的工业品物料替换物料搜索方法,其特征在于,所述步骤S2.2采用:对数值型技术属性在单位统一、去除异常值的基础上进行归一化处理;其中,x表示数值型技术属性,min(x)表示当前技术属性值的最小值,max(x)表示当前技术属性中的最大值。6.根据权利要求1所述的基于向量索引的工业品物料替换物料搜索方法,其特征在于,所述步骤S3采用:步骤S3.1:基于物料的技术属性向量将物料按品类分为子数据集,每个子数据集包含一个品类的物料;步骤S3.2:根据品类设置技术属性的预设权重,将每个子数据集技术属性向量乘以对应的预设权重向量;
步骤S3.3:对每个子数据集筛除包含技术属性值种类小于等于1的技术属性,对剩余技术属性分别建立faiss索引,针对每个物料计算该品类下该物料技术属性向量与该品类下其他物料技术属性向量的距离;步骤S3.4:根据距离由近到远排序,计算每个点之间距离的梯度;若最小距离大于预设值,则无可替换物料,若最小距离小于预设值,找到梯度出现第一次剧烈上升的位置,取该梯度涉及到的第一个物料以及之前所有的物料,作为计算得到的目标物料的可替换...

【专利技术属性】
技术研发人员:田国兵何海良黄晓斌夏竟翔沈达峰朱俊
申请(专利权)人:欧冶工业品股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1