【技术实现步骤摘要】
获取相似对象集合、提供相似对象信息的方法及装置
本申请涉及对象相似性计算
,特别是涉及获取相似对象集合、提供相似 对象信息的方法及装置。
技术介绍
在互联网产业中,有许多应用都需要面对如下的核心问题:给定一个对象的集合 THtp t2, . . .,tM},对于集合中的任意元素ti,计算集合T中与ti的距离小于某一阈值的所 有元素。在计算两个对象之间的距离时,一般要根据对象的属性信息来计算,例如,对于商 品这种对象而言,其属性可以包括类目、颜色、款式等等,丰富的属性信息一般需要用高维 向量表示。 衡量距离尺度的定义有很多,常用的有Jaccard距离,扩展Jaccard距离,Cosine 距离,Euclidean距离,Hamming距离,等等。解决上述问题的统一的技术框架为Local Similarity Hash (LSH)算法,该算法框架针对不同的距离定义有不同的实现版本。其中, Jaccard距离是用来比较样本集中的相似性和分散性的一个度量。Jaccard系数等于样本 集交集与样本集并集的比值。例如,对于某对象集合而言,假设所有可能的属性的全集为 1= Up i2,. . .,iN},每一个对象t表示为属性全集I的一个子集:t S I,则,对象k tj之间
【技术保护点】
一种获取相似对象集合的方法,其特征在于,包括:获取输入文件,所述输入文件中包括M个对象,对象的属性全集中存在N个属性,每个属性在各个对象中分别具有对应的属性值;其中,M、N均为正整数;分别针对各个对象以下操作:将各个属性输入到预先建立的一级最小哈希minhash函数中,以便将各个属性映射到预置的第一区间内,得到各个属性的一级minhash返回值;根据各个属性、属性在当前对象中对应的权重值以及预先建立的二级minhash函数,将当前对象的各个属性映射到预置的第二区间内,得到各个属性的二级minhash返回值;根据所述一级minhash返回值以及二级minhash返回值,计算出各个属性分别在各个对象中的组合minhash值;将同一对象的各个属性对应的组合minhash值的最小值,确定为该对象的minhash值;循环执行K次上述对各个对象的操作,以便针对每个对象分别得到K个minhash值;K为正整数;将各个对象的K个minhash值输入到LSH计算框架中获取一个或多个相似对象集合,以便在收到查询与指定对象相似的其他对象的请求后,根据所述相似对象集合返回响应消息。
【技术特征摘要】
1. 一种获取相似对象集合的方法,其特征在于,包括: 获取输入文件,所述输入文件中包括M个对象,对象的属性全集中存在N个属性,每个 属性在各个对象中分别具有对应的属性值;其中,M、N均为正整数; 分别针对各个对象W下操作: 将各个属性输入到预先建立的一级最小哈希minhash函数中,W便将各个属性映射到 预置的第一区间内,得到各个属性的一级minhash返回值; 根据各个属性、属性在当前对象中对应的权重值W及预先建立的二级minhash函数, 将当前对象的各个属性映射到预置的第二区间内,得到各个属性的二级minhash返回值; 根据所述一级minhash返回值W及二级minhash返回值,计算出各个属性分别在各个 对象中的组合minhash值; 将同一对象的各个属性对应的组合minhash值的最小值,确定为该对象的minhash 值; 循环执行K次上述对各个对象的操作,W便针对每个对象分别得到K个minhash值;K 为正整数; 将各个对象的K个minhash值输入到LSH计算框架中获取一个或多个相似对象集合, W便在收到查询与指定对象相似的其他对象的请求后,根据所述相似对象集合返回响应消 肩、。2. 根据权利要求1所述的方法,其特征在于,在同一个对象中,一个属性对应Wi个二 级minhash返回值,每个二级minhash返回值对应的输入分别为(Xi,w。),其中,X;为属性, WqG 为该属性在当前对象中的权重值; 所述根据所述一级minhash返回值W及二级minhash返回值,计算出各个属性的组合 minhash值,包括; 根据属性的一级minhash返回值W及该属性的各个二级minhash返回值中的最小值, 计算出该属性的组合minhash值。3. 根据权利要求2所述的方法,其特征在于,通过W下方式计算属性的组合minhash 值:其中,h^Xj):在第k次循环过程中,Xi的一级minhash返回值; 诚的,Wq);在第k次循环过程中,X;的权重值为Wi时,X;的Wi个二级minhash返回 值; 巧的,Wj):在第k次循环过程中,X;的组合minhash值。4. 根据权利要求2所述的方法,其特征在于,还包括: 预先根据二级minhash函数计算出针对同一个属性,当W。取各种可能的值时,该属性 分别对应的各个二级minhash返回值,并进行保存; 所述根据各个属性、属性在对象中对应的权重值W及预先建立的二级minhash函数, 将对象的各个属性的序号映射到预置的第二区间内,得到各个属性的二级minhash返回 值,包括:根据属性w及属性在对象中对应的权重值,通过查询预先保存的信息获得该属性在该 权重值下各个二级minhash返回值中的最小值。5. 根据权利要求1所述的方法,其特征在于,在同一次计算各个对象的minhash值的过 程中,计算一级minhash值的函数形式是一致的,相同的属性对应相同的二级minhash函数 形式,不同的属性对应不同的二级minhash函数形式。6. 根据权利要求1所述的方法,其特征在于,在不同次的计算各个对象的minhash值的 过程中,相同的属性对应不同的一级minhash函数形式W及二级minhash函数形式。7. 根据权利要求1所述的方法,其特征在于,在二级minhash函数中,采用无放回采样 的方式计算哈希值。8. 根据权利要求1所述的方法,其特征在于,所述在收到查询与指定对象相似的其他 对象的请求后,根据所述相似对象集合返回响应消息,包括: 在收到查询与指定对象相似的符合指定条件的其他对象的请求后,确定所述指定对象 所在的目标相似对象集合; 从所述目标相似对象集合中取出所述指定对象之外的其他对象组成候选集; 从所述候选集中选出与所述指定对象距离符合请求中指定条件的其他对象并返回。9. 一种提供相似商品信息的方法,其特征在于,包括: 获取输入文件,所述输入文件中包括M个对象,对象的属性全集中存在N个属性,每个 属性在各个对象中分别具有对应的属性值;其中,M、N均为正整数;其中,所述对象包括电 子商务应用中的商品; 分别针对各个对象W下操作: 将各个属性输入到预先建立的一级最小哈希minhash函数中,W便将各个属性映射到 预置的第一区间内,得到各个属性的一级minhash返回值; 根据各个属性、属性在当前对象中对应的权重值W及预先建立的二级minhash函数, 将当前对象的各个属性映射到预置的第二区间内,得到各个属性的二级minhash返回值; 根据所述一级minhash返回值W及二级minhash返回值,计算出各个属性分别在各个 对象中的组合minhash值; 将同一对象的各个属性对应的组合minhash值的最小值,确定为该对象的minhash 值; 循环执行K次上述对各个对象的操作,W便针对每个对象分别得到K个minhash值;K 为正整数; 将各个对象的K个minhash值输入到LSH计算框架中获取一个或多个相似对象集合; 接收到查询与指定商品相似的其他商品的请求时,根据所述相似对象集合返回响应消 息。10. -种提供相似网页信息的方法,其特征在于,包括: 获取输入文件,所述输入文件中包括M个对象,对象的属性全集中存在N个属性,每个 属性在各个对象中分别具有对应的属性值;其中,M、N均为正整数;其中,所述对象包括网 页搜索应用中的网页; 分别针对各个对象W下操作: 将各个属性输入到预先建立的一级最小哈希minhash函数中,W便将各个属性映射到 预置的第一区间内,得到各个属性的一级minhash返回值; 根据各个属性、属性在当前对象中对应的权重值W及预先建立的二级minhash函数, 将当前对象的各个属性映射到预置的第二区间内,得到各个属性的二级minhash返回值; 根据所述一级minhash返回值W及二级minhash返回值,计算出各个属性分别在各个 对象中的组合minhash值; 将同一对象的各个属性对应的组合minhash值的最小值,确定为该对象的minhash 值; 循环执行K次上述对各个对象的操作,W便针对每个对象分别得到K个minhash值;K 为正整数; 将各个对象的K个minhash值输入到LSH计算框架中获取一个或多个相似对象集合; 接收到查询与指定网页相似的其他网页的请求时,根据所述相似对象集合返回响应消 肩、。11. 一种提供相似用户信息的方法,其特征在于,包括: 获取输入文件,所述输入文件中包括M个对象,对象的属性全集中存在N个属性,每个 属性在各个对象中分别具有对应的属性值;其中,M、N均为正整数;其中,所述对象包括关 联推荐应用中的用户; 分别针对各个对象W下操作: 将各个属...
【专利技术属性】
技术研发人员:陈俊波,蔡维佳,陈春明,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。