一种查询聚类方法及装置制造方法及图纸

技术编号:14525130 阅读:90 留言:0更新日期:2017-02-02 03:40
本发明专利技术实施例公开了一种查询聚类方法及装置,涉及电子商务技术领域,能够并提高聚类结果的精确性。本发明专利技术的方法包括:根据搜索日志获取查询信息集合,查询信息集合包括:会话查询集合、共点击查询集合和共查询商品集合;根据查询信息集合建立图模型,并根据图模型得到子图集合;根据子图集合进行相似度分析,并得到相似度满足预设条件的元素作为聚类结果。本发明专利技术适用于查询聚类处理。

【技术实现步骤摘要】

本专利技术涉及电子商务
,尤其涉及一种查询聚类方法及装置。
技术介绍
随着互联网以及相关行业的蓬勃发展,人们的生活方式也随之改变改变,网络购物已成为一种重要的购物途径。网络购物的最大优势在于,能够在极短时间内为用户汇聚海量的商品,用户只需通过输入query命令(或称为query,即查询命令),即可搜索得到所需的商品信息。但是,由于查询到的商品的信息量十分庞大,需要快速并正确的从这些海量商品信息中得到用户想要的信息。然而由于用户的受教育情况、文化、地域、语言等因素的影响,导致不同用户在表述同一个问题上,输入的query差异很大,使得不同的用户所能够得到查询结果的精确性也有很大区别。因此,需要运营商对海量用户的输入的query进行分析、聚类处理,以提高查询结果的精确性。在目前常用的两种聚类算法中:1、先利用TF-IDF(一种特征提取算法)进行特征提取、向量化处理,再利用余弦相似性算法或kmeans算法进行聚类并得到结果。但是由于query的信息含量较低,存在长尾现象,使得向量化的过程中会形成稀疏向量,造成维灾难,往往会使得原本语意相似的两个query聚到不同的类,聚类的准确性较低;2、采用kmeans算法,需要选取k值和初始中心点等参数,但是由于query的类别众多,往往难以明确K值的个数及相应的初始中心点,使得采用kmeans算法得到聚类结果依然难以提高查询结果的精确性。
技术实现思路
本专利技术的实施例提供一种查询聚类方法及装置,能够避免语意多样性及query向量维灾难的问题,也避免传统聚类kmeans算法K值和初始中心点的选取的问题,并提高了聚类结果的精确性,提高查询结果的精确性。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术的实施例提供一种查询聚类方法,包括:根据搜索日志获取查询信息集合,所述查询信息集合包括:会话查询集合、共点击查询集合和共查询商品集合;根据所述查询信息集合建立图模型,并根据所述图模型得到子图集合;根据子图集合进行相似度分析,并得到相似度满足预设条件的元素作为聚类结果。结合第一方面,在第一方面的第一种可能的实现方式中,所述会话查询集合至少包括:商品信息和查询词;所述共点击查询集合包括:用户查询同一件商品时所使用的查询词;所述共查询商品集合包括:用户使用同一查询词时所查询到的不同的商品。结合第一方面,在第一方面的第二种可能的实现方式中,所述图模型的顶点的集合关联商品信息和查询词,所述图模型的边的集合关联商品信息和查询词的点击关系,所述图模型的边权重函数关联商品信息和查询词的点击量。结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述根据搜索日志获取查询信息集合,包括:根据所述搜索日志得到会话单元的查询词对,并根据所述会话单元的查询词对获取每个会话单元所对应的查询词集合;根据各个用户的会话单元,获取不同用户查询同一件商品时所使用的查询词的集合,并作为所述共点击查询集合;并根据各个用户的会话单元,获取不同用户使用同一查询词时所查询到的不同的商品信息的集合,并作为所述共查询商品集合。结合第一方面的第二种可能的实现方式,在第一方面的第四种可能的实现方式中,所述根据所述查询信息集合建立图模型,包括:建立图模型G=(V,E,W),其中,V表示顶点的集合,且V分割为两个互不相交的子集(I,Q),I表示商品信息集合、Q表示查询词集合;E表示边的集合,若商品i和查询词j存在点击关系,则有边Eij;W表示边权重函数F(V,E),且W是商品和查询词的点击次数求和。结合第一方面的第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述根据所述图模型得到子图集合包括:根据所述图模型得到第一类子图集合和第二类子图集合,其中所述第一类子图集合用于表示查询词和商品信息集合,所述第二类子图集合用于表示共查询商品集合和共点击查询集合。结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,包括:将图模型G=(V,E,W)划分成K个不相交的子图Gi=(Vi,Ei,Wi),其中i=(1,2,…,k);获取i结点的一级邻居集作为所述第一类子图集合,其中,link(xi,xj)表示图模型G中结点xi与结点xj连接关系,即集合E和集合W,N表示图结点数目,中结点的数目为i结点度di;获取i结点的二级邻居集作为所述第二类子图集合,其中,所述二级邻居集包括图模型G=(V,E,W)中两i一阶邻居结点又有除i之外的共同邻居结点的二级邻居集。结合第一方面的第六种可能的实现方式,在第一方面的第七种可能的实现方式中,所述根据子图集合进行相似度分析,并得到相似度满足预设条件的元素作为聚类结果,包括:根据得到集合S1和S2,其中,在集合S1中包含m个元素,顶点的路径长度d为δ,相似度为1/δ;并根据所述S1中每个子元素集合的权重得到集合S1中每个元素相似度得分为1/δ;通过集合S2计算集合S1中每个子元素的相似性,其中集合S2中路径长度d为2δ,即相似度为1/2δ;根据S′=(S1∪S2)-(S1∩S2)和S=S′∪S1,得到所述聚类结果集合S,并将分值最高的N个元素作为所述聚类结果。第二方面,本专利技术的实施例提供一种查询聚类装置,包括:预处理模块,用于根据搜索日志获取查询信息集合,所述查询信息集合包括:会话查询集合、共点击查询集合和共查询商品集合;图模型处理模块,用于根据所述查询信息集合建立图模型,并根据所述图模型得到子图集合;分析模块,用于根据子图集合进行相似度分析,并得到相似度满足预设条件的元素作为聚类结果。结合第二方面,在第二方面的第一种可能的实现方式中,所述会话查询集合至少包括:商品信息和查询词;所述共点击查询集合包括:用户查询同一件商品时所使用的查询词;所述共查询商品集合包括:用户使用同一查询词时所查询到的不同的商品。结合第二方面,在第二方面的第二种可能的实现方式中,所述图模型的顶点的集合关联商品信息和查询词,所述图模型的边的集合关联商品信息和查询词的点击关系,所述图模型的边权重函数关联商品信息和查询词的点击量。结合第二方面的第一种可能的实现方式,在第二方面的第三种可能的实现方式中,所述预处理模块,具体用于根据所述搜索日志得到会话单元的查询词对,并根据所述会话单元的查询词对获取每个会话单元所对应的查询词集合;根据各个用户的会话单元,获取不同用户查询同一件商品时所使用的查询词的集合,并作为所述共点击查询集合;并根据各个用户的会话单元,获取不同用户使用同一查询词时所查询到的不同的商品信息的集合,并作为所述共查询商品集合。本专利技术实施例提供的查询聚类方法及装置,通过对用户的搜索日志进行挖掘和利用,根据搜索日志获取查询信息集合建立图模型,并提供了一种利用图模型进行query聚类的方案。利用图模型可以有效避免了采用现有技术导致的语意多样性及query向量维灾难的问题,同时,也避免出现传统聚类kmeans算法K值和初始中心点的选取的问题,并且提高了聚类结果的精确性,从而提高查询结果的精确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不本文档来自技高网...

【技术保护点】
一种查询聚类方法,其特征在于,包括:根据搜索日志获取查询信息集合,所述查询信息集合包括:会话查询集合、共点击查询集合和共查询商品集合;根据所述查询信息集合建立图模型,并根据所述图模型得到子图集合;根据子图集合进行相似度分析,并得到相似度满足预设条件的元素作为聚类结果。

【技术特征摘要】
1.一种查询聚类方法,其特征在于,包括:根据搜索日志获取查询信息集合,所述查询信息集合包括:会话查询集合、共点击查询集合和共查询商品集合;根据所述查询信息集合建立图模型,并根据所述图模型得到子图集合;根据子图集合进行相似度分析,并得到相似度满足预设条件的元素作为聚类结果。2.根据权利要求1所述的方法,其特征在于,所述会话查询集合至少包括:商品信息和查询词;所述共点击查询集合包括:用户查询同一件商品时所使用的查询词;所述共查询商品集合包括:用户使用同一查询词时所查询到的不同的商品。3.根据权利要求1所述的方法,其特征在于,所述图模型的顶点的集合关联商品信息和查询词,所述图模型的边的集合关联商品信息和查询词的点击关系,所述图模型的边权重函数关联商品信息和查询词的点击量。4.根据权利要求2所述的方法,其特征在于,所述根据搜索日志获取查询信息集合,包括:根据所述搜索日志得到会话单元的查询词对,并根据所述会话单元的查询词对获取每个会话单元所对应的查询词集合;根据各个用户的会话单元,获取不同用户查询同一件商品时所使用的查询词的集合,并作为所述共点击查询集合;并根据各个用户的会话...

【专利技术属性】
技术研发人员:孙鹏飞李春生金阳春
申请(专利权)人:苏宁云商集团股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1