一种查询聚类方法及装置制造方法及图纸

技术编号：14525130 阅读：101 留言：0更新日期：2017-02-02 03:40

本发明专利技术实施例公开了一种查询聚类方法及装置，涉及电子商务技术领域，能够并提高聚类结果的精确性。本发明专利技术的方法包括：根据搜索日志获取查询信息集合，查询信息集合包括：会话查询集合、共点击查询集合和共查询商品集合；根据查询信息集合建立图模型，并根据图模型得到子图集合；根据子图集合进行相似度分析，并得到相似度满足预设条件的元素作为聚类结果。本发明专利技术适用于查询聚类处理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电子商务
，尤其涉及一种查询聚类方法及装置。
技术介绍
随着互联网以及相关行业的蓬勃发展，人们的生活方式也随之改变改变，网络购物已成为一种重要的购物途径。网络购物的最大优势在于，能够在极短时间内为用户汇聚海量的商品，用户只需通过输入query命令(或称为query，即查询命令)，即可搜索得到所需的商品信息。但是，由于查询到的商品的信息量十分庞大，需要快速并正确的从这些海量商品信息中得到用户想要的信息。然而由于用户的受教育情况、文化、地域、语言等因素的影响，导致不同用户在表述同一个问题上，输入的query差异很大，使得不同的用户所能够得到查询结果的精确性也有很大区别。因此，需要运营商对海量用户的输入的query进行分析、聚类处理，以提高查询结果的精确性。在目前常用的两种聚类算法中：1、先利用TF-IDF(一种特征提取算法)进行特征提取、向量化处理，再利用余弦相似性算法或kmeans算法进行聚类并得到结果。但是由于query的信息含量较低，存在长尾现象，使得向量化的过程中会形成稀疏向量，造成维灾难，往往会使得原本语意相似的两个query聚到不同的类，聚类的准确性较低；2、采用kmeans算法，需要选取k值和初始中心点等参数，但是由于query的类别众多，往往难以明确K值的个数及相应的初始中心点，使得采用kmeans算法得到聚类结果依然难以提高查询结果的精确性。
技术实现思路
本专利技术的实施例提供一种查询聚类方法及装置，能够避免语意多样性及query向量维灾难的问题，也避免传统聚类kmeans算法K值和初始中心点的选取的问题，并提高了聚类结果...

【技术保护点】
一种查询聚类方法，其特征在于，包括：根据搜索日志获取查询信息集合，所述查询信息集合包括：会话查询集合、共点击查询集合和共查询商品集合；根据所述查询信息集合建立图模型，并根据所述图模型得到子图集合；根据子图集合进行相似度分析，并得到相似度满足预设条件的元素作为聚类结果。

【技术特征摘要】
1.一种查询聚类方法，其特征在于，包括：根据搜索日志获取查询信息集合，所述查询信息集合包括：会话查询集合、共点击查询集合和共查询商品集合；根据所述查询信息集合建立图模型，并根据所述图模型得到子图集合；根据子图集合进行相似度分析，并得到相似度满足预设条件的元素作为聚类结果。2.根据权利要求1所述的方法，其特征在于，所述会话查询集合至少包括：商品信息和查询词；所述共点击查询集合包括：用户查询同一件商品时所使用的查询词；所述共查询商品集合包括：用户使用同一查询词时所查询到的不同的商品。3.根据权利要求1所述的方法，其特征在于，所述图模型的顶点的集合关联商品信息和查询词，所述图模型的边的集合关联商品信息和查询词的点击关系，所述图模型的边权重函数关联商品信息和查询词的点击量。4.根据权利要求2所述的方法，其特征在于，所述根据搜索日志获取查询信息集合，包括：根据所述搜索日志得到会话单元的查询词对，并根据所述会话单元的查询词对获取每个会话单元所对应的查询词集合；根据各个用户的会话单元，获取不同用户查询同一件商品时所使用的查询词的集合，并作为所述共点击查询集合；并根据各个用户的会话...

【专利技术属性】
技术研发人员：孙鹏飞，李春生，金阳春，
申请(专利权)人：苏宁云商集团股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人