一种数据处理方法和相关装置制造方法及图纸

技术编号:18204143 阅读:26 留言:0更新日期:2018-06-13 06:17
本发明专利技术实施例公开了一种数据处理方法和相关装置,为了提高搜索体验,可以将目标语义单元进行分词,针对一个分词得到的搜索结果,若根据分词搜索得到的搜索结果中资源的所属类目较少,且与根据目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度较高,可以作为该目标语义单元的核心词。使用核心词搜索得到的搜索结果中资源所具有的特点与希望通过目标语义单元搜索到的资源的特点在一定程度上是相符的,故通过将核心词对应的搜索结果作为该目标语义单元对应的搜索结果可以有效的起到数量扩充的作用,且所扩充的资源更可能与以该目标语义单元进行搜索的搜索目的具有相关性,提高了用户的搜索体验。

【技术实现步骤摘要】
一种数据处理方法和相关装置
本专利技术涉及数据处理领域,特别是涉及一种数据处理方法和相关装置。
技术介绍
随着互联网技术的发展,利用互联网平台向用户提供资源的方式已经广泛应用。用户若希望查看、获取某一种类的资源,可以在互联网平台上通过输入体现该资源特点的搜索词进行搜索,以希望从搜索结果中获取具有体现搜索词特点的资源。
技术实现思路
然而,有些时候当用户输入的搜索词数量较多或者搜索词不准确时,获取的搜索结果可能很少甚至没有,从而降低了用户的体验。可见,如何提高搜索体验是目前亟需解决的技术问题。为了解决上述技术问题,本专利技术提供了一种数据处理方法和相关装置,可以有效的对该目标语义单元对应的搜索结果进行扩充的作用,从而提高了用户的搜索体验。本专利技术实施例公开了如下技术方案:第一方面,本专利技术提供了一种数据处理方法,所述方法包括:获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;将所述目标语义单元划分得到多个分词;根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词;将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。可选的,在所述将所述目标语义单元划分得到多个分词之前,还包括:若所述目标语义单元的搜索结果中资源数量少于第一阈值,或者所述目标语义单元的字符长度多于第二阈值,执行所述将所述目标语义单元划分得到多个分词的步骤。可选的,第一分词为所述多个分词中任意一个分词,所述根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词,包括:获取所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量,以及所述第一分词在历史搜索行为中与其他词共同出现的次数;根据所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量、所述第一分词在历史搜索行为中与其他词共同出现的次数、根据所述第一分词搜索得到的搜索结果中资源所属类目的数量,以及根据所述第一分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度计算所述第一分词的核心词得分;若所述第一分词的核心词得分处于所述多个分词中各分词的核心词得分最高的前N位,将所述第一分词确定为所述目标语义单元的核心词。可选的,在所述将从所述多个分词中确定出的核心词所对应的搜索结果作为所述目标语义单元的搜索结果之后,还包括:若根据所述目标语义单元搜索得到的搜索结果中资源的数量未满足第三阈值,根据所述目标语义单元进行扩充,得到扩充语义单元,所述扩充语义单元为搜索语义单元;将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。可选的,第一资源为根据所述目标语义单元搜索得到的搜索结果中的任意一个资源,所述根据所述目标语义单元进行扩充,得到扩充语义单元,包括:若能够根据第一语义单元搜索得到所述第一资源,将所述第一语义单元作为所述扩充语义单元,所述第一语义单元为一个搜索语义单元;或者,若能够根据第二语义单元搜索得到所述第二资源,将所述第二语义单元作为所述扩充语义单元,所述第二语义单元为一个搜索语义单元,所述第二资源为与所述第一资源具有相似性的资源。可选的,所述根据所述目标语义单元进行扩充,得到扩充语义单元,包括:将与所述目标语义单元的编辑距离小于第四阈值的第三语义单元作为所述扩充语义单元,所述第三语义单元为一个搜索语义单元;或者,将与所述目标语义单元的词义相似度小于第五阈值的第四语义单元作为所述扩充语义单元,所述第四语义单元为一个搜索语义单元。可选的,在所述将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果之前,还包括:计算得到的扩充语义单元与所述目标语义单元之间的关联频率;得到关联频率最高的前M个扩充语义单元;根据所述M个扩充语义单元的字符长度、历史搜索行为中被用于搜索的次数、通过搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度,从所述M个扩充语义单元中进一步确定出L个扩充语义单元;将所述L个扩充语义单元作为所述目标语义单元的扩充语义单元。可选的,若输入所述目标语义单元进行搜索的用户通过客户端连接服务器,还包括:根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源;向所述客户端推荐所述待推荐资源。可选的,所述根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源,包括:获取所述用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;根据所述实时偏好、所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源。可选的,还包括:获取待排序资源的资源集合,所述资源集合为搜索结果或待推荐资源;获取输入所述目标语义单元进行搜索的用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;根据所述用户的特征、实时偏好,以及所述特征与所述资源集合中待排序资源之间所形成的交叉特征得到各个待排序资源分别对应的点击转化率CVR和点击通过率CTR;根据待排序资源分别对应的CVR和CTR确定待排序资源分别对应的排序得分;根据排序得分的高低对所述资源集合中的待排序资源进行排序。可选的,所述用户的实时资源偏好是根据所述用户与资源的历史关联行为,以及与资源的历史关联行为的发生时间确定出的;所述用户的实时类目偏好是根据所述用户与类目的历史关联行为,以及与类目的历史关联行为的发生时间确定出的。可选的,第三资源为所述资源集合中的任意一个待排序资源,在所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分之前,包括:根据所述第三资源对应的特征值与所述第三资源所属类目的平均特征值确定出所述第三资源的特征值得分;若所述第三资源为具有周期时效性的资源,进一步根据所述第三资源的到期时间确定所述第三资源的加权分;根据所述资源集合的待排序资源中属于所述第三资源所属类目的数量,以及所述资源集合的待排序资源所属类目的总数确定出多样性得分;所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分,包括:根据所述第三资源对应的CVR、CTR、特征值得分、加权分和多样性得分,确定出所述第三资源对应的排序得分。可选的,所述根据所述第三资源的到期时间确定所述第三资源的加权分,包括:根据所述第三资源的到期时间与当前时间的差值计算时间加权部分;根据所述用户获取过所述第三资源的次数计算次数加权部分;根据所述时间加权部分和次数加权部分确定出所述第三资源的加权分。第二方面,本专利技术提供了一种数据处理装置,所述装置包括获取单元、划分单元和确定单元:所述获取单元,用于获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;所述划分单元,用于将所述目标语义单元划分得到多个分词;所述确定单元,用于根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所本文档来自技高网...
一种数据处理方法和相关装置

【技术保护点】
一种数据处理方法,其特征在于,所述方法包括:获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;将所述目标语义单元划分得到多个分词;根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词;将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;将所述目标语义单元划分得到多个分词;根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词;将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。2.根据权利要求1所述的方法,其特征在于,在所述将所述目标语义单元划分得到多个分词之前,还包括:若所述目标语义单元的搜索结果中资源数量少于第一阈值,或者所述目标语义单元的字符长度多于第二阈值,执行所述将所述目标语义单元划分得到多个分词的步骤。3.根据权利要求1或2所述的方法,其特征在于,第一分词为所述多个分词中任意一个分词,所述根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词,包括:获取所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量,以及所述第一分词在历史搜索行为中与其他词共同出现的次数;根据所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量、所述第一分词在历史搜索行为中与其他词共同出现的次数、根据所述第一分词搜索得到的搜索结果中资源所属类目的数量,以及根据所述第一分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度计算所述第一分词的核心词得分;若所述第一分词的核心词得分处于所述多个分词中各分词的核心词得分最高的前N位,将所述第一分词确定为所述目标语义单元的核心词。4.根据权利要求1所述的方法,其特征在于,在所述将从所述多个分词中确定出的核心词所对应的搜索结果作为所述目标语义单元的搜索结果之后,还包括:若根据所述目标语义单元搜索得到的搜索结果中资源的数量未满足第三阈值,根据所述目标语义单元进行扩充,得到扩充语义单元,所述扩充语义单元为搜索语义单元;将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。5.根据权利要求4所述的方法,其特征在于,第一资源为根据所述目标语义单元搜索得到的搜索结果中的任意一个资源,所述根据所述目标语义单元进行扩充,得到扩充语义单元,包括:若能够根据第一语义单元搜索得到所述第一资源,将所述第一语义单元作为所述扩充语义单元,所述第一语义单元为一个搜索语义单元;或者,若能够根据第二语义单元搜索得到所述第二资源,将所述第二语义单元作为所述扩充语义单元,所述第二语义单元为一个搜索语义单元,所述第二资源为与所述第一资源具有相似性的资源。6.根据权利要求4所述的方法,其特征在于,所述根据所述目标语义单元进行扩充,得到扩充语义单元,包括:将与所述目标语义单元的编辑距离小于第四阈值的第三语义单元作为所述扩充语义单元,所述第三语义单元为一个搜索语义单元;或者,将与所述目标语义单元的词义相似度小于第五阈值的第四语义单元作为所述扩充语义单元,所述第四语义单元为一个搜索语义单元。7.根据权利要求4至6任一项所述的方法,其特征在于,在所述将根据所述扩充语义单元搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果之前,还包括:计算得到的扩充语义单元与所述目标语义单元之间的关联频率;得到关联频率最高的前M个扩充语义单元;根据所述M个扩充语义单元的字符长度、历史搜索行为中被用于搜索的次数、通过搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度,从所述M个扩充语义单元中进一步确定出L个扩充语义单元;将所述L个扩充语义单元作为所述目标语义单元的扩充语义单元。8.根据权利要求1所述的方法,其特征在于,若输入所述目标语义单元进行搜索的用户通过客户端连接服务器,还包括:根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源;向所述客户端推荐所述待推荐资源。9.根据权利要求8所述的方法,其特征在于,所述根据所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源,包括:获取所述用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;根据所述实时偏好、所述用户近期搜索所使用搜索语义单元和核心词确定出待推荐资源。10.根据权利要求1或4或8所述的方法,其特征在于,还包括:获取待排序资源的资源集合,所述资源集合为搜索结果或待推荐资源;获取输入所述目标语义单元进行搜索的用户的实时偏好,所述实时偏好包括实时资源偏好和实时类目偏好;根据所述用户的特征、实时偏好,以及所述特征与所述资源集合中待排序资源之间所形成的交叉特征得到各个待排序资源分别对应的点击转化率CVR和点击通过率CTR;根据待排序资源分别对应的CVR和CTR确定待排序资源分别对应的排序得分;根据排序得分的高低对所述资源集合中的待排序资源进行排序。11.根据权利要求9或10所述的方法,其特征在于,所述用户的实时资源偏好是根据所述用户与资源的历史关联行为,以及与资源的历史关联行为的发生时间确定出的;所述用户的实时类目偏好是根据所述用户与类目的历史关联行为,以及与类目的历史关联行为的发生时间确定出的。12.根据权利要求10所述的方法,其特征在于,第三资源为所述资源集合中的任意一个待排序资源,在所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分之前,包括:根据所述第三资源对应的特征值与所述第三资源所属类目的平均特征值确定出所述第三资源的特征值得分;若所述第三资源为具有周期时效性的资源,进一步根据所述第三资源的到期时间确定所述第三资源的加权分;根据所述资源集合的待排序资源中属于所述第三资源所属类目的数量,以及所述资源集合的待排序资源所属类目的总数确定出多样性得分;所述根据待推荐资源分别对应的CVR和CTR确定待推荐资源分别对应的排序得分,包括:根据所述第三资源对应的CVR、CTR、特征值得分、加权分和多样性得分,确定出所述第三资源对应的排序得分。13.根据权利要求12所述的方法,其特征在于,所述根据所述第三资源的到期时间确定所述第三资源的加权分,包括:根据所述第三资源的到期时间与当前时间的差值计算时间加权部分;根据所述用户获取过所述第三资源的次数计算次数加权部分;根据所述时间加权部分和次数加权部分确定出所述第三资源的加权分。14.一种...

【专利技术属性】
技术研发人员:彭正超安伟亭魏虎李鹏飞张建锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1