一种数据处理方法及计算设备技术

技术编号：21246926 阅读：32 留言：0更新日期：2019-06-01 07:19

一种数据处理方法，包括：给搜索词生成候选搜索词集合；根据候选搜索词集合中任一候选搜索词的出现概率以及候选搜索词与该搜索词之间的语义相似度，从候选搜索词集合中确定用于纠正该搜索词的候选搜索词，其中，候选搜索词的出现概率根据候选搜索词的上下文关系计算得到。如此，提升了用户的检索体验。

A Data Processing Method and Computing Equipment

A data processing method includes: generating a set of candidate search terms for a search term; determining a candidate search term for correcting the search term from the set of candidate search terms according to the occurrence probability of any candidate search term in the set of candidate search terms and the semantic similarity between the candidate search term and the search term, where the occurrence probability of the candidate search term is based on the candidate search term. The context relation is calculated. In this way, it improves the user's retrieval experience.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法及计算设备
本申请涉及但不限于数据处理技术，尤其涉及一种数据处理方法及计算设备。
技术介绍
目前，用户在进行搜索时，输入的搜索词不一定是完全正确的，此时如果根据用户的搜索词去查倒排索引，一般情况下无法召回(检索到)正确的结果，甚至无结果。因此，为了提高用户的搜索体验，在搜索系统中会提供搜索词纠错的功能，在检测到用户输入的搜索词有误的情况下，搜索系统会提示用户正确的搜索词或者直接对用户的搜索词进行纠正，从而得到用户满意的结果。然而，目前对于音乐类应用或平台输入的搜索词的纠错，主要针对常见的拼写错误进行，而且，仅通过先验知识和搜索日志统计确定候选词，并只简单地通过编辑距离来选取最优的候选词，因此只能覆盖少量的错误形式。但是实际应用中的错误搜索词可能是各种形式的，导致无法给错误的搜索词提供有效的纠错结果，影响了用户的使用体验。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本申请实施例提供一种数据处理方法及计算设备，能够提升用户的检索体验。第一方面，本申请实施例提供一种数据处理方法，包括：给搜索词生成候选搜索词集合；根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度，从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词，其中，所述候选搜索词的出现概率根据所述候选搜索词的上下文关系计算得到。在示例性实施方式中，所述给搜索词生成候选搜索词集合，可以包括：对所述搜索词进行归一化处理；针对归一化处理后的所述搜索词中的任一个词典单词，根据候选生成规则生成所述词典单词的候选...

【技术保护点】
1.一种数据处理方法，其特征在于，包括：给搜索词生成候选搜索词集合；根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度，从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词，其中，所述候选搜索词的出现概率根据所述候选搜索词的上下文关系计算得到。

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：给搜索词生成候选搜索词集合；根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度，从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词，其中，所述候选搜索词的出现概率根据所述候选搜索词的上下文关系计算得到。2.根据权利要求1所述的方法，其特征在于，所述给搜索词生成候选搜索词集合，包括：对所述搜索词进行归一化处理；针对归一化处理后的所述搜索词中的任一个词典单词，根据候选生成规则生成所述词典单词的候选词典单词集合；在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词，组合生成所述候选搜索词集合。3.根据权利要求2所述的方法，其特征在于，所述候选生成规则包括：在所述词典单词为中文时，根据预先建立的同义词词典、纠错词词典，生成所述词典单词的候选词典单词集合；在所述词典单词为英文时，根据编辑距离生成所述词典单词的候选词典单词集合；在所述词典单词为拼音串时，根据预先建立的分词词典，生成所述词典单词的候选词典单词集合。4.根据权利要求2所述的方法，其特征在于，所述在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词，组合生成所述候选搜索词集合，包括：在任一个词典单词的候选词典单词集合中，按照候选概率由高到低的顺序，挑选一个或多个候选词典单词；将挑选出的候选词典单词按照对应的词典单词在搜索词中的顺序进行组合，得到多个候选搜索词，生成所述候选搜索词集合。5.根据权利要求2所述的方法，其特征在于，所述归一化处理包括以下至少一项：英文字符大小写转化处理、中文繁简转换、特殊符号过滤处理。6.根据权利要求1所述的方法，其特征在于，所述根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度，从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词，包括：利用预先建立的N-gram语言模型计算所述候选搜索词集合中任一个候选搜索词的出现概率；从所述候选搜索词集合中挑选所述出现概率满足第二设定条件的候选搜索词；计算挑选出的任一个候选搜索词与所述搜索词之间的语义相似度；挑选出与所述搜索词之间的语义...

【专利技术属性】
技术研发人员：李亚楠，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人