一种数据处理方法及计算设备技术

技术编号:21246926 阅读:32 留言:0更新日期:2019-06-01 07:19
一种数据处理方法,包括:给搜索词生成候选搜索词集合;根据候选搜索词集合中任一候选搜索词的出现概率以及候选搜索词与该搜索词之间的语义相似度,从候选搜索词集合中确定用于纠正该搜索词的候选搜索词,其中,候选搜索词的出现概率根据候选搜索词的上下文关系计算得到。如此,提升了用户的检索体验。

A Data Processing Method and Computing Equipment

A data processing method includes: generating a set of candidate search terms for a search term; determining a candidate search term for correcting the search term from the set of candidate search terms according to the occurrence probability of any candidate search term in the set of candidate search terms and the semantic similarity between the candidate search term and the search term, where the occurrence probability of the candidate search term is based on the candidate search term. The context relation is calculated. In this way, it improves the user's retrieval experience.

【技术实现步骤摘要】
一种数据处理方法及计算设备
本申请涉及但不限于数据处理技术,尤其涉及一种数据处理方法及计算设备。
技术介绍
目前,用户在进行搜索时,输入的搜索词不一定是完全正确的,此时如果根据用户的搜索词去查倒排索引,一般情况下无法召回(检索到)正确的结果,甚至无结果。因此,为了提高用户的搜索体验,在搜索系统中会提供搜索词纠错的功能,在检测到用户输入的搜索词有误的情况下,搜索系统会提示用户正确的搜索词或者直接对用户的搜索词进行纠正,从而得到用户满意的结果。然而,目前对于音乐类应用或平台输入的搜索词的纠错,主要针对常见的拼写错误进行,而且,仅通过先验知识和搜索日志统计确定候选词,并只简单地通过编辑距离来选取最优的候选词,因此只能覆盖少量的错误形式。但是实际应用中的错误搜索词可能是各种形式的,导致无法给错误的搜索词提供有效的纠错结果,影响了用户的使用体验。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本申请实施例提供一种数据处理方法及计算设备,能够提升用户的检索体验。第一方面,本申请实施例提供一种数据处理方法,包括:给搜索词生成候选搜索词集合;根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词,其中,所述候选搜索词的出现概率根据所述候选搜索词的上下文关系计算得到。在示例性实施方式中,所述给搜索词生成候选搜索词集合,可以包括:对所述搜索词进行归一化处理;针对归一化处理后的所述搜索词中的任一个词典单词,根据候选生成规则生成所述词典单词的候选词典单词集合;在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成所述候选搜索词集合。在示例性实施方式中,所述候选生成规则可以包括:在所述词典单词为中文时,根据预先建立的同义词词典、纠错词词典,生成所述词典单词的候选词典单词集合;在所述词典单词为英文时,根据编辑距离生成所述词典单词的候选词典单词集合;在所述词典单词为拼音串时,根据预先建立的分词词典,生成所述词典单词的候选词典单词集合。在示例性实施方式中,所述在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成所述候选搜索词集合,可以包括:在任一个词典单词的候选词典单词集合中,按照候选概率由高到低的顺序,挑选一个或多个候选词典单词;将挑选出的候选词典单词按照对应的词典单词在搜索词中的顺序进行组合,得到多个候选搜索词,生成所述候选搜索词集合。在示例性实施方式中,所述归一化处理可以包括以下至少一项:英文字符大小写转化处理、中文繁简转换、特殊符号过滤处理。在示例性实施方式中,所述根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词,可以包括:利用预先建立的N-gram语言模型计算所述候选搜索词集合中任一个候选搜索词的出现概率;从所述候选搜索词集合中挑选所述出现概率满足第二设定条件的候选搜索词;计算挑选出的任一个候选搜索词与所述搜索词之间的语义相似度;挑选出与所述搜索词之间的语义相似度最高的候选搜索词,用于纠正所述搜索词。在示例性实施方式中,所述计算挑选出的任一个候选搜索词与所述搜索词之间的语义相似度,可以包括:利用预先建立的Word2Vec语言模型将所述挑选出的候选搜索词与所述搜索词表示成向量形式;计算表示成向量形式的所述候选搜索词与所述搜索词之间的语义相似度。在示例性实施方式中,所述搜索词可以包括对应于音乐数据的搜索词。第二方面,本申请实施例提供一种计算设备,包括:存储器和处理器,所述存储器用于存储数据处理程序,所述数据处理程序被所述处理器执行时实现上述第一方面的数据处理方法的步骤。第三方面,本申请实施例提供一种数据处理方法,包括:给对应于音乐数据的搜索词生成候选搜索词集合;结合N-gram语言模型和Word2Vec语言模型,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词。第四方面,本申请实施例提供一种数据处理方法,包括:获取第一输入数据,其中,所述第一输入数据包括文本或语音或图像;获取与所述第一输入数据关联的多个候选数据;展示所述多个候选数据;获取第二输入数据,其中,所述第二输入数据包括所述多个候选数据中至少一部分的顺序关系。在示例性实施方式中,所述获取与所述第一输入数据关联的多个候选数据,可以包括:识别所述第一输入数据中的文本;对所述文本进行分词处理,得到一个或多个词典单词;根据候选生成规则,获取任一词典单词的一个或多个候选词典单词。在示例性实施方式中,所述展示所述多个候选数据,可以包括:按照设定间隔横向依次显示分词得到的一个或多个词典单词;针对任一词典单词,在对齐所述词典单词的纵向依次显示所述词典单词的一个或多个候选词典单词。在示例性实施方式中,所述获取第二输入数据,可以包括:根据所述多个候选数据中至少一部分的选择信息,确定第二输入数据。在示例性实施方式中,所述获取第二输入数据,可以包括:根据所述多个候选数据中至少一部分的连线信息,确定第二输入数据。第五方面,本申请实施例提供一种计算机可读介质,存储有数据处理程序,所述数据处理程序被处理器执行时实现上述第一方面、或者第三方面、或者第四方面提供的数据处理方法的步骤。在本申请实施例中,给搜索词生成候选搜索词集合,根据候选搜索词集合中任一候选搜索词的出现概率以及候选搜索词与搜索词之间的语义相似度,从候选搜索词集合中确定用于纠正搜索词的候选搜索词,其中,候选搜索词的出现概率根据该候选搜索词的上下文关系计算得到。如此,通过挖掘候选搜索词的上下文关系以及与搜索词之间的语义相似度,确定最优的候选搜索词,从而提高搜索词的纠错效果,提升用户的检索体验。在示例性实施方式中,在检索对应于音乐数据的搜索词时,利用N-gram语言模型和Word2Vec语言模型混合对用户的搜索词进行纠正,从而提高音乐检索的深度和精确度,且更符合用户的检索要求,在提升用户检索效率的同时,提升用户检索体验。在本申请实施例中,通过将第一输入数据关联的候选数据展示给用户,由用户确定最终的输入数据以实现对输入的纠正,可以提升用户的检索体验,而且提高检索结果的有效性。当然,实施本申请的任一产品并不一定需要同时达到以上所有优点。附图说明图1为本申请实施例提供的数据处理方法的流程图;图2为本申请实施例提供的数据处理方法的示例流程图;图3为本申请实施例提供的数据处理方法的示例图;图4为本申请实施例提供的数据处理装置的示意图;图5为本申请实施例提供的另一种数据处理方法的流程图;图6为本申请实施例提供的另一种数据处理方法的流程图。具体实施方式以下结合附图对本申请实施例进行详细说明,应当理解,以下所说明的实施例仅用于说明和解释本申请,并不用于限定本申请。需要说明的是,如果不冲突,本申请实施例以及实施例中的各个特征可以相互结合,均在本申请的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。一些实施方式中,执行数据处理方法的计算设备可包括一个或多个处理器(C本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:给搜索词生成候选搜索词集合;根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词,其中,所述候选搜索词的出现概率根据所述候选搜索词的上下文关系计算得到。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:给搜索词生成候选搜索词集合;根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词,其中,所述候选搜索词的出现概率根据所述候选搜索词的上下文关系计算得到。2.根据权利要求1所述的方法,其特征在于,所述给搜索词生成候选搜索词集合,包括:对所述搜索词进行归一化处理;针对归一化处理后的所述搜索词中的任一个词典单词,根据候选生成规则生成所述词典单词的候选词典单词集合;在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成所述候选搜索词集合。3.根据权利要求2所述的方法,其特征在于,所述候选生成规则包括:在所述词典单词为中文时,根据预先建立的同义词词典、纠错词词典,生成所述词典单词的候选词典单词集合;在所述词典单词为英文时,根据编辑距离生成所述词典单词的候选词典单词集合;在所述词典单词为拼音串时,根据预先建立的分词词典,生成所述词典单词的候选词典单词集合。4.根据权利要求2所述的方法,其特征在于,所述在所述搜索词对应的所有候选词典单词集合中挑选候选概率满足第一设定条件的候选词典单词,组合生成所述候选搜索词集合,包括:在任一个词典单词的候选词典单词集合中,按照候选概率由高到低的顺序,挑选一个或多个候选词典单词;将挑选出的候选词典单词按照对应的词典单词在搜索词中的顺序进行组合,得到多个候选搜索词,生成所述候选搜索词集合。5.根据权利要求2所述的方法,其特征在于,所述归一化处理包括以下至少一项:英文字符大小写转化处理、中文繁简转换、特殊符号过滤处理。6.根据权利要求1所述的方法,其特征在于,所述根据所述候选搜索词集合中任一候选搜索词的出现概率以及所述候选搜索词与所述搜索词之间的语义相似度,从所述候选搜索词集合中确定用于纠正所述搜索词的候选搜索词,包括:利用预先建立的N-gram语言模型计算所述候选搜索词集合中任一个候选搜索词的出现概率;从所述候选搜索词集合中挑选所述出现概率满足第二设定条件的候选搜索词;计算挑选出的任一个候选搜索词与所述搜索词之间的语义相似度;挑选出与所述搜索词之间的语义...

【专利技术属性】
技术研发人员:李亚楠
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1