【技术实现步骤摘要】
本专利技术涉及互联网技术,特别涉及一种基于人工智能的召回纠错候选的方法和装置。
技术介绍
目前,人工智能技术已经得到了广泛应用,人工智能(ArtificialIntelligence),英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。如当用户进行query检索时,由于疏忽等原因,经常会输入错误的query,比如,将“Tsinghua”错误地输入为“Tainghua”,这就要求搜索引擎能够对用户输入错误的query进行识别,并将错误的部分纠正成用户所需要的query。现有技术中,通常会将用户输入的每个单词分别与字典中的单词进行比较,如果用户输入的某个单词在字典中不存在,则可认为是一个输入错误,从而将该单词作为一个待纠错的单词,之后可提示给用户多个纠错候选(拼写建议),供用户进行选择等。为此,需要首先建表,即对词典中的各单词分别进行以下处理:以“Tsinghua”为例,可删除其中的任意n个字母,剩余部分作为一个key,n的具体取值可根据实际需要而定,比如可取值为2,即采用双删除法进行字母删除,从而可得到“Tsinghua”对应的key的集合{inghua,Tnghua,Tsghua,Tsihua,Tsihua,Tsinua,Tsinga,Tsingh,snghua,…,Tsingu
【技术保护点】
一种基于人工智能的召回纠错候选的方法,其特征在于,包括:当用户进行query检索时,针对用户输入的每个待纠错的单词,分别统计出所述待纠错的单词的字符长度;若统计结果大于预先设定的阈值,则采用simhash算法确定出所述待纠错的单词的指纹,并根据所述指纹召回所述待纠错的单词的纠错候选。
【技术特征摘要】
1.一种基于人工智能的召回纠错候选的方法,其特征在于,包括:当用户进行query检索时,针对用户输入的每个待纠错的单词,分别统计出所述待纠错的单词的字符长度;若统计结果大于预先设定的阈值,则采用simhash算法确定出所述待纠错的单词的指纹,并根据所述指纹召回所述待纠错的单词的纠错候选。2.根据权利要求1所述的方法,其特征在于,该方法进一步包括:若所述统计结果小于或等于所述阈值,则采用双删除法召回所述待纠错的单词的纠错候选。3.根据权利要求1或2所述的方法,其特征在于,该方法进一步包括:针对词典中包括的每个字符长度大于所述阈值的单词i,分别进行以下处理:采用simhash算法确定出所述单词i的指纹,所述单词i的指纹的字符长度与所述待纠错的单词的指纹的字符长度相同;将所述单词i的指纹分为N段,N为大于1的正整数,分别将每段的内容加上所在段的段标识后作为一个key,所述key对应的索引单词为所述单词i;将每个key和对应的索引单词进行保存;所述根据所述指纹召回所述待纠错的单词的纠错候选包括:将所述待纠错的单词的指纹分为N段,分别将每段的内容加上所在段的段标识后作为一个key;分别查找出所述待纠错的单词对应的每个key对应的索引单词,将查找出的各索引单词作为所述待纠错的单词的纠错候选。4.根据权利要求1或2所述的方法,其特征在于,该方法进一步包括:在召回所述待纠错的单词的纠错候选之后,合并其中重复出现的纠错候选,并按照出现次数由多到少的顺序,对各纠错候选进行排序。5.根据权利要求4所述的方法,其特征在于,该方法进一步包括:在对各纠错候选进行排序之后,确定所述待纠错的单词是否存在上下文;若存在上下文,则分别计算每个纠错候选与所述待纠错的单词的上下文之间的契合度;按照契合度由高到低的顺序对各纠错候选进行重新排序。6.根据权利要求5所述的方法,其特征在于,该方法进一步包括:若不存在上下文,则针对每个纠错候选,分别确定出所述纠错候选在最近预定时长内所有进行过检索的用户对应的检索结果的标题中出现的次数L,以及,所述待纠错的单词被纠正为所述纠错候选的概率EM,根据L和EM计算出所述纠错候选的评分;按照评分由高到低的顺序对各纠错候选进行重新排序。7.根据权利要求6所述的方法,其特征在于,所述根据L和EM计算出所述纠错候选的评分包括:计算所述EM和预先设定的加权系数的乘积;计算1减去所述加权系数之差与所述L的乘积;将两个乘积的相加之和作为所述纠错候选的评分。8.一种基于人工智能的召回纠错候选的装置,其特征在于,包...
【专利技术属性】
技术研发人员:肖求根,曾增烽,付志宏,何径舟,石磊,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。