本发明专利技术实施例公开了一种在搜索引擎中确定形近字的方法和装置,所述的方法包括:一种确定输入搜索引擎中的待校验的第一文字和第二文字;按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;计算所述第一编码字符串和所述第二编码字符串之间的编码距离;当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。本发明专利技术实施例实现了第一文字和第二文字是否互为形近字的判定,提高了搜索引擎的网页识别效率,增加了搜索引擎的功能。
【技术实现步骤摘要】
【专利摘要】本专利技术实施例公开了一种在搜索引擎中确定形近字的方法和装置,所述的方法包括:一种确定输入搜索引擎中的待校验的第一文字和第二文字;按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;计算所述第一编码字符串和所述第二编码字符串之间的编码距离;当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。本专利技术实施例实现了第一文字和第二文字是否互为形近字的判定,提高了搜索引擎的网页识别效率,增加了搜索引擎的功能。【专利说明】一种在搜索引擎中确定形近字的方法和装置
本专利技术涉及语言文字信息的
,具体涉及一种在搜索引擎中确定形近字的方法、一种提供搜索中文关键词纠错的方法、一种在搜索引擎中确定形近字的装置、一种提供搜索中文关键词纠错的装置。
技术介绍
随着互联网的高速发展,网络应用趋向多元化,网上的信息量急剧增加。在各种场合下,用户经常需要输入语言文字进行信息的交互。例如,在搜索引擎中输入关键词搜索网页信息,在即时通讯工具中输入词句与其他用户进行交流,等等。语言文字存在形近字,即语言文字的结构相似的语言文字。语言文字被定义为各种编码方式进行输入,例如五笔编码、拼音编码等等,用户在采用该编码方式输入语言文字时,由于形近字的原因,很容易出现误操作,输入其他语言文字,导致用户经常需要重新输入语言文字,不仅操作麻烦,而且浪费系统资源。以五笔为例,五笔输入文字准不准确取决于用户是否细心或对汉字本身的认知,但是由于粗心导致的误操作或用户认知本身就是错别字导致的输错汉字的情形等并不少见,例如某新闻报纸的某次头版头条“乱揿喇叭被罚不要喊冤”写成了 “乱揿嗽叭被罚不要喊冤”。再者,若用户在搜索引擎中想输入搜索词“项羽”,搜索历史人物项羽的相关网页信息,但是将“项”误输入为“顶”,由于“项”和“顶”也很相近,用户很可能输入了“顶羽”而没有察觉,直接请求搜索引擎搜索与“顶羽”相关的网页信息。—方面,误操作的搜索结果与当初的预期有很大差别,用户体验十分差,浪费了客户端的资源和搜索引擎的资源。另一方面,用户需要获取自己感兴趣的网页信息,会再次在搜索引擎中输入关键词进行搜索,搜索引擎要再次进行海量信息的搜索、对比、筛选等获取与搜索关键词相关的信息,不仅用户操作更加繁琐,耗费用户的时间,而且将大大增加搜索引擎的负担,耗费更多客户端与搜索引擎的资源。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种在搜索引擎中确定形近字的方法、一种提供搜索中文关键词纠错的方法和相应的、一种在搜索引擎中确定形近字的装置、一种提供搜索中文关键词纠错的装置。依据本专利技术的一个方面,提供了一种在搜索引擎中确定形近字的方法,包括:确定输入搜索引擎中的待校验的第一文字和第二文字;按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;计算所述第一编码字符串和所述第二编码字符串之间的编码距离;当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。可选地,所述预设规则包括预设的编码规则,所述获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串的步骤包括:按照预设的编码规则计算所述第一文字对应的第一编码字符串;按照所述编码规则计算所述第二文字对应的第二编码字符串;其中,所述预设的编码规则包括五笔编码规则。可选地,还包括:将所述互为形近字的第一文字和第二文字及所述形近字映射关系输出至指定的字体数据库中。根据本专利技术的另一方面,提供了一种提供搜索中关键词纠错的方法,包括:接收搜索请求;所述搜索请求中包括搜索关键词;当对所述搜索关键词进行纠错处理发现错误时,采用与所述搜索关键词匹配的形近字对所述搜索关键词进行改写;以改写后的搜索关键词进行搜索,获得与所述改写后的搜索关键词相匹配的搜索结果数据。可选地,所述形近字通过以下方式获得:确定待输入搜索引擎中的校验是否为形近字的第一文字和第二文字;按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;计算所述第一编码字符串和所述第二编码字符串之间的编码距离;当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。可选地,所述预设规则包括预设的编码规则,所述按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串的步骤包括:按照预设的编码规则计算所述第一文字对应的第一编码字符串;按照所述编码规则计算所述第二文字对应的第二编码字符串;其中,所述预设的编码规则包括五笔编码规则。可选地,所述字体数据库中所述第一文字对应的形近字还通过以下方式获得:分别查找所述第一编码字符串对应的第一输入按键;分别查找所述第二编码字符串对应的第二输入按键;分别计算所述第一输入按键和所述第二输入按键之间的按键距离;依据所述按键距离为所述编码距离配置对应的权重;所述当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字的步骤为:当配置有所述权重的编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字。可选地,所述按键距离与所述权重成反比。可选地,还包括:根据所述搜索结果数据生成搜索结果页。可选地,还包括:在所述搜索结果页中提示对所述搜索关键词进行纠错的信息。根据本专利技术的另一方面,提供了一种在搜索引擎中确定形近字的装置,包括:文字确定模块,适于确定输入搜索引擎中的待校验的第一文字和第二文字;编码获取模块,适于按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;编码距离计算模块,适于计算所述第一编码字符串和所述第二编码字符串之间的编码距离;形近字判定模块,适于在所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;映射关系确定模块,适于在搜索引擎中建立第一文字与第二文字之间的形近字映身寸关系。可选地,所述预设规则包括预设的编码规则,所述编码获取模块还适于:按照预设的编码规则计算所述第一文字对应的第一编码字符串;按照所述编码规则计算所述第二文字对应的第二编码字符串;其中,所述预设的编码规则包括五笔编码规则。可选地,还包括:输出模块,适于将所述互为形近字的第一文字和第二文字及所述形近字映射关系输出至指定的字体数据库中。根据本专利技术的另一方面,提供了一种提供搜索中关键词纠错的装置,包括:接收单元,适于接收搜索请求;所述搜索请求中包括搜索关键词;改写单元,适于在对所述搜索关键词进行纠错处理发现错误时,采用与所述搜索关键词匹配的形近字对所述搜索关键词进行改写;搜索单元,适于以改写后的搜索关键词进行搜索,获得与所述改写后的搜索关键词相匹配的搜索结果数据。可选地,所述形近字通过调用以下模块获得:文字确定模块,适于确定输入搜索引擎中的待校验的第一文字和第二文字;编码获取模块,适于按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;编码距离计算模块,适于计算所述第一编码字符串和所述第二编码字本文档来自技高网...
【技术保护点】
一种在搜索引擎中确定形近字的方法,包括:确定输入搜索引擎中的待校验的第一文字和第二文字;按照预设规则获取所述第一文字的第一编码字符串以及所述第二文字的第二编码字符串;计算所述第一编码字符串和所述第二编码字符串之间的编码距离;当所述编码距离小于预设距离阈值时,判定所述第一文字与所述第二文字互为形近字;在搜索引擎中建立第一文字与第二文字之间的形近字映射关系。
【技术特征摘要】
【专利技术属性】
技术研发人员:项碧波,
申请(专利权)人:北京奇虎科技有限公司,奇智软件北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。