【技术实现步骤摘要】
本专利技术涉及网络信息检索技术,尤其涉及一种容错文本查询的方法和设备。
技术介绍
随着网络的普及以及网络资源的极大丰富,网络信息检索成为人们通过查询获取 信息的重要手段之一。人们在计算机或者计算机检索网络的终端机上,使用一定的检索词 以及检索技术,从计算机检索系统的数据库中获取需要的信息。检索技术通常包括两种基 于精确匹配的检索技术,以及基于非精确匹配的检索技术。基于精确匹配的检索技术不能 容错;而非精确匹配的检索技术,允许在用户输入的检索词与其目标资源之间存在一定不 同的情况下,仍可以找到用户的目标资源。现有非精确匹配的检索技术的查询准确性,仍然较大地依赖于用户所输入检索词 的正确性,也就是说,当用户输入的检索词与目标资源之间的存在较大差别时,现有的检索 技术往往无法准确地查询出用户的目标资源,所以在使用非精确匹配的检索技术时,期望 用户输入的检索词尽可能的准确。但是,用户在输入检索词时,往往不可能记住目标资源的 完整名称,所以在检索词中会出现错别字、多余的字、缺字、词序不对等错误情况,这些错误 情况对得到正确的搜索结果造成了一定的影响,使得无法准确获得用户的目标资源。比如, 用户在电影库中想查找“山楂树之恋”,但是由于其不能准确输入电影的名字,而输入“苹果 树之恋”作为检索词进行查询,在这种情况下,传统检索技术将无法准确地找到用户的期望 资源。所以,人们一直期望存在一种文本查询方法,在检索词出现各种错误的情况下,也能 够最大限度地挖掘出用户的目标资源。为了解决上述问题,需要提供一种高容错性的文本查询的方法。
技术实现思路
本专利技术的目的是提供一种解 ...
【技术保护点】
一种容错文本查询的方法,该方法包括以下步骤:计算用户提交的第一检索词与词库中各个词条之间的文本相似度;检测所述文本相似度大于或等于第一阈值的结果词条;根据所述文本相似度的大小对所述结果词条进行排列;将排列后的所述结果词条提供给所述用户进行选择。
【技术特征摘要】
一种容错文本查询的方法,该方法包括以下步骤计算用户提交的第一检索词与词库中各个词条之间的文本相似度;检测所述文本相似度大于或等于第一阈值的结果词条;根据所述文本相似度的大小对所述结果词条进行排列;将排列后的所述结果词条提供给所述用户进行选择。2.根据权利要求1所述的方法,其中所述第一检索词至少包括文字、字母、数字、符号 中的一项。3.根据权利要求1所述的方法,其中所述第一检索词与词条之间的文本相似度定义为所述第一检索词与所述词条含有相 同字符的个数或比重。4.根据权利要求3所述的方法,其中所述第一检索词与所述词条含有相同字符的比重w的定义为5.根据权利要求1所述的方法,其中当所述第一检索词与所述词库中各个词条之间的文本相似度均小于第一阈值时,则根 据所述第一检索词与所述词条之间的最长公共子串的长度对所述词条进行排列。6.根据权利要求1所述的方法,其中当用户没有选择所述结果词条而是提交第二检索词时,计算所述第二检索词与所述用 户提交的前一个第一检索词之间的文本相似度;如果所述文本相似度大于或等于第二阈值,则调低所述第一阈值。7.根据权利要求1所述的方法,其中根据对用户群输入的所述第一检索词进行统计分析,建立/更新错误热词词库;根据所述错误热词词库,使用目标词条替换所述第一检索词进行查询。8.根据权利要求7所述的方法,其中所述根据对用户群输入的所述第一检索词进行统 计分析,建立/更新错误热词词库的步骤还包括当大量用户对所述第一检索词进行至少一次修正后查询到目标词条时,记录所述第一 检索词、修正后的第二检索词以及所述目标词条;当所述第一检索词和所述修正后的第二检索词出现的频率大于等于第三阈值时,将所 述第一检索词、所述修正后的第二检索词以及所述目标词条添加至所述错误热词词库。9.根据权利要求7所述的方法,其中所述根据所述错误热词词库,使用目标词条替换 所述第一检索词进行查询的步骤还包括在所述错误热词词库中对所述第一检索词进行匹配,如果所述第一检索词存在于所述 错误热词词库中,则使用与所述第一检索词相对应的所述目标词条替换所述第一检索词进 行查询;或者在所述错误热词词库中对所述第一检索词进行匹配,如果所述第一检索词存在于所述错误热词词库中,则首先使用所述第一检索词进行查询,然后使用与所述第一检索词相对 应的所述目标词条替换所述第一检索词进行查询。10.根据权利要求7至9中任一项所述的方法,其中 使用所述目标词条直接替换所述第一检索词进行查询。11.根据权利要求7至9中任一项所述的方法,其中提示所述用户使用所述目标词条替换所述第一检索词进行查询。12.—种容错文本查询的设备,包括用于计算用户提交的第一检索词与词库中各个词条之间的文本相似度的装置; 用于检测...
【专利技术属性】
技术研发人员:黄志龙,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。