一种容错文本查询的方法和设备技术

技术编号:5127471 阅读:227 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种容错文本查询的方法和设备,其中该方法包括以下步骤:计算用户提交的第一检索词与词库中各个词条之间的文本相似度;检测所述文本相似度大于或等于第一阈值的结果词条;根据所述文本相似度的大小对所述结果词条进行排列;将排列后的所述结果词条提供给所述用户进行选择。本发明专利技术的优点是,在用户进行文本查询时,当用户输入的检索词中出现错别字、或多余的字、或缺少一个或者多个字、或检索词中词序颠倒、或以上综合错误的情况下,仍可以最大限度的找出用户的目标词条,容错性较高。

【技术实现步骤摘要】

本专利技术涉及网络信息检索技术,尤其涉及一种容错文本查询的方法和设备
技术介绍
随着网络的普及以及网络资源的极大丰富,网络信息检索成为人们通过查询获取 信息的重要手段之一。人们在计算机或者计算机检索网络的终端机上,使用一定的检索词 以及检索技术,从计算机检索系统的数据库中获取需要的信息。检索技术通常包括两种基 于精确匹配的检索技术,以及基于非精确匹配的检索技术。基于精确匹配的检索技术不能 容错;而非精确匹配的检索技术,允许在用户输入的检索词与其目标资源之间存在一定不 同的情况下,仍可以找到用户的目标资源。现有非精确匹配的检索技术的查询准确性,仍然较大地依赖于用户所输入检索词 的正确性,也就是说,当用户输入的检索词与目标资源之间的存在较大差别时,现有的检索 技术往往无法准确地查询出用户的目标资源,所以在使用非精确匹配的检索技术时,期望 用户输入的检索词尽可能的准确。但是,用户在输入检索词时,往往不可能记住目标资源的 完整名称,所以在检索词中会出现错别字、多余的字、缺字、词序不对等错误情况,这些错误 情况对得到正确的搜索结果造成了一定的影响,使得无法准确获得用户的目标资源。比如, 用户在电影库中想查找“山楂树之恋”,但是由于其不能准确输入电影的名字,而输入“苹果 树之恋”作为检索词进行查询,在这种情况下,传统检索技术将无法准确地找到用户的期望 资源。所以,人们一直期望存在一种文本查询方法,在检索词出现各种错误的情况下,也能 够最大限度地挖掘出用户的目标资源。为了解决上述问题,需要提供一种高容错性的文本查询的方法。
技术实现思路
本专利技术的目的是提供一种解决上述问题的容错文本查询的方法和设备。根据本专利技术的一个方面,提供了一种容错文本查询的方法,该方法包括以下步 骤计算用户提交的第一检索词与词库中各个词条之间的文本相似度; 检测所述文本相似度大于或等于第一阈值的结果词条; 根据所述文本相似度的大小对所述结果词条进行排列; 将排列后的所述结果词条提供给所述用户进行选择。根据本专利技术的另一个方面,还提供了一种容错文本查询的设备,包括用于计算用户提交的第一检索词与词库中各个词条之间的文本相似度的装置; 用于检测所述文本相似度大于或等于第一阈值的结果词条的装置; 用于根据所述文本相似度的大小对所述结果词条进行排列的装置; 用于将排列后的所述结果词条提供给所述用户进行选择的装置。与现有技术相比,本专利技术具有以下优点在用户进行文本查询时,当用户输入的检5索词中出现错别字、或多余的字、或缺少一个或者多个字、或检索词中词序颠倒、或以上综 合错误的情况下,仍可以最大限度的找出用户的目标词条,容错性较高。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它 特征、目的和优点将会变得更明显图1为根据本专利技术一个方面的容错文本查询的系统拓扑图; 图2为根据本专利技术一个方面的容错文本查询的方法流程图; 图3为根据本专利技术一个优选实施例的容错文本查询的方法流程图; 图4为根据本专利技术另一个优选实施例的容错文本查询的方法流程图; 图5为根据本专利技术又一个优选实施例的容错文本查询的方法流程图;以及 图6为根据本专利技术另一个方面的容错文本查询的设备示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施例方式下面结合附图对本专利技术作进一步详细描述。图1为根据本专利技术一个方面的容错文本查询的系统拓扑图,如图所示,包括网络 设备1以及多个与之经由网络相连接的用户设备2。其中,用户在用户设备2上输入第一检 索词进行文本查询,并通过网络将所述第一检索词发送至网络设备1 ;网络设备1获取所述 第一检索词后,计算用户提交的所述第一检索词与词库中各个词条之间的文本相似度;检 测所述文本相似度大于或等于第一阈值的结果词条;根据所述文本相似度的大小对所述结 果词条进行排列;将排列后的所述结果词条提供给所述用户进行选择。在此,网络包括但不 限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。另外,网络设备1包括但不限于网络主机、单个网络服务器、多个网络服务器集合 或基于云计算的计算机集合。而用户设备2可以是任何一种可与用户通过键盘、鼠标、遥控 器、触摸板或手写设备等方式进行人机交互的电子产品,例如计算机、手机、PDA、掌上电脑 PPC或IPTV等。网络设备1与多个用户设备2之间的通信相互独立,可以是基于诸如TCP/ IP协议、UDP (用户数据报)协议等的分组数据传输。本领域技术人员应能理解上述网络设备1、用户设备2以及连接其间的网络和通 信方式仅为举例,其他现有的或今后可能出现的网络设备、用户设备、网络或通信方式如可 适用于本专利技术,也应包含在本专利技术保护范围以内,并在此以引用方式包含于此。本领域技术人员还应能理解,图1中仅为简明起见而示出的各类网络元素的数量 可能小于一个实际网络中的数量,但这种省略无疑地是以不会影响对本专利技术进行清楚、充 分的公开为前提的。为了简明起见,下面以一个用户设备2为例对容错文本查询的方法以及设备分别 进行描述。本领域技术人员应能理解,网络设备1可以同时与多个用户设备2交互,从不同 用户设备2获取用户输入的第一检索词后,计算用户提交的所述第一检索词与词库中各个 词条之间的文本相似度;检测所述文本相似度大于或等于第一阈值的结果词条;根据所述 文本相似度的大小对所述结果词条进行排列;将排列后的所述结果词条提供给不同的用户6设备2供用户进行选择。 图2为根据本专利技术一个方面的容错文本查询的方法流程图。如图所示,在步骤 S201中,计算用户提交的第一检索词与词库中各个词条之间的文本相似度。具体地,在检测 到用户进行文本查询时所提交的第一检索词后,将该第一检索词与词库中的词条逐一进行 比较,计算出该第一检索词与词库中各个词条之间的文本相似度。其中,用户进行检索时输 入的所述第一检索词通常是由文字、字母、数字以及符号构成的文本,短的只有几个字符, 长的则包括十几个或者几十个字符;所述词库是由大量文本构成的数据库,在不同的应用 场景下具有不同的内容,比如,可以是由歌曲名构成的索引数据库供用户对歌曲进行检索, 也可以是摘要数据库供用户对文献进行查找,等等;所述第一检索词与词库中词条之间的 文本相似度是对所述第一检索词与所述词条之间相似程度的一种量化,可以通过所述第一 检索词与所述词条含有相同字符的个数来定义。当所述第一检索词与所述词条含有的相同 字符的个数越多,则说明所述第一检索词与所述词条越相似。举例来说,用户在由歌曲名构 成的索引数据库中进行查询,该索引数据库中存在10首歌曲的名字(在实际应用中,索引 数据库中会存在大量的数据,此处为简明起见仅以10个歌曲名为例说明),分别是1) 一 天一点爱恋、2)恋上一个人、3)恋一世的爱、4)曲终人散、5)分开90天、6)恋爱达人、7) 有多少爱可以重来、8)电台情歌、9)乡恋、10)每天爱你多一点,用户在查询时输入第一检 索词为“一天多点恋爱”(所述用户的目标歌曲名为“一天一点爱恋”),那么所述第一检索 词“一天多点恋爱”与上述10个歌名之间的文本相似度分别如下本文档来自技高网...

【技术保护点】
一种容错文本查询的方法,该方法包括以下步骤:计算用户提交的第一检索词与词库中各个词条之间的文本相似度;检测所述文本相似度大于或等于第一阈值的结果词条;根据所述文本相似度的大小对所述结果词条进行排列;将排列后的所述结果词条提供给所述用户进行选择。

【技术特征摘要】
一种容错文本查询的方法,该方法包括以下步骤计算用户提交的第一检索词与词库中各个词条之间的文本相似度;检测所述文本相似度大于或等于第一阈值的结果词条;根据所述文本相似度的大小对所述结果词条进行排列;将排列后的所述结果词条提供给所述用户进行选择。2.根据权利要求1所述的方法,其中所述第一检索词至少包括文字、字母、数字、符号 中的一项。3.根据权利要求1所述的方法,其中所述第一检索词与词条之间的文本相似度定义为所述第一检索词与所述词条含有相 同字符的个数或比重。4.根据权利要求3所述的方法,其中所述第一检索词与所述词条含有相同字符的比重w的定义为5.根据权利要求1所述的方法,其中当所述第一检索词与所述词库中各个词条之间的文本相似度均小于第一阈值时,则根 据所述第一检索词与所述词条之间的最长公共子串的长度对所述词条进行排列。6.根据权利要求1所述的方法,其中当用户没有选择所述结果词条而是提交第二检索词时,计算所述第二检索词与所述用 户提交的前一个第一检索词之间的文本相似度;如果所述文本相似度大于或等于第二阈值,则调低所述第一阈值。7.根据权利要求1所述的方法,其中根据对用户群输入的所述第一检索词进行统计分析,建立/更新错误热词词库;根据所述错误热词词库,使用目标词条替换所述第一检索词进行查询。8.根据权利要求7所述的方法,其中所述根据对用户群输入的所述第一检索词进行统 计分析,建立/更新错误热词词库的步骤还包括当大量用户对所述第一检索词进行至少一次修正后查询到目标词条时,记录所述第一 检索词、修正后的第二检索词以及所述目标词条;当所述第一检索词和所述修正后的第二检索词出现的频率大于等于第三阈值时,将所 述第一检索词、所述修正后的第二检索词以及所述目标词条添加至所述错误热词词库。9.根据权利要求7所述的方法,其中所述根据所述错误热词词库,使用目标词条替换 所述第一检索词进行查询的步骤还包括在所述错误热词词库中对所述第一检索词进行匹配,如果所述第一检索词存在于所述 错误热词词库中,则使用与所述第一检索词相对应的所述目标词条替换所述第一检索词进 行查询;或者在所述错误热词词库中对所述第一检索词进行匹配,如果所述第一检索词存在于所述错误热词词库中,则首先使用所述第一检索词进行查询,然后使用与所述第一检索词相对 应的所述目标词条替换所述第一检索词进行查询。10.根据权利要求7至9中任一项所述的方法,其中 使用所述目标词条直接替换所述第一检索词进行查询。11.根据权利要求7至9中任一项所述的方法,其中提示所述用户使用所述目标词条替换所述第一检索词进行查询。12.—种容错文本查询的设备,包括用于计算用户提交的第一检索词与词库中各个词条之间的文本相似度的装置; 用于检测...

【专利技术属性】
技术研发人员:黄志龙
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1