一种文本模糊匹配方法和装置制造方法及图纸

技术编号:30186140 阅读:9 留言:0更新日期:2021-09-29 08:22
本申请公开了一种文本模糊匹配方法和装置;本申请可以获取待模糊匹配词;基于所述待模糊匹配词从预设词集合中确定目标分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词,基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,将所述目标文档标识添加到所述待模糊匹配词的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配词匹配的文档标识,基于所述目标分词的第二相邻分词,更新所述模糊匹配集,获取所述待模糊匹配词的模糊匹配结果;本申请通过对模糊匹配算法进行改进,可以提高检索效率。可以提高检索效率。可以提高检索效率。

【技术实现步骤摘要】
一种文本模糊匹配方法和装置


[0001]本申请涉及计算机
,具体涉及一种文本模糊匹配方法和装置。

技术介绍

[0002]随着互联网的迅速发展,网络上的文本数据爆炸式地增长。文本检索服务能够根据用户所提供的查询关键词,帮助用户从海量文本数据中快速地获取想要的数据。文本检索广泛地应用于网络信息服务的各个领域,如数字图书馆、电子商务网站和企业信息管理等。文本模糊匹配是用户在文本检索过程中的核心功能。
[0003]在目前的相关技术中,部分模糊匹配算法是通过遍历词典的方式来找到满足模糊匹配的词,存在检索效率较低的问题。

技术实现思路

[0004]本申请实施例提供一种文本模糊匹配方法和装置,可以提高检索效率。
[0005]本申请实施例提供一种文本模糊匹配方法,包括:
[0006]获取待模糊匹配词;
[0007]基于所述待模糊匹配词从预设词集合中确定目标分词,其中,所述预设词集合包括至少一个分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词;
[0008]基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,所述映射关系对包括分词与文档标识之间的映射关系;
[0009]将所述目标文档标识添加到所述待模糊匹配词的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配词匹配的文档标识;
[0010]基于所述目标分词的第二相邻分词,更新所述模糊匹配集;/>[0011]基于更新后的模糊匹配集,获取所述待模糊匹配词的模糊匹配结果。
[0012]相应的,本申请实施例提供一种文本模糊匹配装置,包括:
[0013]第一获取单元,用于获取待模糊匹配词;
[0014]确定单元,用于基于所述待模糊匹配词从预设词集合中确定目标分词,其中,所述预设词集合包括至少一个分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词;
[0015]第二获取单元,用于基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,所述映射关系对包括分词与文档标识之间的映射关系;
[0016]添加单元,用于将所述目标文档标识添加到所述待模糊匹配词的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配词匹配的文档标识;
[0017]更新单元,用于基于所述目标分词的第二相邻分词,更新所述模糊匹配集;
[0018]第三获取单元,用于基于更新后的模糊匹配集,获取所述待模糊匹配词的模糊匹配结果。
[0019]可选的,在本申请的一些实施例中,所述更新单元可以包括获取子单元、添加子单元和循环子单元,如下:
[0020]所述获取子单元,用于当所述目标分词的第二相邻分词的词前缀包含所述待模糊匹配词时,基于所述映射关系对,获取所述目标分词的第二相邻分词对应的文档标识;
[0021]添加子单元,用于将所述目标分词的第二相邻分词对应的文档标识添加到所述模糊匹配集中;
[0022]循环子单元,用于将所述目标分词的第二相邻分词作为新的目标分词,返回执行所述基于所述映射关系对,获取所述目标分词的第二相邻分词对应的文档标识的步骤,直到所述目标分词的第二相邻分词的词前缀不包含所述待模糊匹配词。
[0023]可选的,在本申请的一些实施例中,所述文本模糊匹配装置还可以包括分词单元、截取单元、第四获取单元和建立单元,如下:
[0024]所述分词单元,用于对原始文本进行分词处理,得到所述原始文本的至少一个分词;
[0025]截取单元,用于基于所述分词的字节,从所述分词中截取至少一个词后缀;
[0026]第四获取单元,用于获取所述词后缀对应的文档标识,所述文档标识对应的文档包含所述词后缀;
[0027]建立单元,用于建立所述分词和所述文档标识之间的映射关系,得到所述分词的映射关系对。
[0028]可选的,在本申请的一些实施例中,所述截取单元具体可以用于基于所述分词的字节,从所述分词中截取至少一个词后缀,所述词后缀的字节长度不小于预设字节长度。
[0029]可选的,在本申请的一些实施例中,所述建立单元可以包括融合子单元和建立子单元,如下:
[0030]所述融合子单元,用于对所述分词的各个词后缀对应的文档标识进行融合,得到所述分词对应的文档标识集;
[0031]建立子单元,用于建立所述分词和所述文档标识集之间的映射关系,得到所述分词的映射关系对。
[0032]可选的,在本申请的一些实施例中,所述文本模糊匹配装置还包括存储单元,如下:
[0033]所述存储单元,用于根据各个分词的预设排列顺序,将所述分词对应的映射关系对存储于多级存储区。
[0034]可选的,一些实施例中,所述第二获取单元具体可以用于从所述多级存储区中提取所述目标分词对应的映射关系对,基于提取的映射关系对,获取所述目标分词对应的目标文档标识。
[0035]可选的,在本申请的一些实施例中,所述存储单元具体可以用于从多级存储区中确定需要存储映射关系对的当前存储区;根据各个分词的预设排列顺序,将所述分词对应的映射关系对存储于所述当前存储区;在所述当前存储区满足预设条件时,则将所述当前存储区中存储的映射关系对存储在所述当前存储区的下一级存储区中;将所述下一级存储
区作为所述当前存储区,返回执行所述在所述当前存储区满足预设条件时,则将所述当前存储区中存储的映射关系对存储在所述当前存储区的下一级存储区中的步骤。
[0036]可选的,在本申请的一些实施例中,所述确定单元具体可以用于根据多级存储区的每一级存储区中的分词的预设排列顺序和所述待模糊匹配词,从每一级存储区的预设词集合中确定目标分词。
[0037]可选的,在本申请的一些实施例中,所述确定单元具体可以用于通过二分查找,基于所述待模糊匹配词从预设词集合中确定目标分词。
[0038]本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的文本模糊匹配方法中的步骤。
[0039]此外,本申请实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的文本模糊匹配方法中的步骤。
[0040]本申请实施例提供了一种文本模糊匹配方法和装置,可以获取待模糊匹配词;基于所述待模糊匹配词从预设词集合中确定目标分词,其中,所述预设词集合包括至少一个分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词;基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,所述映射关系对包括分词与文档标识之间的映射关系;将所述目标文档标识添加到所述待模糊匹配本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本模糊匹配方法,其特征在于,包括:获取待模糊匹配词;基于所述待模糊匹配词从预设词集合中确定目标分词,其中,所述预设词集合包括至少一个分词,所述目标分词的词前缀包含所述待模糊匹配词,且所述目标分词的第一相邻分词的词前缀不包含所述待模糊匹配词;基于所述目标分词和映射关系对,获取所述目标分词对应的目标文档标识,所述目标文档标识对应的文档包含所述目标分词,所述映射关系对包括分词与文档标识之间的映射关系;将所述目标文档标识添加到所述待模糊匹配词的模糊匹配集中,所述模糊匹配集包括所述待模糊匹配词匹配的文档标识;基于所述目标分词的第二相邻分词,更新所述模糊匹配集;基于更新后的模糊匹配集,获取所述待模糊匹配词的模糊匹配结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标分词的第二相邻分词,更新所述模糊匹配集,包括:当所述目标分词的第二相邻分词的词前缀包含所述待模糊匹配词时,基于所述映射关系对,获取所述目标分词的第二相邻分词对应的文档标识;将所述目标分词的第二相邻分词对应的文档标识添加到所述模糊匹配集中;将所述目标分词的第二相邻分词作为新的目标分词,返回执行所述基于所述映射关系对,获取所述目标分词的第二相邻分词对应的文档标识的步骤,直到所述目标分词的第二相邻分词的词前缀不包含所述待模糊匹配词。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:对原始文本进行分词处理,得到所述原始文本的至少一个分词;基于所述分词的字节,从所述分词中截取至少一个词后缀;获取所述词后缀对应的文档标识,所述文档标识对应的文档包含所述词后缀;建立所述分词和所述文档标识之间的映射关系,得到所述分词的映射关系对。4.根据权利要求3所述的方法,其特征在于,所述基于所述分词的字节,从所述分词中截取至少一个词后缀,包括:基于所述分词的字节,从所述分词中截取至少一个词后缀,所述词后缀的字节长度不小于预设字节长度。5.根据权利要求3所述的方法,其特征在于,所述建立所述分词和所述文档标识之间的映射关系,得到所述分词的映射关系对,包括:对所述分词的各个词后缀对应的文档标识进行融合,得到所述分词对应的文档标识集;建立所述分词和所述文档标识集之间的映射关系,得到所述分词的映射关系对。6.根据权利要求3所述的方法,其特征在于,所述建立所述分词和所述文档标识之...

【专利技术属性】
技术研发人员:曹希保曾楚伟李斌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1