文本关键词扫描方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:28374178 阅读:31 留言:0更新日期:2021-05-08 00:01
本发明专利技术实施例涉及文本处理技术领域,公开了一种文本关键词搜索方法,该方法包括:获取目标文本;将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。通过上述方式,本发明专利技术实施例实现了对文本快速精准地扫描。

【技术实现步骤摘要】
文本关键词扫描方法、装置、设备及计算机可读存储介质
本专利技术实施例涉及文本处理
,具体涉及一种文本关键词扫描方法、装置、设备及计算机可读存储介质。
技术介绍
目前,网络信息安全越来越受到重视,在用户创建的内容发布到网络上时,需要进行敏感词、禁用词扫描。另外,在房地产行业中,需要快速扫描、识别某篇文章中是否出现了某些楼盘、小区的关键字,是否出现了某些行业关键词等。然而现有的关键词搜索方法匹配精准度低、不支持模糊匹配,且搜索效率低。
技术实现思路
鉴于上述问题,本专利技术实施例提供了一种文本关键词扫描方法、装置、设备及计算机可读存储介质,用于解决现有技术中存在的匹配精准度低且效率低的问题。根据本专利技术实施例的一个方面,提供了一种文本关键词扫描方法,所述方法包括:获取目标文本;将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。在一种可选的方式中,所述目标词典包括多个词典词条;所述将所述目标文本与预设的索引树进行匹配之前,包括:从所述多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;所述目标红黑树为所述多个红黑树中任意一个红黑树;根据所述多个目标词条构建目标红黑树的目标节点。在一种可选的方式中,所述目标节点包括第一级节点以及剩余节点;根据所述多个目标词条构建目标红黑树的目标节点,包括:根据所述目标词条的第一个字确定所述目标红黑树的第一级节点;按照所述多个目标词条中的剩余字的顺序依次确定所述目标红黑树的剩余节点。在一种可选的方式中,所述目标词条为目标精确词或者目标精确词与其他词的组合;所述其它词为正则表达式、变量或者与修饰词中的一种或者多种。在一种可选的方式中,所述目标词典为敏感词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:将所述目标关键词作为目标敏感词;在所述目标文本中对所述目标敏感词进行过滤操作。在一种可选的方式中,所述目标词典为行业词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:将所述目标关键词作为目标行业词;根据所述目标行业词对所述目标文本进行处理。根据本专利技术实施例的另一方面,提供了一种文本关键词搜索装置,包括:获取模块,用于获取目标文本;匹配模块,用于将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;确定模块,用于将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。在一种可选的方式中,所述目标词典包括多个词典词条;所述装置还包括:构建模块,用于从所述多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;所述目标红黑树为所述多个红黑树中任意一个红黑树;根据所述多个目标词条构建目标红黑树的目标节点。根据本专利技术实施例的另一方面,提供了一种文本关键词搜索设备,包括:包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的文本关键词搜索方法的操作。根据本专利技术实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在文本关键词搜索设备上运行时,使得文本关键词搜索设备执行上述的文本关键词搜索方法的操作。本专利技术实施例通过构建目标词典对应的多个红黑树,将目标文本与红黑树进行匹配,来确定目标关键词,缩小了扫描的深度,能够实现对目标文本快速精准地进行关键词扫描的有益效果。进一步地,本专利技术实施例在构建红黑树时,红黑树的节点包括了目标词条中的精准词以及正则表达式,在保证扫描的速度及精度的同时,还可以实现模糊匹配。上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明附图仅用于示出实施方式,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的文本关键词搜索方法的流程示意图;图2示出了本专利技术实施例提供的文本关键词搜索装置的结构示意图;图3示出了本专利技术实施例提供的文本关键词搜索设备的结构示意图。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。图1示出了本专利技术实施例提供的文本关键词搜索方法的流程图,该方法由文本关键词搜索设备执行。该文本关键词搜索设备可以是计算机设备、终端设备等。如图1所示,该方法包括以下步骤:步骤110:获取目标文本。其中,该目标文本可以是用户输入的文本,也可以是web或终端上的文章。本专利技术实施例的一种具体场景为:对目标文本中的敏感词进行过滤操作中的文本扫描。本专利技术实施例的另一种具体场景为:对行业文章进行爬取操作过程中的文本扫描。步骤120:将目标文本与预设的索引树进行匹配,索引树为根据目标词典预先建立的多个红黑树。其中,将目标文本与预设的索引树进行匹配,指的是将目标文本中的字与多个红黑树的节点数据进行匹配。本专利技术实施例中,索引树是根据目标词典预先建立的多个红黑树。红黑树(RedBlackTree)是一种自平衡二叉查找树,是在计算机科学中用到的一种数据结构。该红黑树包括多个节点。其中,在将目标文本与预设的索引树进行匹配之前,预先建立该多个目标红黑树的具体步骤包括:步骤001:建立目标词典。该目标词典包括多个词典词条,该词条可以是行业词,也可以是敏感词。其中,该词条包括所述目标精确词或者目标精确词与其他词的组合;其它词为正则表达式、变量或者与修饰词中的一种或者多种。也即,该词条中包括精确词,可以只包括精确词,也可以是精确词与正则表达式的组合,可以是精确词与修饰词的组合,还可以是精确词与正则表达式及修饰词的组合,该词条中还可以包括变量。其中,精确词指得是由确定的字组成的词,如“万达”等。正则表达式及修饰词则为不确定的字符。例如正则表达式“<cityName>市?”,精确词与正则表达式的组合“<cityName>市?万科”,精确词与正则表达式及修饰词的组合“<cityName>市?万科[广场/楼盘/小区/笋盘]”等。步骤002:从所述多个词典词条中确定第一个字相同的多个目标词条。其中,目标词条为所述多个词典词条中任意一个本文档来自技高网...

【技术保护点】
1.一种文本关键词搜索方法,其特征在于,所述方法包括:/n获取目标文本;/n将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;/n将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。/n

【技术特征摘要】
1.一种文本关键词搜索方法,其特征在于,所述方法包括:
获取目标文本;
将所述目标文本与预设的索引树进行匹配,所述索引树为根据目标词典预先建立的多个红黑树;
将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词。


2.根据权利要求1所述的方法,其特征在于,所述目标词典包括多个词典词条;
所述将所述目标文本与预设的索引树进行匹配之前,包括:
从所述多个词典词条中确定第一个字相同的多个目标词条;所述目标词条为所述多个词典词条中任意一个词典词条;所述目标红黑树为所述多个红黑树中任意一个红黑树;
根据所述多个目标词条构建目标红黑树的目标节点。


3.根据权利要求2所述的方法,其特征在于,所述目标节点包括第一级节点以及剩余节点;
根据所述多个目标词条构建目标红黑树的目标节点,包括:
根据所述目标词条的第一个字确定所述目标红黑树的第一级节点;
按照所述多个目标词条中的剩余字的顺序依次确定所述目标红黑树的剩余节点。


4.根据权利要求3所述的方法,其特征在于,所述目标词条为目标精确词或者目标精确词与其他词的组合;所述其它词为正则表达式、变量或者与修饰词中的一种或者多种。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述目标词典为敏感词词典;将所述目标文本中与所述预设的索引树匹配的词确定为目标关键词之后,包括:
将所述目标关键词作为目标敏感词;
在所述目标文本中对所述目标敏感词进行过滤操作。


6.根据权利要求...

【专利技术属性】
技术研发人员:徐文振
申请(专利权)人:深圳市房多多网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1