一种网情数据的检索方法、系统、电子设备及存储介质技术方案

技术编号:35165426 阅读:33 留言:0更新日期:2022-10-12 17:27
本申请公开了一种网情数据的检索方法、系统、电子设备及存储介质,所属的技术领域为互联网网情兴趣点数据发现处理领域。所述网情数据的检索方法包括:按照逻辑符号将兴趣点表达式拆分为多个关键词,将与待匹配流内容匹配的关键词所在的兴趣点表达式设置为备选兴趣点表达式;对所述备选兴趣点表达式进行逻辑拆解,得到递归封装数据结构;将所述待匹配流内容与所述递归封装数据结构进行匹配,得到网情数据检索结果。本申请能够在保证召回率的情况下提高检索网情数据的准确率。下提高检索网情数据的准确率。下提高检索网情数据的准确率。

【技术实现步骤摘要】
一种网情数据的检索方法、系统、电子设备及存储介质


[0001]本申请涉及互联网网情兴趣点数据发现处理领域,特别涉及一种网情数据的检索方法、系统、电子设备及存储介质。

技术介绍

[0002]网情数据是构建网络安全体系的信息基础,相关技术中通常完全基于关键词兴趣表达式对实时数据内容进行实时匹配发现兴趣点数据。但是上述方式依赖用户的个性化主观配置词,当用户配置场景词较多的时候,会超过搜索引擎MaxBooleanClauses的查询限制造成解析异常,同时对搜索引擎稳定性造成影响。并且未考虑关键词的地域和人物名称的词性检测问题,会造成数据召回不足以及误召回问题。
[0003]因此,如何在保证召回率的情况下提高检索网情数据的准确率是本领域技术人员目前需要解决的技术问题。

技术实现思路

[0004]本申请的目的是提供一种网情数据的检索方法、一种网情数据的检索系统、一种电子设备及一种存储介质,能够在保证召回率的情况下提高检索网情数据的准确率。
[0005]为解决上述技术问题,本申请提供一种网情数据的检索方法,该网情数据的检索方法包括:
[0006]按照逻辑符号将兴趣点表达式拆分为多个关键词,将与待匹配流内容匹配的关键词所在的兴趣点表达式设置为备选兴趣点表达式;
[0007]对所述备选兴趣点表达式进行逻辑拆解,得到递归封装数据结构;
[0008]将所述待匹配流内容与所述递归封装数据结构进行匹配,得到网情数据检索结果。
[0009]可选的,将与待匹配流内容匹配的关键词所在的兴趣点表达式设置为备选兴趣点表达式,包括:
[0010]根据词性构建关键词字典;其中,所述关键词字典中的元素为所属词性关键词到兴趣点表达式ID的倒排集合映射关系;
[0011]将所述待匹配内容与所述关键词字典中的关键词进行匹配,并将匹配命中的关键词所在的兴趣点表达式设置为所述备选兴趣点表达式;
[0012]相应的,还包括:
[0013]将所述备选兴趣点表达式添加至预匹配集合。
[0014]可选的,对所述备选兴趣点表达式进行逻辑拆解,得到递归封装数据结构,包括:
[0015]对所述备选兴趣点表达式进行逻辑拆解,得到每一所述备选兴趣点表达式对应的递归封装数据结构,并对所述递归封装数据结构进行序列化;
[0016]其中,所述递归封装数据结构包括ANDS数组、ORS数组、最细粒度关键词和关键词词性,所述ANDS数组为备选兴趣点表达式中表示逻辑与运算的表达式列表,所述ORS数组为
备选兴趣点表达式中表示逻辑或运算的表达式列表。
[0017]可选的,将所述待匹配流内容与所述递归封装数据结构进行匹配,得到网情数据检索结果,包括:
[0018]利用所述最细粒度关键词对所述待匹配流内容进行匹配,得到第一匹配结果;
[0019]和/或,利用ANDS数组对所述待匹配流内容进行匹配,得到第二匹配结果;
[0020]和/或,利用ORS数组对所述待匹配流内容进行匹配,得到第三匹配结果;
[0021]判断所述第一匹配结果、所述第二匹配结果或所述第三匹配结果是否为匹配成功;
[0022]若是,则将所述待匹配流内容设置为网情数据检索结果;
[0023]若否,则判定网情数据检索失败。
[0024]可选的,在得到网情数据检索结果之后,还包括:
[0025]生成所述网情数据检索结果对应的文本DAG图;
[0026]利用所述文本DAG图进行最大概率路径计算,得到分词结果;
[0027]按照所述分词结果对所述网情数据检索结果进行筛选,以便去除不符合所述分词结果的文本。
[0028]可选的,在得到网情数据检索结果之后,还包括:
[0029]利用预训练标注模型对所述网情数据检索结果进行命名实体识别,根据命名实体识别结果对所述网情数据检索结果进行筛选,以便去除不符合所述命名实体识别结果的文本。
[0030]可选的,在得到网情数据检索结果之后,还包括:
[0031]利用地域词推理层级知识图对所述网情数据检索结果进行筛选,以便去除不符合所述地域词推理层级知识图的文本。
[0032]本申请还提供了一种网情数据的检索系统,该系统包括:
[0033]表达式筛选模块,用于按照逻辑符号将兴趣点表达式拆分为多个关键词,将与待匹配流内容匹配的关键词所在的兴趣点表达式设置为备选兴趣点表达式;
[0034]逻辑拆解模块,用于对所述备选兴趣点表达式进行逻辑拆解,得到递归封装数据结构;
[0035]匹配模块,用于将所述待匹配流内容与所述递归封装数据结构进行匹配,得到网情数据检索结果。
[0036]本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述网情数据的检索方法执行的步骤。
[0037]本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述网情数据的检索方法执行的步骤。
[0038]本申请提供了一种网情数据的检索方法,包括:按照逻辑符号将兴趣点表达式拆分为多个关键词,将与待匹配流内容匹配的关键词所在的兴趣点表达式设置为备选兴趣点表达式;对所述备选兴趣点表达式进行逻辑拆解,得到递归封装数据结构;将所述待匹配流内容与所述递归封装数据结构进行匹配,得到网情数据检索结果。
[0039]本申请将兴趣点表达式拆分为多个关键词,根据待匹配流内容与关键词匹配的情
况确定备选兴趣点表达式。本申请对备选兴趣点表达式进行逻辑拆解得到递归封装数据结构,利用递归封装数据结构检索待匹配内容中与备选兴趣点表达式匹配的内容,进而得到网情数据检索结果。本申请利用递归封装数据结构进行检索,有效避免了复杂长嵌套表达式查询对索引系统查询稳定性的影响,因此本申请能够在保证召回率的情况下提高检索网情数据的准确率。本申请同时还提供了一种网情数据的检索系统、一种存储介质和一种电子设备,具有上述有益效果,在此不再赘述。
附图说明
[0040]为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]图1为本申请实施例所提供的一种网情数据的检索方法的流程图;
[0042]图2为本申请实施例所提供的封装数据结构对应的递归匹配树的结构示意图;
[0043]图3为本申请实施例所提供的一种待匹配流内容的DAG概率图;
[0044]图4为本申请实施例所提供的一种地域词推理层级知识图;
[0045]图5为本申请实施例所提供的一种网情数据的检索系统的结构示意图。
具体实施方式
[0046]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网情数据的检索方法,其特征在于,包括:按照逻辑符号将兴趣点表达式拆分为多个关键词,将与待匹配流内容匹配的关键词所在的兴趣点表达式设置为备选兴趣点表达式;对所述备选兴趣点表达式进行逻辑拆解,得到递归封装数据结构;将所述待匹配流内容与所述递归封装数据结构进行匹配,得到网情数据检索结果。2.根据权利要求1所述网情数据的检索方法,其特征在于,所述将与待匹配流内容匹配的关键词所在的兴趣点表达式设置为备选兴趣点表达式,包括:根据词性构建关键词字典;其中,所述关键词字典中的元素为所属词性关键词到兴趣点表达式ID的倒排集合映射关系;将所述待匹配内容与所述关键词字典中的关键词进行匹配,并将匹配命中的关键词所在的兴趣点表达式设置为所述备选兴趣点表达式;相应的,还包括:将所述备选兴趣点表达式添加至预匹配集合。3.根据权利要求1所述网情数据的检索方法,其特征在于,对所述备选兴趣点表达式进行逻辑拆解,得到递归封装数据结构,包括:对所述备选兴趣点表达式进行逻辑拆解,得到每一所述备选兴趣点表达式对应的递归封装数据结构,并对所述递归封装数据结构进行序列化;其中,所述递归封装数据结构包括ANDS数组、ORS数组、最细粒度关键词和关键词词性,所述ANDS数组为备选兴趣点表达式中表示逻辑与运算的表达式列表,所述ORS数组为备选兴趣点表达式中表示逻辑或运算的表达式列表。4.根据权利要求3所述网情数据的检索方法,其特征在于,将所述待匹配流内容与所述递归封装数据结构进行匹配,得到网情数据检索结果,包括:利用所述最细粒度关键词对所述待匹配流内容进行匹配,得到第一匹配结果;和/或,利用ANDS数组对所述待匹配流内容进行匹配,得到第二匹配结果;和/或,利用ORS数组对所述待匹配流内容进行匹配,得到第三匹配结果;判断所述第一匹配结果、所述第二匹配结果...

【专利技术属性】
技术研发人员:李学环鲜学丰李娇娇陈珂
申请(专利权)人:苏州市职业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1