一种基于警情信息的异常词组检测方法、系统及存储介质技术方案

技术编号:33126374 阅读:50 留言:0更新日期:2022-04-17 00:36
本发明专利技术公开了一种基于警情信息的异常词组检测方法、系统及存储介质,其方法包括步骤:获取警情信息并对所述警情信息进行分词处理得到若干个高频词组;接收统计周期,根据所述统计周期对各个所述高频词组进行时序数据聚合,得到每个所述高频词组对应的时间序列信息;分别对每个所述高频词组对应的时间序列信息进行离散分析,将各个所述高频词组对应的时间序列信息中离群的所述统计周期作为异常周期,得到存在所述异常周期的异常词组。本发明专利技术可以检测警情信息中各个高频词组在不同时间维度上的异常,便于辅助警情研判和决策。便于辅助警情研判和决策。便于辅助警情研判和决策。

【技术实现步骤摘要】
一种基于警情信息的异常词组检测方法、系统及存储介质


[0001]本专利技术涉及接警数据处理
,特别涉及一种基于警情信息的异常词组检测方法及系统。

技术介绍

[0002]在警务工作中接警、处警、反馈等场合每时每刻会产生大量的长文本描述信息,这些文本信息结构复杂,内容多样,其中蕴含的高价值信息如果可以准确的提取并利用到警情分析、研判和决策中,将大幅提高警务机关的治安管理的质量和效率。
[0003]目前针对接处警过程中产生的文本信息通常采用开源分词器对文本信息进行分词处理,并提取出警用关键词后,将提取结果发送给接警员和警情研究部门,供相关人员进行分析。但是这种方法的提取结果通常会包含过多的干扰词组,例如多数接处警消息中均会出现如“报警”、“受伤”、“出血”等关键词,这些关键词在大多数周期时间段内出现的频率均很高,对警情分析没有正面作用,只会作为干扰词影响分析结果,单一获取接处警文本信息中的高频词,不与之前的相同周期时间段进行比较,无法检测到各个词组在不同时间维度上的异常,对警情信息分析提供的参考价值不大。
[0004]为解决现有对警情信息处理过程无法检测词组在不同时间维度上的异常,对警情信息分析提供的参考价值不大的技术问题,目前需要一种基于警情信息的异常词组检测方法,在时间维度上监测警情信息中出现的词组异常,便于辅助警情研判和决策。

技术实现思路

[0005]为解决现有对警情信息处理过程无法检测词组在不同时间维度上的异常,对警情信息分析提供的参考价值不大的技术问题,本专利技术提供一种基于警情信息的异常词组检测方法、系统及存储介质,具体的技术方案如下:
[0006]本专利技术提供一种基于警情信息的异常词组检测方法,包括步骤:
[0007]获取警情信息并对所述警情信息进行分词处理得到若干个高频词组;
[0008]接收统计周期,根据所述统计周期对各个所述高频词组进行时序数据聚合,得到每个所述高频词组对应的时间序列信息;
[0009]分别对每个所述高频词组对应的时间序列信息进行离散分析,将各个所述高频词组对应的时间序列信息中离群的所述统计周期作为异常周期,得到存在所述异常周期的异常词组。
[0010]本专利技术提供的基于警情信息的异常词组检测方法可以检测警用信息中高频词组在不同时间维度上的异常,判断其中的异常词组和异常词组对应的异常周期,便于警务人员根据异常词组和异常词组对应的异常周期进行数据分析,提高大量警情信息提取出度异常词组在实务过程中参考价值。
[0011]在一些实施方式中,所述的得到每个所述高频词组对应的时间序列信息之后,还包括:
[0012]提取所述警情信息中当前所述统计周期内的实时警情信息,并获取所述实时警情信息中若干个当前高频词组及其对应的所述时间序列信息;
[0013]根据全部所述高频词组对应的时间序列信息,对每个当前高频词组及其对应的所述时间序列信息进行离散分析,得到存在所述异常周期的所述当前高频词组。
[0014]本专利技术提供的基于警情信息的异常词组检测方法可以基于警情信息中各个统计周期的警情信息,对当前统计周期内的实时警情信息进行离散性分析,仅判断当前统计周期内警情信息中异常词组和异常词组对应的时间序列信息。无需对大量的警情信息进行重复地离散性分析,大幅提高分析速度,提高实务中需要实时分析场景的适用性。
[0015]在一些实施方式中,所述的获取警情信息并对所述警情信息进行分词处理得到若干个高频词组,具体包括:
[0016]获取警用词典、警用停词表,以及预设的警用分词器,将所述警用词典和所述警用停词表输入所述警用分词器;
[0017]通过所述警用分词器对所述警情信息进行分词处理得到若干个第一分词词组;
[0018]将全部所述第一分词词组导入大数据集群和全文检索引擎,进行全量高频词统计得到若干个第二分词词组;
[0019]将第二分词词组作为所述高频词组。
[0020]本专利技术提供的基于警情信息的异常词组检测方法通过搭载警用词典和警用停词表的警用分词器进行分词处理,并通过大数据集群和全文检索引擎进行全量高频词统计,适用于对海量警情信息进行大数据分析,得到其中出现的高频词组,便于后续对针对高频词组进行不同时间维度上的异常检测,降低数据计算量提高处理速度。
[0021]在一些实施例中,所述第一分词词组包括至少一个警用数据标签,所述数据标签包括辖区信息、辖区单位和案件类别;
[0022]所述的进行全量高频词统计得到若干个所述第二分词词组之后,还包括:
[0023]根据所述警用数据标签对若干个所述第二分词词组过滤,得到若干个第三分词词组;
[0024]将所述第三分词词组作为所述高频词组。
[0025]本专利技术提供的基于警情信息的异常词组检测方法根据警用数据标签对分词词组进行过滤,结合用户分析需求进一步提高分词数据的参考价值,降低数据运算量提高运算速度。
[0026]在一些实施方式中,所述的得到若干个第三分词词组之后,还包括:
[0027]预设第一排序序号阈值;
[0028]将各个所述第三分词词组按词频数由大到小进行排序,并整合生成词频列表;
[0029]统计所述词频列表中所述词频数排序序号小于所述第一排序序号阈值的所述第三分词词组为第四分词词组;
[0030]将所述第四分词词组作为所述高频词组。
[0031]本专利技术提供的基于警情信息的异常词组检测方法根据词频数对分词词组进一步过滤,将词频数数值大的分词词组进行不同时间维度上的异常分析,进一步降低警用数据分析过程中的数据量,提高数据的参考价值,提高用户根据过滤后的高频词组进行数据分析的效率。
[0032]在一些实施方式中,所述的获取警情信息并对所述警情信息进行分词处理得到若干个高频词组之后,所述的分别对每个所述高频词组对应的时间序列信息进行离散分析之前,还包括:
[0033]接收所述统计周期和周期区间;
[0034]统计每个所述高频词组在所述周期区间中各个所述统计周期内出现的词频数,将每个所述高频词组在所述周期区间中各个所述统计周期内出现的词频数作为该所述高频词组对应的时间序列信息。
[0035]本专利技术提供的基于警情信息的异常词组检测方法公开一种时序数据聚合的具体步骤,通过统计每个高频词在周期区间内每个统计周期对应的词频数,将上述信息整合生成该词的时间序列信息,便于后续根据每个高频词的时间序列信息进行离散性分析。
[0036]在一些实施例中,所述的分别对每个所述高频词组对应的时间序列信息进行离散分析,具体包括:
[0037]获取预设的离群检测模型;
[0038]通过所述离群检测模型检测每个所述高频词组对应的所述时间序列信息中各个所述统计周期内词频数的离散度;
[0039]判断所述离散度大于预设离散阈值的所述统计周期为离群的所述统计周期。
[0040]本专利技术提供的基于警情信息的异常词组检测方法公开一种对高频词组的时间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于警情信息的异常词组检测方法,其特征在于,包括步骤:获取警情信息并对所述警情信息进行分词处理得到若干个高频词组;接收统计周期,根据所述统计周期对各个所述高频词组进行时序数据聚合,得到每个所述高频词组对应的时间序列信息;分别对每个所述高频词组对应的时间序列信息进行离散分析,将各个所述高频词组对应的时间序列信息中离群的所述统计周期作为异常周期,得到存在所述异常周期的异常词组。2.根据权利要求1所述的一种基于警情信息的异常词组检测方法,其特征在于,所述的得到每个所述高频词组对应的时间序列信息之后,还包括:提取所述警情信息中当前所述统计周期内的实时警情信息,并获取所述实时警情信息中若干个当前高频词组及其对应的所述时间序列信息;根据全部所述高频词组对应的时间序列信息,对每个当前高频词组及其对应的所述时间序列信息进行离散分析,得到存在所述异常周期的所述当前高频词组。3.根据权利要求1所述的一种基于警情信息的异常词组检测方法,其特征在于,所述的获取警情信息并对所述警情信息进行分词处理得到若干个高频词组,具体包括:获取警用词典、警用停词表,以及预设的警用分词器,将所述警用词典和所述警用停词表输入所述警用分词器;通过所述警用分词器对所述警情信息进行分词处理得到若干个第一分词词组;将全部所述第一分词词组导入大数据集群和全文检索引擎,进行全量高频词统计得到若干个第二分词词组;将第二分词词组作为所述高频词组。4.根据权利要求3所述的一种基于警情信息的异常词组检测方法,其特征在于,所述第一分词词组包括至少一个警用数据标签,所述数据标签包括辖区信息、辖区单位和案件类别;所述的进行全量高频词统计得到若干个所述第二分词词组之后,还包括:根据所述警用数据标签对若干个所述第二分词词组过滤,得到若干个第三分词词组;将所述第三分词词组作为所述高频词组。5.根据权利要求4所述的一种基于警情信息的异常词组检测方法,其特征在于,所述的得到若干个第三分词词组之后,还包括:预设第一排序序号阈值;将各个所述第三分词词组按词频数由大到小进行排序,并整合生成词频列表;统计所述词频列表中所述词频数排序序号小于所述第一排序序号阈...

【专利技术属性】
技术研发人员:杨博杜渂何之栋梁铮王聚全索涛邱祥平雷霆彭明喜陈健周赵云刘琦郑佳李帅帅穆青侯俊丞
申请(专利权)人:迪爱斯信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1