一种自定义事件预警监控方法技术

技术编号:35298769 阅读:40 留言:0更新日期:2022-10-22 12:46
本发明专利技术属于网络信息挖掘技术领域,具体涉及一种自定义事件预警监控方法。该方法使用自定义事件配置和预警配置,首先采集多通道、主流媒体、社交账号的数据;然后对数据进行预处理,借助Elasticsearch实现事件与数据近实时匹配,并将匹配数据推送kafka供预警监控系统预警监测;预警监控系统根据预警配置,通过倒排索引匹配预警文章量,达到触发条件,及时发送预警信息。该方法能够为业务提供更丰富、快速的监控形式,可快速配置最新事件、热点事件,并对事件进行分析、监控,把握事件高发期、干预效果,提高应用灵活性和快速性。提高应用灵活性和快速性。提高应用灵活性和快速性。

【技术实现步骤摘要】
一种自定义事件预警监控方法


[0001]本专利技术属于网络信息挖掘
,具体涉及一种自定义事件预警监控方法。

技术介绍

[0002]随着信息技术不断发展,新闻客户端和各类社交媒体成为公众的第一信息源,但由于信息量庞大繁杂,信息筛选复杂,且各类事件层出不穷。通过多通道主流媒体采集、事件识别、预警监控的措施成为一种常用的手段。
[0003]目前事件预警监控主要是对某些地区、主题进行事件特殊监控,例如:通过自定义配置关键字,建立事件监控,对事件总体内容进行分析,展示事件的总数据量、关键词等分析内容;但是这种分析方法存在如下弊端:1、数据采集地区分布不均,通道不够完善;2、无法快速自定义新事件和事件的监控方式;3、无法近实时的对自定义事件预警监控。

技术实现思路

[0004]针对目前事件预警监测方法存在数据采集片面、无法快速自定义新事件和事件的监控方式、无法近实时的对自定义事件预警监控等缺陷和问题,本专利技术提供一种自定义事件预警监控方法。
[0005]本专利技术解决其技术问题所采用的方案是:一种自定义事件预警监控方法,包括以下步骤:步骤一、采集时间段内全球范围的文章,并对文章的话题进行分类;并根据事件监控配置内容,完善通道采集配置,优化采集内容。步骤二、数据预处理:(1)基于URL将文章信息数据中的重复数据滤除,同时基于简单关键词规则进行非话题内容和垃圾内容的过滤;(2)对文章信息数据进行文本分析,将其形成包括分词、关键词抽取、主体抽取、基本情感分析的标签;(3)基于Elasticsearch存储,进行分词管理;步骤三、配置事件监控信息,初始化事件相关信息,根据配置监控信息的字段,利用ES的倒排索引检索配置的关键字与排除关键字相关的文章,存入事件相关ES索引;采用分钟级监控每分钟监测各个事件相匹配的新数据,近实时监控事件最新数据,并对事件数据统计分析并展示;根据事件配置信息,检测数据采集规则是否对事件相关采集存在偏差,并自动完善通道采集配置,如果无法完善采集配置,告知管理员,事件监控可能在哪方面存在数据采集偏差,管理员根据情况完善采集。
[0006]步骤四、预警信息配置:配置所属事件、有效期、关键字、排除关键字、预警监测人员、预警周期、预警频次、预警等级、预警通知方式;缓存预警配置信息到Redis,供预警监控
系统使用;步骤五、识别预警信息的语言类型,根据语言类型采用相对应的分词方法对标题、内容分词;采用倒排索引方式对内容与预警配置信息匹配,匹配命中时,记录到redis缓存中,供程序监控有效时间内预警次数,同时监控预警册数是否达到配置,达到推送预警消息;步骤六、接收预警监控系统的预警信息,存入数据库,并根配置的据预警通知方式,及时发送预警信息给管理人员;然后根据预警信息进行总体分析,进行可视化展示。
[0007]上述的自定义事件预警监控方法,步骤一中全球范围的文章包括多通道主流新闻媒体、社交媒体、社交大V的文章及动态。
[0008]上述的自定义事件预警监控方法,针对传统媒体数据通过通用新闻采集器,配置媒体网站地址进行自动化采集抽取,然后对采集结果进行抽样检查,对采集结果较差的数据可配置特定规则进行干预;针对社交媒体通过定制的采集器,利用人工维护的账号池进行自动化采集。
[0009]上述的自定义事件预警监控方法,步骤一中采用流式文本处理single

pass单遍聚类方法对文章的话题进行分类,分类方法为:读入一条新文本,文本转化向量;判断向量与已存在簇的相似度,若大于阈值,则加入簇执行完毕;若小于阈值,则判断簇数量是否超过设置簇值,未超过簇值时,直接创建簇;否则删除已存在簇中最无用的,之后再新建簇。
[0010]上述的自定义事件预警监控方法,若文本较长可直接使用tfidf进行判别,或使用文本向量的cos值判别,或直接使用jaccad相似度判别。
[0011]上述的自定义事件预警监控方法,步骤三中配置的监控信息包括监测周期、通道、情感倾向、关键词、排除关键词。
[0012]上述的自定义事件预警监控方法,步骤三中分析展示的内容包括事件综述、事件画像、时序分析、走势分析、热点网民。
[0013]上述的自定义事件预警监控方法,步骤五中语言类型包括中文、英文,对于英文采用standard分词器进行分词,中文采用ik分词器进行分词。
[0014]上述的自定义事件预警监控方法,步骤六中可视化展示包括每日预警总次数、每日预警专题数、每日单个专题预警数、热门专题预警数。
[0015]本专利技术的有益效果:本专利技术使用自定义事件配置和预警配置,首先采集多通道、主流媒体、社交账号的数据;然后对数据进行预处理,借助Elasticsearch实现事件与数据近实时匹配,并将匹配数据推送kafka供预警监控系统预警监测;预警监控系统根据预警配置,通过倒排索引匹配预警文章量,达到触发条件,及时发送预警信息。该方法能够为业务提供更丰富、快速的监控形式,可快速配置最新事件、热点事件,并对事件进行分析、监控,把握事件高发期、干预效果,提高应用灵活性和快速性。
[0016]本专利技术方法可近实时的把握事件态势,及时监控事件异常情况,能够实现数据采集近实时(分钟级)、事件监控近实时(分钟级)、预警监控实时,整体做到近实时效果;通过事件分析和预警监控,实现事件的多方位把控,方便业务员决策判断。
附图说明
[0017]图1为本专利技术整体流程图。
具体实施方式
[0018]针对目前事件预警监测方法存在数据采集片面、无法快速自定义新事件和事件的监控方式、无法近实时的对自定义事件预警监控等缺陷和问题,本专利技术提供一种自定义事件预警监控方法。下面结合附图和实施例对本专利技术进一步说明。
[0019]实施例1:本实施例提供一种自定义事件预警监控方法,该方法针对自定义事件分析、预警监控。首先采集多通道、主流媒体、社交账号数据,然后对数据进行预处理,借助Elasticsearch实现事件与数据近实时匹配,并将匹配数据推送kafka,供预警监控系统预警监测,预警监控系统根据预警配置,通过倒排索引匹配预警文章量,达到触发条件,及时发送预警信息。如图1所示,该方法具体包括以下步骤。
[0020]步骤一、数据采集采集时间段内全球范围的文章,包括多通道主流新闻媒体、社交媒体、社交大V的文章及动态,然后采用流式文本处理single

pass单遍聚类方法对文章的话题进行分类;基本思想为:按一定顺序依次读取文章数据,每次读取的新数据都和已经读取并聚类的数据进行比较,若按照一定规则找到相应的近似组别,则将这个新数据归入这个类中;如果没有,则将这个新数据视为一个新类;反复执行,直到所有的数据都读完。
[0021]算法流程为:(1)读入一条新文本,文本转化向量;(2)判断向量与已存在簇的相似度;关于相似度的计算,若文本较长可直接使用tfidf进行判别;或者使用文本向量的cos值判别,或者直接使用jaccad相似度判别;如果大于阈值,则加入簇执行本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自定义事件预警监控方法,其特征在于:包括以下步骤:步骤一、采集时间段内全球范围的文章,并对文章的话题进行分类;并根据事件监控配置内容,完善通道采集配置,优化采集内容;步骤二、数据预处理:(1)基于URL将文章信息数据中的重复数据滤除,同时基于简单关键词规则进行非话题内容和垃圾内容的过滤;(2)对文章信息数据进行文本分析,将其形成包括分词、关键词抽取、主体抽取、基本情感分析的标签;(3)基于Elasticsearch存储,进行分词管理;步骤三、配置事件监控信息,初始化事件相关信息,根据配置监控信息的字段,利用ES的倒排索引检索配置的关键字与排除关键字相关的文章,存入事件相关ES索引;采用分钟级监控每分钟监测各个事件相匹配的新数据,近实时监控事件最新数据,并对事件数据统计分析并展示;根据事件配置信息,检测数据采集规则是否对事件相关采集存在偏差,并自动完善通道采集配置,如果无法完善采集配置,告知管理员,事件监控可能在哪方面存在数据采集偏差,管理员根据情况完善采集;步骤四、预警信息配置:配置所属事件、有效期、关键字、排除关键字、预警监测人员、预警周期、预警频次、预警等级、预警通知方式;缓存预警配置信息到Redis,供预警监控系统使用;步骤五、识别预警信息的语言类型,根据语言类型采用相对应的分词方法对标题、内容分词;采用倒排索引方式对内容与预警配置信息匹配,匹配命中时,记录到redis缓存中,供程序监控有效时间内预警次数,同时监控预警册数是否达到配置,达到推送预警消息;步骤六、接收预警监控系统的预警信息,存入数据库,并根配置的据预警通知方式,及时发送预警信息给管理人员;然后根据预警信息进行总体分析,进行可视化展示。2.根据权利要求1所述的自定义事件预警监控方法,其特征在于:步骤一中全球范围的...

【专利技术属性】
技术研发人员:陈中正王元卓程伯群赵俊霞胡玉龙雍胜凯程松庆李炎
申请(专利权)人:中科大数据研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1