System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种对流式增量数据场景下的突发事件监测方法,涉及数据挖掘领域、nlp领域和事件突发监测技术,同时涉及聚类算法和分级评估方法。
技术介绍
1、市政热线作为城市管理和公共服务的重要渠道,在日常运行中面临着各种突发事件的处理挑战。传统的突发事件应对方法通常依赖于人工处理,存在响应速度慢、效率低下的问题。当前的实时监测系统虽然能够捕获大量数据,但在突发事件识别和响应方面仍有待提高。尤其是在突发事件频发或规模较大时,人工处理往往无法及时、全面地识别和响应,容易导致信息滞后或遗漏。
技术实现思路
1、本专利技术的目的是:提供一种在实时监测分级热线系统中,能够快速、准确识别各类突发事件的方法。
2、为了达到上述目的,本专利技术的技术方案是提供了一种实时监测分级热线中突发事件的识别方法,其特征在于,包括以下步骤:
3、步骤1、收集真实诉求记录形成原始数据集;
4、步骤2、对原始数据集中的真实诉求记录进行分词处理后生成词库;
5、步骤3、采用tf-idf算法,基于tf-idf值对生成的词库进行排序,取tf-idf值较高的词作为关键词;
6、步骤4、基于关键词,采用增量式kleinberg模型实时识别突发词;
7、步骤5、通过主题模型捕获突发词的隐层主题语义相似度信息,将隶属于同一个主题的突发词进行聚类,指明包含这些突发词的真实诉求记录与突发主题事件聚类结果间的关系,从而实现突发主题事件tek识别;
8、
9、步骤7、将对候选突发事件集合sec中的所有候选突发事件划分为不同的类别后进行分级,并采用模糊综合评估法获得系统总得分。
10、优选地,步骤2中,所述分词处理包括以下步骤:
11、步骤201、对原始数据集中的真实诉求记录进行分词;
12、步骤202、去除与主体无关的信息以及无实体意义的词;
13、步骤203、进行分词和词性标注,选取动词及之后遇到的名词,抽取词性为地址名词的词作为原始记录的地理信息,并对地址进行规范化处理;
14、步骤204、去除词数少于3的真实诉求记录。
15、优选地,步骤3中,所述tf-idf值采用下式计算得到:
16、tf-idf=tfij×idfj
17、其中:tfi,j表示词条ti在文档dj中出现的频率,采用下式计算:
18、
19、ni,j表示词条ti在文档dj中出现的次数,k是文档dj中的所有字词数量;
20、idf表示逆向文件频率,是由总文本数目除以包含该词语的文本的数目,再对得到的商取对数,采用下式计算:
21、
22、|d|表示所有文档的数量,j表示包含目标词语文本的数目,|j:ti∈dj|表示包含词条ti的文档数量。
23、优选地,步骤4中,在增量式kleinberg模型中,状态变量st表示单词w在第t时刻的突发程度:若st=1,则单词w处于突发状态,即为突发词;若st=0,则单词w处于非突发状态;观测变量xt表示单词w在时刻t时与上次该单词出现时刻t-1之间的时间间隔;
24、设单词w以一定概率随机出现,则单词w前后两次出现的时间间隔x服从的概率分布记为:
25、
26、其中:b(xt+1,st+1)表示输出观测值xt+1的概率;
27、表示t+1时刻单词w在突发状态st+1的条件下的产生速率,记为:
28、
29、其中,nw表示给定时间窗口<wins,wine>内单词w出现的总次数,t表示时间窗口<wins,wine>的跨度,g表示产生速率的加速度;
30、第t+1时刻单词w状态的计算公式为:
31、st+1=argmina(st,xt+1,st+1),st+1={0,1}
32、求得使代价函数a最小化的st+1值,即为单词w在t+1时刻的状态,若st+1=1使得a最小,则该单词在t+1时刻即为突发词。
33、优选地,所述步骤5进一步包括以下步骤:
34、步骤501、设在时间窗口<wins,wine>内存在n个突发词,将所有包含突发词wi(1≤i≤n)的诉求记录聚合为一个长文档,记为
35、步骤502、对所有突发词执行与步骤501相同的操作,得到长文档集合
36、步骤503、运用主题模型在长文档集合c上训练得到“文档-主题”分布θ与“主题-词”分布其中,对于诉求记录r,根据gibbs采样公式计算该诉求记录r中的主题分布
37、
38、其中,k表示长文档集合c中所有的主题数量,w表示诉求记录r中的所有词汇向量,表示诉求记录r中的第ki个主题,符号表示非(否定),表示与相对的,即非诉求记录r中的第ki个主题;
39、步骤504、选择诉求记录r中出现概率最高的主题kmax作为该诉求记录的隶属主题,并将隶属于相同主题k的记录识别为突发主题事件tek。
40、优选地,步骤7中,所述模糊综合评估法通过以下步骤获得系统总得分:
41、步骤701、建立综合评价因素,获得由n个因素组成的因素集u={u1,u2,…,un},其中,元素ui代表影响评价目标的第i个因素;
42、步骤702、建立综合评价的评价集,获得由m个评语组成的评价集v={v1,v2,…,vm},其中,元素vj代表第j种评价结果;
43、步骤703、进行单因素模糊评价,获得评价矩阵
44、设因素集u中第i个因素对评价集v中第1个元素的隶属度为ri1,则对第i个元素单因素评价的结果用模糊集合表示为:ri=(ri1,ri2,…,rin),以m个单因素评价集r1,r2,…,rm为行组成模糊综合评价矩阵rm*n;
45、步骤704、确定因素权向量
46、给因素集u中的各因素ui一个权重ai,获得各因素ui的权重集合的因素权向量a={a1,a2,…,am};
47、步骤705、建立综合评价模型
48、确定模糊综合评价矩阵rm*n和因素权向量a之后,通过模糊变化将因素集u上的因素权向量a变为评价集v上的模糊向量b,即其中,为综合评价合成算子;
49、步骤706、确定系统总得分
50、综合评价模型确定后,确定系统得分,即大小为1*n,f为系统总得分,s为v中相应因素的级分。
51、本专利技术提出了一种创新的实时监测分级热线中突发事件的识别方法。该方法通过将先进的突发事件识别算法应用于市政热线系统中,实现了对突发事件的自动识本文档来自技高网...
【技术保护点】
1.一种实时监测分级热线中突发事件的识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种实时监测分级热线中突发事件的识别方法,其特征在于,步骤2中,所述分词处理包括以下步骤:
3.如权利要求1所述的一种实时监测分级热线中突发事件的识别方法,其特征在于,步骤3中,所述TF-IDF值采用下式计算得到:
4.如权利要求1所述的一种实时监测分级热线中突发事件的识别方法,其特征在于,步骤4中,在增量式Kleinberg模型中,状态变量st表示单词w在第t时刻的突发程度:若st=1,则单词w处于突发状态,即为突发词;若st=0,则单词w处于非突发状态;观测变量xt表示单词w在时刻t时与上次该单词出现时刻t-1之间的时间间隔;
5.如权利要求1所述的一种实时监测分级热线中突发事件的识别方法,其特征在于,所述步骤5进一步包括以下步骤:
6.如权利要求1所述的一种实时监测分级热线中突发事件的识别方法,其特征在于,步骤7中,所述模糊综合评估法通过以下步骤获得系统总得分:
【技术特征摘要】
1.一种实时监测分级热线中突发事件的识别方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种实时监测分级热线中突发事件的识别方法,其特征在于,步骤2中,所述分词处理包括以下步骤:
3.如权利要求1所述的一种实时监测分级热线中突发事件的识别方法,其特征在于,步骤3中,所述tf-idf值采用下式计算得到:
4.如权利要求1所述的一种实时监测分级热线中突发事件的识别方法,其特征在于,步骤4中,在增量式kleinberg模型中,...
【专利技术属性】
技术研发人员:姜鑫,巢雅杰,奚望,
申请(专利权)人:中电科数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。