本发明专利技术涉及基于数据挖掘的犯罪特征分析技术领域,涉及犯罪特征分析中的恐怖袭击事件、恐怖组织特征挖掘分析,特别是涉及一种基于恐怖袭击事件特征挖掘的判定恐怖袭击组织方法。该方法包括如下步骤:1)根据已知恐怖袭击事件的属性训练贝叶斯分类器;2)计算未知恐怖袭击事件的相似度;3)选取相似度最大的2个恐怖袭击事件,并假设为同一恐怖组织发起;4)将步骤3)选出的2个恐怖袭击事件一起放入步骤1)训练好的贝叶斯分类器中,让贝叶斯分类器同时对这2个事件做出分类。本发明专利技术不仅利用到了恐怖袭击本身所具有的特征属性,并且也利用到了恐怖袭击之间的内在关系,这使针对恐怖袭击事件分析的正确率有所提高。
【技术实现步骤摘要】
本专利技术涉及基于数据挖掘的犯罪特征分析
,涉及犯罪特征分析中的 恐怖袭击事件、恐怖组织特征挖掘分析,特别是涉及一种基于恐怖袭击事件特 征挖掘的判定恐怖袭击组织方法。
技术介绍
自911事件以来,各个国家的安全部门十分重视恐怖组织与恐怖袭击事件 数据的搜集和相关数据库的建设,同时基于相关数据库在数据挖掘方面进行了 一系列的研究。恐怖袭击事件数据的分析以及挖掘是从显性的数据入手,寻找 出某些隐性的有用信息。从恐怖袭击事件数据中可能隐藏的特征、行为或者其 他的因素来提炼出相关的模式,以此来提供线索、协助办案,同时,尽可能地 把提取的特征模式用于监控之中,实现预警。数据挖掘(Data Mining)旨在从大量的、不完全的、有噪声的、模糊的、 随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息 和知识。还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数 据分析、数据融合(DataFusion)以及决策支持等。于这些概念相提并论,是因 为数据挖掘瞄准的对象是阐述个体间联系的相关性知识、而非描述个体属性、 支零破碎的数据。贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算 出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为 该对象所属的类。应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和CPT 学习;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分 类数据进行分类。传统的朴素贝叶斯分类器在处理多数据分类时,需要逐条进行单数据分类, 不能在分类之前对相似事件进行具体定性的分析,也不能对事件之间的关系进 行分析。
技术实现思路
为了解决以上问题,本专利技术提供了一种成对分类的贝叶斯分类器,不仅利用r恐怖袭击本身所具有的特征属性,并且也利用了恐怖袭击之间的内在关系的 。一种,包括如下步骤 1)根据已知恐怖袭击事件的属性训练贝叶斯分类器;2)计算未知恐怖袭击事 件的相似度;3)选取相似度最大的2个恐怖袭击事件,并假设为同一恐怖组织 发起;4)将步骤3)选出的2个恐怖袭击事件一起放入步骤1)训练好的贝叶 斯分类器中,让贝叶斯分类器同时对这2个事件做出分类。进一步的,所述步骤l)中的训练过程为通过已知的训练数据,先获得每 个恐怖组织的先验概率P(gi):餘f其中P(gi)表示某个被标记为gi的恐怖组织发起恐怖袭击的先验概率,其中 Ngi为gi恐怖组织发起恐怖袭击的个数,Nc表示训练样本中恐怖袭击的总个数。 针对每个恐怖组织gi,计算一个关于5个属性的后验概率?(乂1,...,&|¥=§1),表示 5个属性在恐怖组织gi所发起的所有恐怖袭击中的分布,X,,…,X5对应上文中5个属性量化后的取值。进一步的,所述属性为恐怖袭击日期、恐怖袭击类型、恐怖袭击地点、 恐怖组织意识形态、恐怖袭击目标。进一步的,所述步骤2)计算恐怖袭击事件之间的相似度采取以下公式其中,S(i,j)是两个恐怖袭击事件(记为i,j)之间的相似度; m是恐怖袭击事件总属性个数,令111=5; Xib为恐怖袭击事件i的第k个属性,1^1,...,5;A(I,&)为恐怖袭击事件i,j在第k个属性上的量化关系,其定义为:Wk为第k个属性量化后的权重系数,令w^l/m。进一步的,所述步骤3)选取相似度最大的2个恐怖袭击事件的方式为每次选取2个不同的恐怖袭击事件,分别记为i,j,根据以下公式选取进一歩的,所述步骤4)按照如下公式进行分类^ = y = argmax(五(X = =v))其中,Yi和Yj分别为对恐怖袭击事件i,j的预测值。Yi和Yj的值相同,它们的值 所代表的是一个恐怖组织,即恐怖袭击事件i,j是由该恐怖组织(Yj)发起的; V为枚举变量,代表恐怖组织;= Z wA(J&,兀i)E(Y「v)表示贝叶斯分类器给出的Yi=v的可能性,既第i个恐怖袭击事件是由恐怖组织V发起的可能性。更进一步的,所述E(Y「v)的计算公式为五o:二力^户(i;3^viz,:^zv…,x",二、) 其中,关于p(…)的定义来自朴素贝叶斯分类器,表示一个后验概率,即恐怖袭击事件i由恐怖组织v发起的概率。更进一步的,所述Yi和Yj的值相同的情况下,如果一个恐怖袭击由多个恐 怖组织发起,判定恐怖袭击组织方法给出的是一个最主要的恐怖组织。本专利技术对恐怖袭击事件属性进行分析,将恐怖袭击的行为特征会展示出来, 分析挖掘的关键在于不仅利用到了恐怖袭击本身所具有的特征属性,并且也利 用到了恐怖袭击之间的内在关系,这使针对恐怖袭击事件分析的正确率有所提 咼。具体实施例方式首先通过对训练数据 (已知恐怖组织的恐怖袭击事件)的特征提取来训练一个朴素贝叶斯分类器。 然后根据恐怖袭击事件之间的相似度,每次从需要分类的恐怖袭击事件(测试 数据)中选出相似度最大的两个恐怖袭击事件一起通过贝叶斯分类器获得推测 结果,即这两个恐怖袭击事件的幕后恐怖组织。本方法的具体过程及实施例如下1)对用于训练朴素贝叶斯分类器的恐怖袭击事件的5个属性恐怖袭击日 期、恐怖袭击类型、恐怖袭击地点、恐怖组织意识形态、恐怖袭击目标,进行 量化处理,即将文字信息转为数字信息,其量化方式可任意选取,量化方式的8不同不会影响最终结果的产生。例如,若总共存在10个地区,可将地区A量化为1,地区B量化为2,以次类推。2)用步骤(l)中获得的训练数据训练朴素贝叶斯分类器,获得一个可对恐怖袭击事件做出判定的预测分类器。具体训练方法为通过已知的训练数据,先获得每个恐怖组织的先验概率P(gi):其中P(gi)表示某个被标记为gi的恐怖组织发起恐怖袭击的先验概率,Ngi为gi恐怖组织发起恐怖袭击的个数,NG表示训练样本中恐怖袭击的总个数;针对每个恐怖组织gi,计算一个关于5个属性的后验概率P(Xl,…,X5IY:gi),表示5个属性在恐怖组织gi所发起的所有恐怖袭击中的分布,X1,…,X5对应上文中5个属性量化后的取值。3)将未知恐怖组织的恐怖袭击事件集合(记为T)中的每个恐怖袭击事件的5个属性进行量化后(其量化方法必须与步骤(l)中的量化方法完全一致),釆取以下公式计算所有恐怖袭击事件两两之间的相似度其中,s(i,j)是两个恐怖袭击事件(记为i,j)之间的相似度;m是恐怖袭击事件总属性个数,令加=5;&,为第i个事件的第k个属性,J^1,…,5;仇(I,D为事件i,j在第k个属性上的量化关系,其定义为:Wk为第k个属性量化后的权重系数,令<formula>formula see original document page 10</formula>4) 利用步骤(3)的计算结果,每次从T中选出2个不同的恐怖袭击事件,分别记为i,j,选取方式为<formula>formula see original document page 10</formula>5) 将步骤(4)选出的2个恐怖袭击事件一起放入训练好的贝叶斯分类器中,让贝叶斯分类器同时对这2个事件做出分类判断,按照如下公式进行分类<formula>fo本文档来自技高网...
【技术保护点】
一种基于恐怖袭击事件特征挖掘的判定恐怖袭击组织方法,其特征在于:包括如下步骤:1)根据已知恐怖袭击事件的属性训练贝叶斯分类器;2)计算未知恐怖袭击事件的相似度;3)选取相似度最大的2个恐怖袭击事件,并假设为同一恐怖组织发起;4)将步骤3)选出的2个恐怖袭击事件一起放入步骤1)训练好的贝叶斯分类器中,让贝叶斯分类器同时对这2个事件做出分类。
【技术特征摘要】
【专利技术属性】
技术研发人员:吴朝晖,夏超伦,姜晓红,吴敏萍,罗兆波,盛浩,刘森,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86[中国|杭州]