【技术实现步骤摘要】
基于马尔科夫逻辑网络的数据关联方法、系统及设备
本专利技术属于数据挖掘领域,更具体地,涉及一种基于马尔科夫逻辑网络的数据关联方法、系统及设备。
技术介绍
近年来,公安案件持续高发,严重影响了居民的生活质量和社会治安秩序,由于警力资源有限,传统的人工破案方式已经无法满足当前的破案需求。因此,运用信息技术提高破案率成为一种迫切的需求。通过将一个待破案件中需要重点侦察的目标对象的数据与该待破案件关联在一起,能够有效提高该待破案件的破案效率。概率图模型是一种通用化的不确定性知识的表示和处理方法,可以用于辅助筛选出一个待破案件中需要重点侦察的目标对象。目前常用的概率图模型有马尔科夫网和贝叶斯网络模型。贝叶斯网络只能做有向推理,相比于贝叶斯网络,马尔科夫网更适合领域边缘概率和条件概率的推理,因此获得了更为广泛的应用。马尔科夫逻辑网是马尔科夫网的一种,能够通过规则将领域知识纳入到马尔科夫网模型中,通过最大似然估计学习出规则的权重。马尔科夫逻辑网的联合概率是网络中对应块的势函数相乘、除以所有可能的概率之和。采取简单的对数线性模型表达联合概率,有利于参数的学习,最后通过计算边缘概率实现领域知识推理。马尔科夫逻辑网虽然能够通过纳入领域规则到马尔科夫网中实现推理,但是领域规则的输入需要大量相关领域资深专家的联合参与。一方面,过度依赖人工获得领域规则会导致人力资源的浪费并且效率低下,另一方面,由于领域专家基于经验给出的领域规则可能会包括冗余甚至错误的规则,而且领域规则的全面性往往得不到保证,这会导致所获得结果的准确率不高。
技术实现思路
针对现有技术的缺陷和改进需求,本专利技术提供了 ...
【技术保护点】
1.一种基于马尔科夫逻辑网络的数据关联方法,其特征在于,包括:(1)对于待破案件,将其主类型作为目标类型,利用与所述待破案件对应的带权规则库构建基于马尔科夫逻辑网络的犯案概率获取模型,用于得到重点人员数据库中每一个重点人员犯所述待破案件的概率;所述带权规则库由一阶逻辑规则及对应的规则权重构成,且其中的每一条一阶逻辑规则均提取自主类型为目标类型的已破案件的案件数据;(2)利用待破案件的案件数据以及重点人员数据库中的数据提取出一阶谓词逻辑格式的谓词原子,从而得到谓词原子集合p2;(3)以所述谓词原子集合p2为输入,利用所述犯案概率获取模型得到重点人员数据库中每一个重点人员犯所述待破案件的概率,并筛选出犯所述待破案件的概率最高的前top‑K重点人员;将筛选出的重点人员作为目标对象,并从重点人员数据库中获取每一个目标对象的信息,从而实现目标对象与所述待破案件之间的数据关联;其中,所述主类型为案件所属的中类类别,所述谓词原子为赋值之后的谓词,top‑K为预设的具体人数或百分数。
【技术特征摘要】
1.一种基于马尔科夫逻辑网络的数据关联方法,其特征在于,包括:(1)对于待破案件,将其主类型作为目标类型,利用与所述待破案件对应的带权规则库构建基于马尔科夫逻辑网络的犯案概率获取模型,用于得到重点人员数据库中每一个重点人员犯所述待破案件的概率;所述带权规则库由一阶逻辑规则及对应的规则权重构成,且其中的每一条一阶逻辑规则均提取自主类型为目标类型的已破案件的案件数据;(2)利用待破案件的案件数据以及重点人员数据库中的数据提取出一阶谓词逻辑格式的谓词原子,从而得到谓词原子集合p2;(3)以所述谓词原子集合p2为输入,利用所述犯案概率获取模型得到重点人员数据库中每一个重点人员犯所述待破案件的概率,并筛选出犯所述待破案件的概率最高的前top-K重点人员;将筛选出的重点人员作为目标对象,并从重点人员数据库中获取每一个目标对象的信息,从而实现目标对象与所述待破案件之间的数据关联;其中,所述主类型为案件所属的中类类别,所述谓词原子为赋值之后的谓词,top-K为预设的具体人数或百分数。2.如权利要求1所述的基于马尔科夫逻辑网络的数据关联方法,其特征在于,所述步骤(1)中,与所述待破案件对应的带权规则库的获取方法包括如下步骤:(11)获得由主类型为目标类型且满足预设条件的案件类别构成的案件类别集合s,然后根据所述案件类别集合s从已破案件数据库中随机提取N个案件并构建其中每一个案件的本体模型视图,从而得到本体模型视图集合G;(12)根据所述本体模型视图集合G,基于关联规则学习得到一阶逻辑规则集合F;(13)根据所述本体模型视图集合G,提取出一阶谓词逻辑格式的谓词原子,从而得到谓词原子集合p1;(14)利用所述一阶逻辑规则集合F和所述谓词原子集合p1构建基于马尔科夫逻辑网络的规则权重学习模型并训练所述规则权重学习模型,从而得到所述一阶逻辑规则集合F中每一条规则的权重,并由此得到由所述一阶逻辑规则集合F中的一阶逻辑规则及对应的规则权重构成的带权规则库;其中,N为正整数。3.如权利要求2所述的基于马尔科夫逻辑网络的数据关联方法,其特征在于,所述步骤(11)中,对于所述N个案件中的任意一个案件,其本体模型视图的构建方法包括:(111)对于每一个犯案个体,根据案件数据中对该犯案个体的文化程度的描述,对该犯案个体的文化程度进行分类;(112)对于每一个犯案个体,根据案件数据中对该犯案个体的职业的描述,对该犯案个体的职业进行分类;若分类结果不属于主类型为目标类型的案件的常见职业类别,则该犯案个体的数据不参与构建案件的本体模型视图;(113)按照城市行政区划分类,根据案件数据中对于案发地点的描述得到该案件所属的行政区划;(114)根据案件数据中对于案发地点和犯案个体现住址的描述,分别计算该案件的每一个犯案个体的犯案距离,并将计算结果与预设的临近阈值进行比较,将大于所述临近阈值的犯案距离标记为远,将小于或等于所述临近阈值的犯案距离标记为近;其中,所述犯案距离为案发地点到犯案个体现住址或重点人员现住址的距离。4.如权利要求3所述的基于马尔科夫逻辑网络的数据关联方法,其特征在于,所述步骤(114)中,所述犯案距离的计算方法包括:分别将案件数据中对于案发地点和犯案个体现住址的描述转换为点坐标(lngA,latA)和(lngB,latB);按照如下公式计算犯案距离LAB:其中,R为地球半径,lngA和latA分别为案发地点的经度和纬度,lngB和latB分别为犯案个体现住址的经度和纬度。5.如权利要求2或3所述的基于马尔科夫逻辑网络的数据关联方法,其特征在于,所述步骤(12)包括:(121)从所述本体模型视图集合G中,提取每一个犯案个体的概念向量,由此得到概念向量集合T;所述概念向量包括对应的犯案个体的文化程度类别、职业类别、犯案距离以及所犯案件的案件类别和行政区划;(122)以所述概念向量集合T为输入,利用关联规则挖掘算法得到频繁项集F';(123)将所述频繁项集F'中的每一个频繁项都转换为一阶逻辑规则,从而得到一阶逻辑规则集合F;或者,计算所述频繁项集F'中每一个频繁项的影响度,并过滤掉所述频繁项集F'中影响度小于预设的影响度阈值的频繁项,从而得到强规则集合F”,然后将所述强规则集合F”中的每一条规则都转换为一阶逻辑规则,从而得到一阶逻辑规则集合F;所述频繁项集F'中的任意一个频繁项其影响度的计算公式如下:若P(Y)<1且P(Y|X)>P(Y),则若P(Y)<1且P(Y|...
【专利技术属性】
技术研发人员:周可,孙锡林,乔宏永,郑胜,
申请(专利权)人:华中科技大学,武汉数为科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。