一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法制造技术

技术编号:35185756 阅读:20 留言:0更新日期:2022-10-12 17:56
本发明专利技术涉及聚集行为识别技术领域,尤其为一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法,包括计算图模型边的支持度计量值、构建图模型和获取全连通子图,本发明专利技术通过构造完全连通无向子图,可以同时从时间和空间两个维度找到内部满足两两个体之间互为关联的最大范围聚集性行为目标群体,适合解决超大数据量的此类聚集性关联挖掘;且此种运算方式下,配合合适的数据储存结构能够将算法保持在O(n)的效率,运行速度快;同时可以灵活识别不同关联规则而获取不同程度的聚集性结果,即算法可以解决较大数据量的聚集行为分析,运行速度快、可灵活调整聚集性特征获取不同的关联目标、适应面广。适应面广。适应面广。

【技术实现步骤摘要】
一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法


[0001]本专利技术涉及聚集行为识别
,具体为一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法。

技术介绍

[0002]现有的聚集行为识别方法,主要依赖于目前已有的关联算法,且仅能从空间维度获取到共同聚集行为目标群体,具有一定的局限性:
[0003]1、对于每个空间点的数据集合,给出频繁项集(即,聚集行为)的支持度阈值α,基于Apriori算法对频繁K项集做遍历迭代,计算不同大小K项集的支持度,最终找到大于α的最大频繁K项集,此方法仅能对同一空间的目标个体做聚集行为识别,无法同时支持时间上的复杂度,也无法得到两两个体之间互为关联的最大范围群体,只能获取其子集即共同聚集行为最大范围群体,且算法在空间聚集性分析的迭代过程中,每次都需要遍历整个数据集合来计算支持度,因此当数据集很大,数据种类很多的时候,算法的效率很低。
[0004]2、在Apriori算法的基础上,构建FP

Tree来进行频繁项集挖掘,将代表频繁项集的数据集压缩存储在频繁模式树中,每条事务数据中的项之间的关系被保留在频繁模式树中,然后,将频繁模式树按照条件模式基拆分成一组条件FP树,并分别挖掘这些条件FP树中的频繁K项集,此方法只需要对数据集进行两次扫描:第一次对所有元素项的出现次数进行计数,统计出现的频率;第二次扫描仅考虑那些频繁元素。它的效率相比于Apriori算法的多次遍历有很大的提高,但同样的,此方法输出树结构的空间复杂度不允许,无法同时支持时间上的复杂度。
[0005]综上所述,本专利技术通过设计一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法来解决存在的问题。

技术实现思路

[0006]本专利技术的目的在于提供一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:
[0008]一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法,包括计算图模型边的支持度计量值、构建图模型和获取全连通子图,其具体步骤如下:
[0009]步骤1,计算图模型边的支持度计量值:将所有的数据根据目标个体和发生行为记录数据,按照空间和时间维度做升序排列,即按照同时同地出现1次则作为1次支持度计量的标准,依次累加,遍历所有个体及发生行为记录,获取两两个体之间的支持度计量值;
[0010]步骤2,构建图模型:以个体为点、记录为边,时空个体之间支持度计量值为边权重值,刻画为拓扑学中的连通图模型,获取每个目标个体的连通图结构;
[0011]步骤3,获取全连通子图:当图模型构造完毕之后,已有技术中将挖掘聚集行为的
问题转化为挖掘关联规则中的频繁k项集,现我们将其转化为寻找关联图中的完全连通无向子图,通过判断每个连通图结构中的点和边的连通关系,获取两两个体之间互为关联的最大范围聚集性群体。
[0012]作为本专利技术优选的方案,所述步骤1中按照空间和时间维度做升序排列的具体步骤为:
[0013]Step1:遍历计算每个个体行为记录时间的前后χmin内在同一空间点也有行为记录的其他所有个体,并将其作为一个群组;
[0014]Step2:根据以上获取的群组计算两两个体之间的支持度计量值,即在χmin内在同一空间点出现的次数,得到个体点对;
[0015]Step3:剪枝,将支持度计量值低于设定同时(χmin内)出现阈值次数的个体点对做剪枝删除,留下满足阈值的个体点对。
[0016]作为本专利技术优选的方案,所述步骤3中寻找完全连通子图的具体步骤如下:
[0017]Step1:遍历每个顶点,获得其所有的边,和邻接点;
[0018]Step2:遍历每个邻接点,看是否和现在的子图全连通,如果全连通,将该邻接点加入现在的子图;
[0019]Step3:当step2和step3完成后将所得到的所有完全子图去重;
[0020]Step4:将去重后的完全子图输出;
[0021]最后输出的每个完全子图就是一组可能聚集结果组,在实际使用中,为了避免随机性导致影响结果,我们一般限制搜索边的权值应大于等于3。
[0022]作为本专利技术优选的方案,所述步骤2中构建图模型具体为以医保防欺诈领域的聚集性行为为例,医保卡号为个体,边为医保结算流水中同时购药行为数据为记录,则医保卡M1、M2、M3为一个完全连通子图,医保卡E是孤立顶点;
[0023]其中连通图的绘制过程如下:将某次遍历历史记录到医保卡M1即为遍历的时候将边的权值增加的过程。
[0024]与现有技术相比,本专利技术的有益效果是:
[0025]1、本专利技术中,通过构造完全连通无向子图,可以同时从时间和空间两个维度找到内部满足两两个体之间互为关联的最大范围聚集性行为目标群体,适合解决超大数据量的此类聚集性关联挖掘;且此种运算方式下,配合合适的数据储存结构能够将算法保持在O(n)的效率,运行速度快;同时可以灵活识别不同关联规则而获取不同程度的聚集性结果,即算法可以解决较大数据量的聚集行为分析,运行速度快、可灵活调整聚集性特征获取不同的关联目标、适应面广,有效的解决了仅从空间维度识别聚集性群体以及仅能获取高度共同聚集性结果群体的问题。
附图说明
[0026]图1为本专利技术构建图模型结构示意图;
[0027]图2为本专利技术某次遍历历史记录到医保卡M1结构示意图;
[0028]图3为本专利技术遍历的时候将边的权值增加过程1结构示意图;
[0029]图4为本专利技术结遍历的时候将边的权值增加过程2结构示意图。
具体实施方式
[0030]下面将结合本专利技术实施例,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0031]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述,给出了本专利技术的若干实施例,但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。
[0032]需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件,本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0033]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同,本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术,本文所使用的术语“及/或”包括一个或多个相关的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法,包括计算图模型边的支持度计量值、构建图模型和获取全连通子图,其具体步骤如下:步骤1,计算图模型边的支持度计量值:将所有的数据根据目标个体和发生行为记录数据,按照空间和时间维度做升序排列,即按照同时同地出现1次则作为1次支持度计量的标准,依次累加,遍历所有个体及发生行为记录,获取两两个体之间的支持度计量值;步骤2,构建图模型:以个体为点、记录为边,时空个体之间支持度计量值为边权重值,刻画为拓扑学中的连通图模型,获取每个目标个体的连通图结构;步骤3,获取全连通子图:当图模型构造完毕之后,已有技术中将挖掘聚集行为的问题转化为挖掘关联规则中的频繁k项集,现我们将其转化为寻找关联图中的完全连通无向子图,通过判断每个连通图结构中的点和边的连通关系,获取两两个体之间互为关联的最大范围聚集性群体。2.根据权利要求1所述的一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法,其特征在于:所述步骤1中按照空间和时间维度做升序排列的具体步骤为:Step1:遍历计算每个个体行为记录时间的前后χmin内在同一空间点也有行为记录的其他所有个体,并将其作为一个群组;Step2:根据以上获取的群组计算两两个体之间的支持度计...

【专利技术属性】
技术研发人员:姚健顾剑峰王瑞雪翟焕雯苏晗宁任嘉莉李亚光
申请(专利权)人:联通上海产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1