一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法制造技术

技术编号：35185756 阅读：20 留言：0更新日期：2022-10-12 17:56

本发明专利技术涉及聚集行为识别技术领域，尤其为一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法，包括计算图模型边的支持度计量值、构建图模型和获取全连通子图，本发明专利技术通过构造完全连通无向子图，可以同时从时间和空间两个维度找到内部满足两两个体之间互为关联的最大范围聚集性行为目标群体，适合解决超大数据量的此类聚集性关联挖掘；且此种运算方式下，配合合适的数据储存结构能够将算法保持在O(n)的效率，运行速度快；同时可以灵活识别不同关联规则而获取不同程度的聚集性结果，即算法可以解决较大数据量的聚集行为分析，运行速度快、可灵活调整聚集性特征获取不同的关联目标、适应面广。适应面广。适应面广。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法

[0001]本专利技术涉及聚集行为识别
，具体为一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法。

技术介绍

[0002]现有的聚集行为识别方法，主要依赖于目前已有的关联算法，且仅能从空间维度获取到共同聚集行为目标群体，具有一定的局限性：
[0003]1、对于每个空间点的数据集合，给出频繁项集(即，聚集行为)的支持度阈值α，基于Apriori算法对频繁K项集做遍历迭代，计算不同大小K项集的支持度，最终找到大于α的最大频繁K项集，此方法仅能对同一空间的目标个体做聚集行为识别，无法同时支持时间上的复杂度，也无法得到两两个体之间互为关联的最大范围群体，只能获取其子集即共同聚集行为最大范围群体，且算法在空间聚集性分析的迭代过程中，每次都需要遍历整个数据集合来计算支持度，因此当数据集很大，数据种类很多的时候，算法的效率很低。
[0004]2、在Apriori算法的基础上，构建FP
‑
Tree来进行频繁项集挖掘，将代表频繁项集的数据集压缩存储在频繁模式树中，每条事务数据中的项之间的关系被保留在频繁模式树中，然后，将频繁模式树按照条件模式基拆分成一组条件FP树，并分别挖掘这些条件FP树中的频繁K项集，此方法只需要对数据集进行两次扫描：第一次对所有元素项的出现次数进行计数，统计出现的频率；第二次扫描仅考虑那些频繁元素。它的效率相比于Apriori算法的多次遍历有很大的提高，但同样的，此方法输出树结构的空间复杂度不允许...

【技术保护点】

【技术特征摘要】
1.一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法，包括计算图模型边的支持度计量值、构建图模型和获取全连通子图，其具体步骤如下：步骤1，计算图模型边的支持度计量值：将所有的数据根据目标个体和发生行为记录数据，按照空间和时间维度做升序排列，即按照同时同地出现1次则作为1次支持度计量的标准，依次累加，遍历所有个体及发生行为记录，获取两两个体之间的支持度计量值；步骤2，构建图模型：以个体为点、记录为边，时空个体之间支持度计量值为边权重值，刻画为拓扑学中的连通图模型，获取每个目标个体的连通图结构；步骤3，获取全连通子图：当图模型构造完毕之后，已有技术中将挖掘聚集行为的问题转化为挖掘关联规则中的频繁k项集，现我们将其转化为寻找关联图中的完全连通无向子图，通过判断每个连通图结构中的点和边的连通关系，获取两两个体之间互为关联的最大范围聚集性群体。2.根据权利要求1所述的一种基于完全连通无向子图的医保防欺诈无监督时空聚集行为识别算法，其特征在于：所述步骤1中按照空间和时间维度做升序排列的具体步骤为：Step1：遍历计算每个个体行为记录时间的前后χmin内在同一空间点也有行为记录的其他所有个体，并将其作为一个群组；Step2：根据以上获取的群组计算两两个体之间的支持度计...

【专利技术属性】
技术研发人员：姚健，顾剑峰，王瑞雪，翟焕雯，苏晗宁，任嘉莉，李亚光，
申请(专利权)人：联通上海产业互联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人