System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多种分类算法集成学习的智能医疗欺诈监测方法技术_技高网
当前位置: 首页 > 专利查询>江南大学专利>正文

基于多种分类算法集成学习的智能医疗欺诈监测方法技术

技术编号:42500373 阅读:12 留言:0更新日期:2024-08-22 14:13
本发明专利技术属于人工智能算法应用‑欺诈识别领域,涉及一种基于多种分类算法集成学习的智能医疗欺诈监测方法。过程如下:首先,通过详尽的数据预处理和LASSO算法进行特征选择,优化特征空间,减少冗余信息,提高模型效率。接着,采用DPC‑SMOTE和NCACL算法对不平衡数据集进行处理,确保模型在各类别样本上都能获得良好性能。在模型构建方面,本发明专利技术集成了XGBoost、LightGBM、MLP和SVM等多种分类算法,通过Stacking框架将它们组合成强大的集成学习模型,以捕获数据中的多维度信息,实现精准的医疗欺诈识别。

【技术实现步骤摘要】

本专利技术属于人工智能算法应用-欺诈识别领域,具体涉及一种医疗保险欺诈识别监测模型,用于通过智能数据分析技术和机器学习算法,实现对医疗保险欺诈行为的有效识别与预防。


技术介绍

1、医疗保险欺诈是全球范围内面临的重大问题,它不仅损害了公共资源的合理分配,也严重威胁了医疗保险制度的公平性与可持续性。传统的医疗保险欺诈检测方法主要依靠人工审核,依据经验判断潜在的欺诈行为,这种方式效率低下,耗时长,且易受主观因素影响,难以适应日益增长的数据处理需求。

2、近年来,随着信息技术的发展,尤其是数据挖掘和机器学习技术的应用,为医疗保险欺诈检测提供了新的解决方案。通过利用大量的医疗保险数据,机器学习模型能够自动识别出异常模式和欺诈行为。然而,这些技术尽管在某些方面取得了进展,但依然存在几个关键性的技术挑战:

3、1.数据质量和完整性问题:医疗保险数据常常涉及多源异构数据集,数据的质量和完整性直接影响模型的准确性和可靠性。

4、2.数据不平衡:在医疗保险欺诈检测中,正常数据远多于欺诈数据,这种不平衡性使得训练出的模型偏向于多数类,导致欺诈检测的漏报率高。

5、3.动态变化的欺诈手段:随着防欺诈措施的不断升级,欺诈手段也在不断演变。现有的机器学习模型缺乏足够的适应性,难以应对新出现的欺诈策略。

6、4.模型解释性问题:医疗保险欺诈检测关系到法律和伦理问题,需要模型不仅能做出准确预测,还要能提供可解释的决策依据,以支持后续的审核和申诉处理。

7、因此,急需开发一种新型的医疗保险欺诈识别监测系统,该系统能够有效整合和分析复杂的保险数据,利用先进的算法自动检测和预警潜在的欺诈行为,同时具备高度的适应性和良好的解释性,以适应不断变化的欺诈手段和复杂的业务需求。


技术实现思路

1、本专利技术的技术方案如下:

2、本研究采用的数据集来自于“中国大学生服务外包创新创业大赛”中东软集团公开的医疗保险欺诈数据集,包含81维复杂特征,涵盖了患者信息、医疗机构信息、诊疗记录等多个方面。由于欺诈数据普遍存在不平衡问题,此数据集存在接近1:20的极不平衡数据,即正常样本远多于欺诈样本,这增加了欺诈行为识别的难度。根据该数据集,本专利技术提出基于多种分类算法集成学习的智能医疗欺诈监测方法。该方法包括基于lasso特征选择、基于dpc-smote和ncacl重采样平衡数据、基于多种分类算法构建stacking模型、基于shap进行可解释性,4个主要阶段如下所示:

3、第一阶段:基于lasso进行特征选择。该阶段主要包含数据预处理、基于lasso进行特征选择和2个步骤。其具体步骤如下:

4、在模型训练过程中,高质量的数据预处理是确保优秀训练结果的关键环节,这涵盖了缺失值的合理填充以及不必要信息的精准删除等关键步骤。在医保欺诈数据集中,经常存在缺失值的情况。这些缺失值可能是由于数据采集过程中的疏漏、设备故障或其他原因导致的。为了不影响后续的数据分析和模型训练。具体地,对于该数据集的缺失值,本专利技术统一将其填充为0。这种填充方式基于对数据集特性的深入理解和分析,旨在最大限度地保留数据的原始信息,同时避免引入额外的噪声或偏差。同时,医保欺诈数据通常包含大量的个人敏感信息,如身份证号码、联系电话、家庭住址等。这些信息的存在不仅增加了数据处理的复杂性,还可能引发隐私泄露的风险。因此,本专利技术在数据预处理过程中特别强调了敏感信息的删除。通过仔细阅读和分析数据,本专利技术能够识别并删除其中的敏感信息,如身份证号码等。这一步骤有助于保护用户隐私,同时降低数据处理的难度和复杂度。

5、在模型的训练过程中,当面临多维特征时,特征的质量和相关性对于预测性能具有显著影响。为了优化模型的性能,特征提取和选择至关重要。lasso回归作为一种有效的特征选择方法,因其良好的解释性和可解释性而备受青睐。本专利技术采用lasso回归技术,从经过脱敏处理的数据集中(排除身份证号信息),进一步筛选出了包括就诊月数、月就诊天数最大值(月就诊天数_max)和平均值(月就诊天数_avg)等在内的80个潜在特征。为了更加精确地选择特征并防范过拟合,本专利技术应用了lassocv算法,该算法结合了五重交叉验证的方法,能够自动调整模型复杂度,并通过消除系数为零的特征来识别出对模型贡献最大的特征集合。

6、该阶段的具体步骤如下:

7、第一步:数据预处理,通过合理的缺失值填充和敏感信息删除,确保数据质量。

8、第二步:使用lasso回归和lassocv算法,筛选出最具代表性的特征,优化模型性能并防范过拟合。

9、第三步:为后续通过shap算法计算特征对模型预测的贡献做铺垫,提供清晰的解释,增强模型的可解释性,为医保欺诈检测提供有力支持。

10、第二阶段,本阶段旨在通过数据重采样技术平衡数据集中的类别分布,以提高模型对少数类的识别能力。该阶段主要包含利用dpc-smote进行上采样、基于ncacl进行下采样2个步骤。其具体步骤如下:

11、dpc-smote(density-based clustering of minority class with smote)算法是一种针对数据不平衡问题而设计的过采样方法。该方法首先根据少数类样本的密度进行聚类,将具有相似特征的少数类样本聚集在一起。然后,在每个聚类内部利用smote(synthetic minority over-sampling technique)算法生成新的少数类样本。本专利技术采用了dpc-smote算法对医保欺诈检测等应用中的少数类样本进行上采样。通过该算法,本专利技术成功地将具有相似特征的少数类样本聚集在一起,并在每个聚类内部生成了足够数量的新样本。这种处理方法不仅保留了少数类样本的原始特征分布,还增加了少数类样本的多样性,使得数据集中的类别分布更加平衡。

12、结合ncl(领域清理规则)和基于kmeans聚类的下采样方法,以及随机下采样策略,形成的本专利技术的独特的下采样方法。ncl(领域清理规则)由jorma laurikkala首次提出,该方法通过遍历数据集中的各个数据,找出与其最邻近的三个数据,并根据这些数据的类别属性来决定是否删除当前数据。如果当前数据属于多数类且其三个最近邻中有两个以上是少数类数据,则删除该多数类数据;反之,如果当前数据属于少数类且其三个最近邻中有两个以上是多数类数据,则删除最近邻中的多数类数据。

13、具体算法步骤:假设存在一个t数据集,其中c是少量数据,o是o=t-c派生的多数类。ncl使用编辑最近邻(enn)规则通过删除o上的a1噪声数据来减少o中的数据。此外,enn会删除与多数类不同类别的其他数据(错误分类的数据)。然后在ncl方法中,通过从c上的数据中删除三个最近邻数据来进行数据清理,这些近邻被错误的分类并且仍然是o的一部分。删除的三个最近邻数据被称为集合a2。接着进行聚类下采样,通过使用kmeans聚类算法来对经过ncl算法处理后的多数本文档来自技高网...

【技术保护点】

1.基于多种分类算法集成学习的智能医疗欺诈监测方法,其特征在于,步骤如下:

2.如权利要求1所述的基于多种分类算法集成学习的智能医疗欺诈监测方法,其特征在于,所述的第三步中,具体操作如下:

3.如权利要求1或2所述的基于多种分类算法集成学习的智能医疗欺诈监测方法,其特征在于,所述的步骤2.2中,具体操作如下:

4.如权利要求1或2所述的基于多种分类算法集成学习的智能医疗欺诈监测方法,其特征在于,所述的步骤1.2中,具体操作如下:

5.如权利要求3所述的基于多种分类算法集成学习的智能医疗欺诈监测方法,其特征在于,所述的步骤1.2中,具体操作如下:

【技术特征摘要】

1.基于多种分类算法集成学习的智能医疗欺诈监测方法,其特征在于,步骤如下:

2.如权利要求1所述的基于多种分类算法集成学习的智能医疗欺诈监测方法,其特征在于,所述的第三步中,具体操作如下:

3.如权利要求1或2所述的基于多种分类算法集成学习的智能医疗欺诈监测方法,其特征在于,...

【专利技术属性】
技术研发人员:左云王欣恒万俊吴菲儿谭有旭管芸邓赵红
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1