本发明专利技术公开了一种基于层次聚类的可疑纳税人检测方法,包括以下步骤:1)利用层次聚类算法根据纳税人之间的利益关系进行聚类,根据纳税人之间的关联关系程度将其分割成簇,每个簇形成利益关联社团;2)通过分析标注的纳税人样本数据,根据度分布、聚集系数等复杂网络指标提炼正常与异常纳税人的差异特征;3)计算识别出的利益关联社团和正常与异常纳税人特征计算相似度,进而检测可疑的纳税人。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了,包括以下步骤:1)利用层次聚类算法根据纳税人之间的利益关系进行聚类,根据纳税人之间的关联关系程度将其分割成簇,每个簇形成利益关联社团;2)通过分析标注的纳税人样本数据,根据度分布、聚集系数等复杂网络指标提炼正常与异常纳税人的差异特征;3)计算识别出的利益关联社团和正常与异常纳税人特征计算相似度,进而检测可疑的纳税人。【专利说明】
本专利技术属于计算机科学与技术中的数据挖掘子领域,涉及一种可疑纳税人的检测 方法,具体涉及。
技术介绍
在真实环境的税务系统中,不同地区的税务系统之间的信息不对称,信息封闭没 有统一,难以真实统计各个地区的税务数据,大量税务数据缺乏分析利用,大量偷逃骗税行 为难以发现,导致税收流失率和流失税金居高不小。对税收数据进行分析,通过纳税人之间 的利益关联抽取利益关联社团并最终发现和打击偷漏税行为就显得十分重要,并且成为税 务分析系统的重点和难点,但现有的技术都不能有效的判断出利益关联社团中的是否存在 可疑纳税人,因此迫使发现及打击偷税漏税的行为变得相当的严峻。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺点,提供了一种基于层次聚类的可疑纳 税人检测方法,该方法可以有效的发现利益关联社团中是否存在可疑纳税人。 为达到上述目的,本专利技术所述的基于层次聚类的可疑纳税人检测方法包括以下步 骤: 1)获取纳税人利益网络,并从纳税人利益网络中提取出各节点对应的纳税人以及 任意两个纳税人之间的利益关联程度,再采用层次聚类算法对纳税人以及任意两个纳税人 之间的利益关联程度进行层次聚类,形成二叉树,然后根据纳税人和任意两个纳税人之间 的利益关联程度对所述二叉树进行分割,得若干簇,其中,每次层次聚类得到的簇均记作利 益关联社团; 2)从步骤1)中得到的利益关联社团中选取正常纳税人利益社团和异常纳税人利 益社团,然后提取正常纳税人利益社团的特征信息及异常纳税人利益社团的特征信息,然 后构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库; 3)预处理的利益关联社团包括若干纳税人利益社团,分别获取各预处理的纳税人 利益社团的特征信息,然后将各预处理的纳税人利益社团的特征信息分别与正常纳税人利 益社团的特征库及异常纳税人利益社团的特征库进行相似度计算,分别计算出各预处理的 纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,当预 处理的纳税人利益社团属于异常纳税人利益社团的概率大于或等于异常预设阈值时或者 当该预处理的纳税人利益社团属于正常纳税人利益社团的概率小于正常预设阈值时,则该 预处理的纳税人利益社团中存在可疑纳税人; 4)通过步骤3)得到的各正常纳税人利益社团的特征信息及各异常纳税人利益社 团的特征信息构建新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,然 后再根据新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库判断下一个 预处理的利益关联社团中的各纳税人利益社团是否存在可疑纳税人。 所述特征信息包括度分布、集聚系数和平均最短路径。 本专利技术具有以下有益效果: 本专利技术所述的基于层次聚类的可疑纳税人检测方法在检测预处理的利益关联社 团中是否存在可疑纳税人的过程中,先通过获取纳税人利益网络,然后采用层次聚类算法 按照纳税人以及任意两个纳税人的利益关联程度进行分层聚类,然后根据分层聚类的结果 得到利益关联社团,再从所有的利益关联社团中选取正常纳税人利益社团及异常纳税人利 益社团,在构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,在对预处 理纳税人利益社团进行处理时,只需提取出预处理的纳税人利益社团的特征信息,然后采 用相似度计算的方法分别计算出该预处理的纳税人利益社团属于正常纳税人利益社团的 概率及属于异常纳税人利益社团的概率,然后再分别与正常预设阈值及异常预设阈值进行 对比,从而判断出该预处理的纳税人利益社团中是否存在可疑纳税人,操作方便,简单,可 信度高。 【专利附图】【附图说明】 图1为本专利技术中第一次检测可疑纳税人的流程图; 图2本专利技术中更新正常纳税人利益社团的特征库和异常纳税人利益社团的特征 库的流程图。 【具体实施方式】 下面结合附图对本专利技术做进一步详细描述: 参考图1及图2,本专利技术所述的参考图基于层次聚类的可疑纳税人检测方法包括 以下步骤: 1)获取纳税人利益网络,并从纳税人利益网络中提取出各节点对应的纳税人以及 任意两个纳税人之间的利益关联程度,再采用层次聚类算法对纳税人以及任意两个纳税人 之间的利益关联程度进行层次聚类,形成二叉树,然后根据纳税人和任意两个纳税人之间 的利益关联程度对所述二叉树进行分割,得若干簇,其中,每次层次聚类得到的簇均记作利 益关联社团; 2)从步骤1)中得到的利益关联社团中选取正常纳税人利益社团和异常纳税人利 益社团,然后提取正常纳税人利益社团的特征信息及异常纳税人利益社团的特征信息,然 后构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库; 3)预处理的利益关联社团包括若干纳税人利益社团,分别获取各预处理的纳税人 利益社团的特征信息,然后将各预处理的纳税人利益社团的特征信息分别与正常纳税人利 益社团的特征库及异常纳税人利益社团的特征库进行相似度计算,分别计算出各预处理的 纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,当预 处理的纳税人利益社团属于异常纳税人利益社团的概率大于或等于异常预设阈值时或者 当该预处理的纳税人利益社团属于正常纳税人利益社团的概率小于正常预设阈值时,则该 预处理的纳税人利益社团中存在可疑纳税人,所述正常预设阈值及异常预设阈值均为用户 根据检测的准确度而设置的; 4)通过步骤3)得到的各正常纳税人利益社团的特征信息及各异常纳税人利益社 团的特征信息构建新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,然 后再根据新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库判断下一个 预处理的利益关联社团中的各纳税人利益社团是否存在可疑纳税人。 所述特征信息包括度分布、集聚系数和平均最短路径。 需要说明的是,形成二叉树的具体过程为:(1)将每个纳税人作为一个单独的簇, 将两个纳税人之间的利益关联度作为所述两个纳税人对应簇之间的相似度,从而形成纳税 人之间的相似度矩阵;(2)从纳税人的相似度矩阵中选取相似度最大的两个簇进行合并形 成新的簇,从相似度矩阵中删除原本两个簇对应的相似度,计算新的簇和其他簇之间的平 均关联度作为新的簇与其他簇的相似度,对相似度矩阵进行更新;(3)重复步骤(2),直到 形成一颗分层次的二叉树,二叉树中每个叶子节点对应一个纳税人,每个非叶子节点由其 左子树和右子树组成,并且其所有叶子节点都可能成为一个利益关联社团,在层次聚类结 果中,每个非叶子节点都对应着一个节点间平均距离表示子树的节点间关联程度,通过选 择合适的阈值,从层次聚类得到的二叉树中分割出合适的子树作为利益关联社团,并且由 于层次聚类算法的特性,选择的利益关联社团可以根据实际需要进行细化或者加入更多的 节点元素,本文档来自技高网...
【技术保护点】
一种基于层次聚类的可疑纳税人检测方法,其特征在于,包括以下步骤:1)获取纳税人利益网络,并从纳税人利益网络中提取出各节点对应的纳税人以及任意两个纳税人之间的利益关联程度,再采用层次聚类算法对纳税人以及任意两个纳税人之间的利益关联程度进行层次聚类,形成二叉树,然后根据纳税人和任意两个纳税人之间的利益关联程度对所述二叉树进行分割,得若干簇,其中,每次层次聚类得到的簇均记作利益关联社团;2)从步骤1)中得到的利益关联社团中选取正常纳税人利益社团和异常纳税人利益社团,然后提取正常纳税人利益社团的特征信息及异常纳税人利益社团的特征信息,然后构建正常纳税人利益社团的特征库及异常纳税人利益社团的特征库;3)预处理的利益关联社团包括若干纳税人利益社团,分别获取各预处理的纳税人利益社团的特征信息,然后将各预处理的纳税人利益社团的特征信息分别与正常纳税人利益社团的特征库及异常纳税人利益社团的特征库进行相似度计算,分别计算出各预处理的纳税人利益社团属于正常纳税人利益社团的概率及属于异常纳税人利益社团的概率,当预处理的纳税人利益社团属于异常纳税人利益社团的概率大于或等于异常预设阈值时或者当该预处理的纳税人利益社团属于正常纳税人利益社团的概率小于正常预设阈值时,则该预处理的纳税人利益社团中存在可疑纳税人;4)通过步骤3)得到的各正常纳税人利益社团的特征信息及各异常纳税人利益社团的特征信息构建新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库,然后再根据新的正常纳税人利益社团的特征库及异常纳税人利益社团的特征库判断下一个预处理的利益关联社团中的各纳税人利益社团是否存在可疑纳税人。...
【技术特征摘要】
【专利技术属性】
技术研发人员:郑庆华,李博,杜友田,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。