【技术实现步骤摘要】
识别异常纳税行为的方法
本公开属于信息
,更具体地,涉及一种识别异常纳税行为的方法。
技术介绍
基于增值税发票货物明细数据,通过分析进销项商品来识别“销售不实,抵扣不符,虚开发票”等异常行为,是税收风险防控的重要手段。然而,商品名称的多样性、复杂性,以及填写不规范,导致同一种商品实体和相似商品的识别十分困难。此外,生产类或加工类企业的进销项商品之间存在巨大差异,导致无法直接通过衡量进销项商品名称的相似程度来判别是否异常。现有方法多基于商品编码或者简单的商品名称相似度来计算进销项商品的差异程度,进而识别异常纳税行为。但商品编码和商品名称多对多的性质,以及简单的商品名称相似度计算方法,往往使分析存在准确性和全面性欠缺的问题。现有的异常纳税行为识别存在效率和准确性低的问题。
技术实现思路
有鉴于此,本公开实施例提供了一种识别异常纳税行为的方法,至少解决现有技术中异常纳税行为识别存在效率和准确性低的问题。第一方面,本公开实施例提供了一种识别异常纳税行为的方法,包括:基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表;基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;基于所述第一处理结果,判断纳税行为是否异常。可选的,所述基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主 ...
【技术保护点】
1.一种识别异常纳税行为的方法,其特征在于,包括:/n基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;/n基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表;/n基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;/n基于所述第一处理结果,判断纳税行为是否异常。/n
【技术特征摘要】
1.一种识别异常纳税行为的方法,其特征在于,包括:
基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;
基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表;
基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;
基于所述第一处理结果,判断纳税行为是否异常。
2.根据权利要求1所述的识别异常纳税行为的方法,其特征在于,
所述基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到处理结果的步骤之前或之后,还包括:
判断所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称是否在关联分析得到的组合实体词库内,判断纳税行为是否异常。
3.根据权利要求1所述的识别异常纳税行为的方法,其特征在于,所述基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果,包括:
对所述主销商品名称和主购商品名称进行分词,并提取实体词;
利用获取的词向量资源,获取提取的实体词的词向量;
基于所述词向量计算实体词之间的余弦相似度;
对于每组商品,取所有实体词余弦相似度的最大值作为该组商品的商品名称相似度,所述每组商品包括一进项商品和一销项商品;
将所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称组合,形成多组商品,计算每组商品的商品名称相似度;
选取最大的商品名称相似度作为进销项商品相似度;
判断所述进销项商品相似度与第一设定阈值的大小。
4.根据权利要求3所述的识别异常纳税行为的方法,其特征在于,所述基于所述词向量计算实体词之间的余弦相似度中,所述余弦相似度的计算公式为:
其中和为实体词的词向量,||a||和||b||分别为向量和向量的模。
5.根据权利要求3所述的识别异常纳税行为的方法,其特征在于,
若进销项商品相似度大于第一设置阈值,则认为纳税行为正常;
否则,则认为纳税行为异常。
6.根据权利要求2所述的识别异常纳税行为的方法,其特征在于,所述关联分析得到的组合实体词库内中关联分析包括:
对相关行业内的销项商品名称和进项商品名称进行分词,并提取实体词;
对所有销项商品,统计提取出的每个实体词出现的频数;
对每组销项商品和进项商品,统计每对实体词同时出现的频数,即组合实体词的频数;
将每个实体词出现的频数与第二设定阈值比较,得到销项实体词;
将包含所述销项实体词的组合实体词的频数与第三设定阈值比较,得到组合实体词库。
7.根据权利要求6所述的识别异常纳税...
【专利技术属性】
技术研发人员:刘芬,王志刚,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。