识别异常纳税行为的方法技术

技术编号:24252676 阅读:34 留言:0更新日期:2020-05-23 00:09
本公开实施例公开了一种识别异常纳税行为的方法,包括:基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表;基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;基于所述第一处理结果,判断纳税行为是否异常。达到提高异常纳税行为识别效率的目的。

Methods of identifying abnormal tax behaviors

【技术实现步骤摘要】
识别异常纳税行为的方法
本公开属于信息
,更具体地,涉及一种识别异常纳税行为的方法。
技术介绍
基于增值税发票货物明细数据,通过分析进销项商品来识别“销售不实,抵扣不符,虚开发票”等异常行为,是税收风险防控的重要手段。然而,商品名称的多样性、复杂性,以及填写不规范,导致同一种商品实体和相似商品的识别十分困难。此外,生产类或加工类企业的进销项商品之间存在巨大差异,导致无法直接通过衡量进销项商品名称的相似程度来判别是否异常。现有方法多基于商品编码或者简单的商品名称相似度来计算进销项商品的差异程度,进而识别异常纳税行为。但商品编码和商品名称多对多的性质,以及简单的商品名称相似度计算方法,往往使分析存在准确性和全面性欠缺的问题。现有的异常纳税行为识别存在效率和准确性低的问题。
技术实现思路
有鉴于此,本公开实施例提供了一种识别异常纳税行为的方法,至少解决现有技术中异常纳税行为识别存在效率和准确性低的问题。第一方面,本公开实施例提供了一种识别异常纳税行为的方法,包括:基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表;基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;基于所述第一处理结果,判断纳税行为是否异常。可选的,所述基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到处理结果的步骤之前或之后,还包括:判断所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称是否在关联分析得到的组合实体词库内,判断纳税行为是否异常。可选的,所述基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果,包括:对所述主销商品名称和主购商品名称进行分词,并提取实体词;利用获取的词向量资源,获取提取的实体词的词向量;基于所述词向量计算实体词之间的余弦相似度;对于每组商品,取所有实体词余弦相似度的最大值作为该组商品的商品名称相似度,所述每组商品包括一进项商品和一销项商品;将所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称组合,形成多组商品,计算每组商品的商品名称相似度;选取最大的商品名称相似度作为进销项商品相似度;判断所述进销项商品相似度与第一设定阈值的大小。可选的,所述基于所述词向量计算实体词之间的余弦相似度中,所述余弦相似度的计算公式为:其中和为实体词的词向量,||a||和||b||分别为向量和向量的模。可选的,若进销项商品相似度大于第一设置阈值,则认为纳税行为正常;否则,则认为纳税行为异常。可选的,所述关联分析得到的组合实体词库内中关联分析包括:对相关行业内的销项商品名称和进项商品名称进行分词,并提取实体词;对所有销项商品,统计提取出的每个实体词出现的频数;对每组销项商品和进项商品,统计每对实体词同时出现的频数,即组合实体词的频数;将每个实体词出现的频数与第二设定阈值比较,得到销项实体词;将包含所述销项实体词的组合实体词的频数与第三设定阈值比较,得到组合实体词库。可选的,所述判断所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称是否在关联分析得到的组合实体词库内,判断纳税行为是否异常,包括:若基于所述主销商品列表中主销商品名称和所述主购商品列表中主购商品名称得到的组合实体词出现在组合实体词库内,则认为纳税行为正常;否则,则认为纳税行为异常。可选的,所述获取主销商品列表和获取主购商品列表的步骤之后,还包括:判断主销商品列表或主购商品列表是否为空;或/和基于所述主销商品列表或主购商品列表中的商品个数和记载的内容判断进销项是否正常;或/和基于所述主销商品列表和主购商品列表获取主销商品集合和主购商品集合的交集,基于交集判断进销项是否正常;或/和判断主销商品列表中的主销商品名称和主购商品列表中的主购商品名称是否包括相同词组,从而判断进销项是否正常;或/和判断主销商品名称和主购商品名称是否为完全无法识别的字符串;如不是完全无法识别,则将主销商品名称和主购商品名称中无法识别的字符串去除,保留能识别的字符串;取主销商品名称中可以识别的字符串与主购商品名称中可以识别的字符串的交集,并获取交集元素的个数m,以及2个字符串的最大长度n,基于m/n与第四设定阈值的比较,判断进销项是否正常。可选的,所述获取主销商品列表和获取主购商品列表的步骤之后,还包括:基于设定的词典判断纳税行为是否异常,包括:将主销商品名称和主购商品名称的字符串转换成字符集合;将所述字符集合与设定的单字词典求交集,计算交集的元素个数;如元素个数为零,逐个遍历设定的多字词典中的词,查看主销商品名称和主购商品名称中是否包含多字词典里的词,所述设定的单字词典和设定的多字词典能根据反馈结果进行修正。可选的,获取主销商品列表或获取主购商品列表,包括:获取所有销项商品和所有进项商品的汇总金额;获取每个销项商品和每个进项商品的汇总金额;分别用每个销项商品的汇总金额除以所有销项商品的汇总金额,得到多个第一比例值;分别用每个进项商品的汇总金额除以所有进项商品的汇总金额,得到多个第二比例值;将多个第一比例值按照从大到小的顺序进行累加,得到第一累加结果,当第一累加结果大于第五设定阈值,则停止累加,大于第五设定阈值的所述第一累加结果对应的销项商品的列表即为主销商品列表;将多个第二比例值按照从大到小的顺序进行累加,得到第二累加结果,当第二累加结果大于第六设定阈值,则停止累加,大于第六设定阈值的所述第二累加结果对应的进项商品的列表即为主购商品列表。本公开首先基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表。然后基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;基于所述第一处理结果,判断纳税行为是否异常。确定每个企业的主销商品列表和主购商品列表,对非主要的进、销项商品不予分析。提高了识别的效率。借助NLP(自然语言处理)技术和预训练好的公开词向量资源,对商品名称做分词处理后,通过词向量计算商品名称的相似程度,衡量商品名称的语义相似度,用以弥补只计算商品名称字面相似度的不足;从而提高了识别的准确性,达到提高异常纳税行为识别效率的目的。本公开还利用关联分析,结合销项商品出现的频次和进销项商品同时出现的频次信息,设定阈值识别异常纳税行为,来解决判断生产类和加工类企本文档来自技高网...

【技术保护点】
1.一种识别异常纳税行为的方法,其特征在于,包括:/n基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;/n基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表;/n基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;/n基于所述第一处理结果,判断纳税行为是否异常。/n

【技术特征摘要】
1.一种识别异常纳税行为的方法,其特征在于,包括:
基于每个销项商品的汇总金额在所有销项商品的汇总金额的占比,获取主销商品列表;
基于每个进项商品的汇总金额在所有进项商品的汇总金额的占比,获取主购商品列表;
基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果;
基于所述第一处理结果,判断纳税行为是否异常。


2.根据权利要求1所述的识别异常纳税行为的方法,其特征在于,
所述基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到处理结果的步骤之前或之后,还包括:
判断所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称是否在关联分析得到的组合实体词库内,判断纳税行为是否异常。


3.根据权利要求1所述的识别异常纳税行为的方法,其特征在于,所述基于自然语言处理技术对所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称进行处理,得到第一处理结果,包括:
对所述主销商品名称和主购商品名称进行分词,并提取实体词;
利用获取的词向量资源,获取提取的实体词的词向量;
基于所述词向量计算实体词之间的余弦相似度;
对于每组商品,取所有实体词余弦相似度的最大值作为该组商品的商品名称相似度,所述每组商品包括一进项商品和一销项商品;
将所述主销商品列表中主销商品名称与所述主购商品列表中主购商品名称组合,形成多组商品,计算每组商品的商品名称相似度;
选取最大的商品名称相似度作为进销项商品相似度;
判断所述进销项商品相似度与第一设定阈值的大小。


4.根据权利要求3所述的识别异常纳税行为的方法,其特征在于,所述基于所述词向量计算实体词之间的余弦相似度中,所述余弦相似度的计算公式为:



其中和为实体词的词向量,||a||和||b||分别为向量和向量的模。


5.根据权利要求3所述的识别异常纳税行为的方法,其特征在于,
若进销项商品相似度大于第一设置阈值,则认为纳税行为正常;
否则,则认为纳税行为异常。


6.根据权利要求2所述的识别异常纳税行为的方法,其特征在于,所述关联分析得到的组合实体词库内中关联分析包括:
对相关行业内的销项商品名称和进项商品名称进行分词,并提取实体词;
对所有销项商品,统计提取出的每个实体词出现的频数;
对每组销项商品和进项商品,统计每对实体词同时出现的频数,即组合实体词的频数;
将每个实体词出现的频数与第二设定阈值比较,得到销项实体词;
将包含所述销项实体词的组合实体词的频数与第三设定阈值比较,得到组合实体词库。


7.根据权利要求6所述的识别异常纳税...

【专利技术属性】
技术研发人员:刘芬王志刚
申请(专利权)人:航天信息股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1