本发明专利技术公开一种用于增值税阴阳票监控的数据清洗存储方法,其包括以下步骤:针对阴阳票检测所需税务数据项进行业务分析;针对业务分析结果进行数据库表结构的设计;进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储。本发明专利技术能在庞大的数据里面快速清洗提取出为了检测阴阳票所需的数据,并且能够巧妙地存储起来为后续判断提供准备,提高了系统检测阴阳票的效率。
【技术实现步骤摘要】
一种用于增值税阴阳票监控的数据清洗存储方法
本专利技术涉及税控
,特别涉及一种用于增值税阴阳票监控的数据清洗存储方法。
技术介绍
增值税防伪税控系统是国家金税工程的重要组成部分。通过运用数字密码和电子存储技术并强化专用发票的防伪功能,做到了成功遏制利用增值税专用发票偷税、漏税的现象。企业端开票软件是运用数字密码和电子信息存贮技术,强化专用发票的防伪功能,实现对增值税一般纳税人税源监控,用于企业开具增值税专用发票的系统。当前一般纳税人的税务数据主要来自企业端开票软件、防伪税控网络版和CTAIS(中国税收征管信息系统,ChinaTexAdministrationInformationSystem)核心征管三个系统。CTAIS是以国家税务总局制定的《税收征管业务规程》、《市局级税收征管业务需求》和《国家税务总局CTAIS开发要求概要》为基准开发的,它是面向全国各级税务机关的、统一的、大型的应用软件。以上三个系统记录了一般纳税人海量的税务数据,为各类税务系统的应用开发提供了原始的数据来源。因此,如何设计一种方法能够将这三个系统所记录的庞大数据进行清洗过滤,然后存储在事先设计好的数据库表里面,为进行阴阳票的判断做数据准备,即为本领域技术人员的研究方向所在。
技术实现思路
本专利技术的目的是提供一种用于增值税阴阳票监控的数据清洗存储方法,能够将杂乱冗余的原始数据清洗过滤,然后按设计的结构存储起来,为后续阴阳票的高效判定做好数据准备。为了达到上述目的,本专利技术提供一种用于增值税阴阳票监控的数据清洗存储方法,其包括以下步骤:针对阴阳票检测所需税务数据项进行业务分析;针对业务分析结果进行数据库表结构的设计;进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储。其中,针对阴阳票检测所需税务数据项进行业务分析的步骤是以面向对象的分析技术分析所需的数据项和数据项之间的关联关系,是对增值税阴阳票检测,包括增值税进销项发票数据及税收征管数据。其中,针对业务分析结果进行数据库表结构的设计是以面向对象的设计思想对从数据源提供的数据进行建模处理,产生ETL数据库结构模型,包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单数据表、进销项关联表、税务机关数据表、操作人员数据表及纳税人数据表。其中,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,并对一些特殊处理对象进行特殊处理。其中,进销项发票数据以及清单数据分别以认证时间和报税时间为分区键,每月一个分区进行分区优化存储,并且在相关字段上建立索引。其中,针对业务分析结果进行数据库表结构的设计采用相关聚合表技术,在考虑报表设计时,通过预处理事先将计算好的汇总数据保存到数据表中,直接提供给用户查询。其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,是清洗掉无关的、冗余的、杂乱的数据,处理特殊含义的数据,将最终结果按数据库设计存储起来。其中,对于ETL过程,需要从源数据库中提取所需要的数据,并且规范数据格式,存储在ETL数据模型中,并对数据的准确性、处理的性能和业务扩展上进行关注。其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,在提取原始数据时,根据异常处理表去掉或替换异常字符,在提取过来以后可能会发现个别数据填写的内容不正确,是通过后台管理程序更正这些数据后,标注这些数据不再被同步更新,以规范原始数据。其中,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,源数据的ETL过程具体包括:进项发票数据提取、转换、加载过程;进项发票清单数据提取、转换、加载过程;销项发票数据提取、转换、加载过程;销项发票清单数据提取、转换、加载过程;税务机关数据提取、转换、加载过程;操作人员数据提取、转换、加载过程;纳税人数据提取、转换、加载过程;进销项关联数据的提取、转换、加载过程;阴阳票数据的运算过程。其中,进销项关联数据的提取、转换、加载过程包括以下步骤:扫描当日的增值税销项发票表,将数据插入到进销项关联表中,排除代开发票、信息不完整的情况;然后扫描当日的增值税进项发票表,用发票代码与发票号码关联,将进项发票主键填入到进销项关联表中;暂存已认证未报税的进项发票,排除代开发票、信息不完整的情况;检查暂存的已认证未报税的进项发票,是否已经报税,如果已报税,用发票代码与发票号码关联,将进项发票填入到进销项关联表中;清理进项发票临时表中已填入到进销项关联表中的发票。其中,阴阳票数据的运算过程包括扫描纳税人进销项关联表中进项发票主键不为空、还未进行阴阳票检查的数据,并依次进行以下检查:检查进项发票与销项发票中购方纳税人与销方纳税人是否一致,如果不一致,按照如下规则分别计算购方纳税人与销方纳税人的相似度,填充购方和销方名称相似度字段;检查进项发票与销项发票中商品行数是否一致,填充是否行数一致字段;在商品行数一致的情况下,逐行检查进项发票与销项发票的商品名称是否一致,如果不一致,则按照如下规则计算商品名称的相似度,填充商品相似度字段;填入阴阳票检查时间。本专利技术的有益效果:能在庞大的数据里面快速清洗提取出为了检测阴阳票所需的数据,并且能够巧妙地存储起来为后续判断提供准备,提高了系统检测阴阳票的效率。附图说明图1为本专利技术实施例所提供的一种用于增值税阴阳票监控的数据清洗存储方法流程图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。如图1所示,为本专利技术实施例所提供的一种用于增值税阴阳票监控的数据清洗存储方法流程图,本专利技术的一种用于增值税阴阳票监控的数据清洗存储方法包括以下步骤:步骤S1:针对阴阳票检测所需税务数据项进行业务分析;在本步骤中,是以面向对象的分析技术(OOA)分析所需的数据项和数据项之间的关联关系,为数据库的表结构设计提供依据。在业务上,是对增值税阴阳票检测(检测出那些存根联和抵扣联中商品明细不一致的增值税发票)进行分析,发现所涉及到的主要操作对象为:增值税进销项发票数据(主要来源于防伪税控网络版所提供的抄报认证快照数据,包括抄报发票存根联明细、抄报非抵扣存根联明细、认证发票抵扣联明细等数据,以及企业端远程抄报认证软件所采集的进销项发票七要素、发票清单、发票扫描图片等数据)和税收征管数据(主要来源于中国税收征管信息系统CTAIS包括税务机关数据、操作人员、纳税人、行业等数据)。步骤S2:针对步骤S1的分析结果进行数据库表结构的设计;本步骤是针对步骤S1的分析结果(主要包括监测阴阳票所需的数据项以及数据项之间的关系)进行数据库的设计,同时充分考虑查询效率、数据规模等因素。根据业务需要,是以面向对象的设计思想(OOD)对从数据源提供的数据进行建模处理,产生ETL数据库结构模型,主要包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单表、进销项关联表、税务机关数据表、操作人员数据表、纳税人数据表等;在异常处理方面,同时由于其它第三方信息管理系统数据不准确,为了避免由于这些不准确数据造成本系统数据分析结果的不正确,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,对一些特殊处理对象进行特殊处理;在性本文档来自技高网...
【技术保护点】
一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,其包括以下步骤:针对阴阳票检测所需税务数据项进行业务分析;针对业务分析结果进行数据库表结构的设计;进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储。
【技术特征摘要】
1.一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,其包括以下步骤:针对阴阳票检测所需税务数据项进行业务分析;针对业务分析结果进行数据库表结构的设计;进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储,其中,针对业务分析结果进行数据库表结构的设计是以面向对象的设计思想对从数据源提供的数据进行建模处理,产生ETL数据库结构模型,包括进项发票数据表、进项发票清单数据表、销项发票表、销项发票清单数据表、进销项关联表、税务机关数据表、操作人员数据表及纳税人数据表,ETL过程需要进行异常处理,并且形成了一系列的异常处理表,并对一些特殊处理对象进行特殊处理,对于ETL过程,需要从源数据库中提取所需要的数据,并且规范数据格式,存储在ETL数据模型中,并对数据的准确性、处理的性能和业务扩展上进行关注,在进行数据清洗,并处理特殊含义的数据,将最终结果按所述数据库结构的设计进行存储的步骤中,源数据的ETL过程具体包括:进项发票数据提取、转换、加载过程;进项发票清单数据提取、转换、加载过程;销项发票数据提取、转换、加载过程;销项发票清单数据提取、转换、加载过程;税务机关数据提取、转换、加载过程;操作人员数据提取、转换、加载过程;纳税人数据提取、转换、加载过程;进销项关联数据的提取、转换、加载过程;阴阳票数据的运算过程,进销项关联数据的提取、转换、加载过程包括以下步骤:扫描当日的增值税销项发票表,将数据插入到进销项关联表中,排除代开发票、信息不完整的情况;然后扫描当日的增值税进项发票表,用发票代码与发票号码关联,将进项发票主键填入到进销项关联表中;暂存已认证未报税的进项发票,排除代开发票、信息不完整的情况;检查暂存的已认证未报税的进项发票,是否已经报税,如果已报税,用发票代码与发票号码关联,将进项发票填入到进销项关联表中;清理进项发票临时表中已填入到进销项关联表中的发票。2.根据权利要求1所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,针对阴阳票检测所需税务数据项进行业务分析的步骤是以面向对象的分析技术分析所需的数据项和数据项之间的关联关系,是对增值税阴阳票检测,包括增值税进销项发票数据及税收征管数据。3.根据权利要求1所述的一种用于增值税阴阳票监控的数据清洗存储方法,其特征在于,进销项发票数据以及清单数据分别以认证时间和报税时间为分区键,每月一个分区进行分区优化存储,并且在相关字段上建立索引。4.根据权利...
【专利技术属性】
技术研发人员:范钢,陈勇,谢宇,潘竞旭,房玉伟,耿立家,
申请(专利权)人:航天信息股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。