一种基于大数据的E账册数据校验方法技术

技术编号:38902041 阅读:15 留言:0更新日期:2023-09-22 14:20
本发明专利技术公开了E账册技术领域的一种基于大数据的E账册数据校验方法,包括企业导入数据和大数据处理,根据企业导入数据,通过多个维度计算和分析,得到企业正常导入数据值的范围,再根据企业所在行业,将行业内的各类数据进行整理、归纳、分析、汇总后,得到行业内的普遍标准值;本发明专利技术通过大数据处理得到的企业导入数据的正常值范围及行业标准值范围,可在数据导入过程中进行合理值的判定,避免由于企业操作失误录入了超标数值,减少申报过程中人为问题引起的法律风险,减少审批退单风险,节约企业的人力成本、提高企业执行效率。提高企业执行效率。提高企业执行效率。

【技术实现步骤摘要】
一种基于大数据的E账册数据校验方法


本专利技术涉及E账册
,具体涉及一种基于大数据的E账册数据校验方法。

技术介绍
“E账册”就是用“电子账册”取代目前加工贸易管理中的纸质手册。海关以企业界为单元为联网企业建立的电子底账,实施电子帐册管理的,联网企业只设立一个电子帐册。海关应当根据联网企业的生产情况和海关的监管需要确定核销周期,按照核销周期对实行电子帐册管理的联网企业进行核销管理。自2006年9月1日起实行中期核查制度,企业每月底均需向海关申报料号以及物料的库存数据。目前系统对企业录入/导入的数据只进行简单的业务规范校验,校验完成返回校验结果。该执行过程中并未对数据进行智能化校验,使得校验功能较为薄弱,并且无数据整理、归纳、分析等环节,导致上报数据退单率高,通关周期长,影响企业效益。基于此,本专利技术设计了一种基于大数据的E账册数据校验方法,以解决上述问题。

技术实现思路

本专利技术的目的在于提供一种基于大数据的E账册数据校验方法,为了解决系统在处理企业录入/导入数据时只进行简单的业务规范校验,无数据进行智能化校验及对数据进行整理、归纳、分析等功能,将通过大数据处理技术,从使用者、行为、转化、活动维度等不同角度进行数据分析,为不同行业企业找到有价值的数据、从而提高海关审批通过率,缩短审批、通关时间,提供企业效益。为实现上述目的,本专利技术提供如下技术方案:一种基于大数据的E账册数据校验方法,包括企业导入数据和大数据处理,根据所述企业导入数据,通过多个维度计算和分析,得到企业正常导入数据值的范围,再根据企业所在行业,将行业内的各类数据进行整理、归纳、分析、汇总后,得到行业内的普遍标准值,所述大数据处理的具体步骤如下:Step1,数据仓库建设所述数据仓库建设包括各申报系统数据源、ETL数据交换、数据存储及处理和应用;所述各申报系统数据源为梳理公司内部数据源、外部数据源、结构化数据源和非结构化数据进行数据整合;所述ETL数据交换为利用“Kafka”整合线上实时生产数据、“Kettle”整合外部数据及离线数据和“Filebeat”整合线上实时生产日志文件;所述数据存储及处理包括采用HDFS分布式文件存储系统,存储数据,对于海量数据在线计算时采用HBase Sql或Hive Sql,HBase Sql用于结果集操作,Hive Sql用于高效查询,将计算的中间结果存储于族式存储HBase,对于海量数据进行离线计算我们采用“Spark“,将结果存储于HBase中,供各个应用系统使用;所述应用包括将计算结果展现给各个业务系统,或利用WebApi调用Hive SQL进行时实统计计算;
Step2,行业内数据分析数据源说明行业内数据分析,数据源来自各个业务系统,且数据库类型、业务数据格式、各不相同,前期需将各业务系统的数据整合同步到大数据分布式文件存储系统HDFS中,例如:捷关通系统的“经营范围(料件、成品)、归并关系(料件、成品、单损耗)、进出口清单、账册核销、日志管理“等等;区内物流系统“备案信息(料件、成品、单损耗)、申请表、仓库信息、简单加清单、出入库单信息等等”;数据特点(1)数据量按TB计算,公司现有客户家数在4000左右;(2)数据存储较为分散,有此系统采用Sas模式,有些业务系统采用C/S模式,C/S的模式采用分库的方式进行系统部署,综合各个数据源,共有400左右,ETL设计工作较为复杂;(3)计算的效率要求较高,用户在业务系统中进行数据导入时,页面数据导入完成后,调用大数据WebApi进行业数据分析,将行业的分析结果展现到业务系统界面,供其用户参考,如,行业内同规格型号物件的最低进口价格、行业内同品名的申报单位、行业内同商品的采购来源等等;分析方案第一步,采用SparkStreaming从Kafka中获取数据,进行大数据处理计算,将计算的中间结果,采用族式存储于Hbase中<K,V>,例如Key的设计有:电子、服装、食品、化工等等,然后再采用二级分类存储,一样采用<K,V>,例如二级分类的Key设计:一级分类的V;依次计算中间结果;第二步,采用<K,V>的存储方式,将数据灌入HDFS中,结合Elasticsearch框架,利于搜索引擎快速查找;第三步,对于计算的效率,采用SparkSQL的提供的JDBC,从中间结果集中(Hbase)进行数据抽取和计算,最终将结果呈现至页面;Step3,损耗标准智能分析提醒数据源说明数据源来自内部数据,外部购买数据,企业ERP生产数据等等,数据库类型、业务数据格式、各不相同,前期需将各业务系统的数据整合同步到大数据分布式文件存储系统HDFS中,例如:捷关通系统的“单损耗“数据、加工贸易手册“单损耗”信息、加工贸易账册“BOM”信息,第三方信息网上的损耗标准信息,第三方数据供应商提供的损耗信息,企业内部ERP生产损耗信息;数据特点(1)数据量较大,按TB计算;(2)数据源较多,数据格式不统一,有格式化的,有文件类;(3)计算的效率要求较高,用户在业务系统中进行数据录入、导入时,进行提醒反馈,调用大数据WebApi进行业数据分析,将单损标准展现到业务系统界面,供其用户参考;
分析方案:第一步,采用SparkStreaming从Hdfs中获取离线数据,进行大数据处理计算,结合海关商品编码表,运用Map、Reduce和join等复杂计算操作将结果存储为中间结果MySql中,主表信息来自于海关商品编码表,共1W多个商编,数据量较少可直接存储于MySql中;第二步,结合业务需求实际应用场景,采用“spark推荐算法”完成损耗标准智能分析推荐。所述企业导入数据的具体步骤如下:企业首先登陆系统并进入导入界面,选择需要上传的文件进行文件上传工作,系统将导入文件上传至云端文件服务器,完成文件的上传工作;E账册企业录入、导入的数据进行简单业务校验后,进行基于大数据的智能化校验、数据整理、归纳、分析,得到海关物流行业信息化领域内所需要的参考数据,如同种规格型号物件的最低进口价格;企业登陆系统,在相应模块中点击导入按钮,弹出导入数据页面,点击页面上的“浏览按钮”,选择需要上传的文件,然后点击“上传”按钮,此时系统将导入文件上传至云端文件服务器,并在下方的文件导入记录中增加一条“上传成功待执行”的执行任务;需要时,从云端文件服务器下载文件,完成文件的下载工作,后台通过大数据处理分析进行数据校验工作,校验完成后,将返回数据校验结果为校验成功、校验失败、警告数据,并在进入导入界面中显示,用户可下载数据进行确认;后台通过任务调度,执行任务校验方式,对数据进行业务逻辑校验及智能化数据校验,校验完成后,将分为校验成功、校验失败、警告数据,并在导入数据的公用界面中显示,用户可下载数据进行确认,对弈校验成功与警告数据,可点击确认按钮导入到系统中;通过大数据处理得到的企业导入数据的正常值范围及行业标准值范围,可在数据导入过程中进行合理值的判定。与现有技术相比,本专利技术的有益效果是:本专利技术通过大数据处理算法,根据各个企业导入的数据及行业标准,进行智能化校验及对数据进行整理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的E账册数据校验方法,包括企业导入数据和大数据处理,其特征在于,根据所述企业导入数据,通过多个维度计算和分析,得到企业正常导入数据值的范围,再根据企业所在行业,将行业内的各类数据进行整理、归纳、分析、汇总后,得到行业内的普遍标准值,所述大数据处理的具体步骤如下:Step1,数据仓库建设所述数据仓库建设包括各申报系统数据源、ETL数据交换、数据存储及处理和应用;所述各申报系统数据源为梳理公司内部数据源、外部数据源、结构化数据源和非结构化数据进行数据整合;所述ETL数据交换为利用“Kafka”整合线上实时生产数据、“Kettle”整合外部数据及离线数据和“Filebeat”整合线上实时生产日志文件;所述数据存储及处理包括采用HDFS分布式文件存储系统,存储数据,对于海量数据在线计算时采用HBaseSql或HiveSql,HBaseSql用于结果集操作,HiveSql用于高效查询,将计算的中间结果存储于族式存储HBase,对于海量数据进行离线计算我们采用“Spark“,将结果存储于HBase中,供各个应用系统使用;所述应用包括将计算结果展现给各个业务系统,或利用WebApi调用HiveSQL进行时实统计计算;Step2,行业内数据分析数据源说明行业内数据分析,数据源来自各个业务系统,且数据库类型、业务数据格式、各不相同,前期需将各业务系统的数据整合同步到大数据分布式文件存储系统HDFS中,例如:捷关通系统的“经营范围(料件、成品)、归并关系(料件、成品、单损耗)、进出口清单、账册核销、日志管理“等等;区内物流系统“备案信息(料件、成品、单损耗)、申请表、仓库信息、简单加清单、出入库单信息等等”;数据特点(1)数据量按TB计算,公司现有客户家数在4000左右;(2)数据存储较为分散,有此系统采用Sas模式,有些业务系统采用C/S模式,C/S的模式采用分库的方式进行系统部署,综合各个数据源,共有400左右,ETL设计工作较为复杂;(3)计算的效率要求较高,用户在业务系统中进行数据导入时,页面数据导入完成后,调用大数据WebApi进行业数据分析,将行业的分析结果展现到业务系统界面,供其用户参考,如,行业内同规格型号物件的最低进口价格、行业内同品名的申报单位、行业内同商品的采购来源等等;分析方案第一步,采用SparkStreaming从Kafka中获取数据,进行大数据处理计算,将计算的中间结果,采用族式存储于Hbase中<K,V>,例如Key的设计有:电子、服装、食品、化工等等,然后再采用二级分类存储,一样采用<K,V>,例如二级分类的Key设计:一级分类的V;依次计算中间结果;第二步,采用<K,V>的存储方式...

【专利技术属性】
技术研发人员:戚晟朱峰杨开新
申请(专利权)人:苏州智贸捷通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1