本发明专利技术涉及一种固定资产投资项目数据清洗方法及终端,将原始数据通过数据装载的方式装载至第一数据库中得到装载数据,所述数据装载的方式包括基本装载、追加装载和合并装载,按照所述第一数据库格式对所述装载数据进行格式转化处理得到待清洗数据;根据预设规则对所述待清洗数据进行清洗过滤处理得到清洗数据,根据完整性规则、唯一性规则、一致性规则、合法性规则和权威性规则对所述清洗数据进行校验,若校验成功,则将所述清洗数据保存至第一数据库中。格式转化后避免格式杂乱,便于后续的数据清洗;另外,校验成功的清洗数据才能够保存至第一数据库中,保证存入第一数据库中的清洗数据满足要求,从而能够减少数据质量问题。
【技术实现步骤摘要】
一种固定资产投资项目数据清洗方法及终端
本专利技术涉及计算机数据清洗领域,尤其涉及一种固定资产投资项目数据清洗方法及终端。
技术介绍
自2016年6月我省投资项目在线审批监管平台正式上线试运行以来,截止到2020年7月,省监管平台一共赋码了18万个项目,汇集投资项目相关审批办件信息19万个、办件环节65万个。其中在数据交换过程中涉及的业务表有四十张,包括上报的业务表二十张与下发的业务表二十张。由于与全省9地市及87个区县的审批系统进行数据对接,上报的数据量庞大,且区县的审批系统在办事过程中的数据校验工作不完善,导致各地上报的数据存在大量的错误,而且越积越多,部分地区出现重复推送上万条错误数据的情况。我省平台在运行过程中逐步显现了项目管理流程缺失、各地审批系统上报到省监管平台的数据质量较低、省监管平台上报到中央平台的数据质量较差、数据缺乏有效实时监管与反馈机制不足等问题。目前,各类数据问题都由省监管平台技术运维人员通过人工方式处理,但由于省监管平台纳入管理的审批数据大幅增加,手工处理已无法满足校验需求。主要存在各地审批系统上报到省监管平台的数据质量较低的问题,因全省各地审批系统在进行项目信息审核过程中,未对项目监管信息进行严格完整的有效性与标准性验证,同时由于各地窗口业务人员对投资项目业务的熟悉程度不同以及对审批系统操作上的不熟悉,导致投资项目在窗口审核补充过程中所填报的项目信息不符合数据规范。按照目前的数据归集流程,各地审批系统的投资项目相关数据首先经由各地的前置机上报到福建省网上办事大厅,网上办事大厅进行数据解析并入库,而网上办事大厅在进行数据解析时对于数据标准内容只进行审批相关数据的校验与处理。经网上办事大厅解析入库的投资项目相关数据会定期推送到省监管平台的前置库中。省监管平台在归集全省投资项目相关数据后将数据定期上报到中央平台的前置库中,由中央平台定期抽取。因而,数据质量问题可分为业务类问题和数据规范类问题两个方面。1、业务类问题主要包括:(1)项目名称重复:系统已经在取号赋码时针对重复的项目名称做了提示,不过无法硬性规定业主不能填写重复的项目名称。(2)项目相关的横向审批办件信息重复:同一个事项可能由于办理的问题需要重新受理重办,这就导致同一个审批事项会出现重复的数据。(3)测试数据:已经明确要求测试项目信息的填写规范,项目名称需以“省监管平台测试”打头,并将符合规范的测试数据不上报给国家。若各地在进行测试的时候未按照规范填写,则会无法过滤出此类数据从而上报给国家。后续逐步根据实际数据优化下过滤规则。原来计划将所有含有“测试”字样项目名称的数据都不上报给国家,可是真实的项目中存在含有“测试”字样的项目。(4)办理状态不一致:这类属于办件信息的当前状态和最新环节信息的状态不一致导致的。2、数据规范类问题主要包括:项目类型与项目代码中标志的项目类型不一致:项目信息在取号时由于办理人的将投资项目类型(审核备案)选择错误,故生成的项目代码是与错误的项目类型一致的。而我们提供的补录入口是允许修改项目类型的,各地发改在进行补录的时候将类型修改正确而项目代码还是原有的,这就导致了项目类型与项目代码不一致的问题。其他数据问题:由于早期各地很多项目信息未校验入到省库,而相关办件信息入库了,省里将办件信息上报国家而项目信息无法上报国家,就导致国家方面找不到对应的所属项目。
技术实现思路
(一)要解决的技术问题为了解决现有技术的上述问题,本专利技术提供一种固定资产投资项目数据清洗方法及终端,能够减少数据质量问题。(二)技术方案为了达到上述目的,本专利技术采用的一种技术方案为:一种固定资产投资项目数据清洗方法,包括:S1、将原始数据通过数据装载的方式装载至第一数据库中得到装载数据,所述数据装载的方式包括基本装载、追加装载和合并装载,按照所述第一数据库格式对所述装载数据进行格式转化处理得到待清洗数据;S2、根据预设规则对所述待清洗数据进行清洗过滤处理得到清洗数据,根据完整性规则、唯一性规则、一致性规则、合法性规则和权威性规则对所述清洗数据进行校验,若校验成功,则将所述清洗数据保存至第一数据库中。本专利技术采用的另一种技术方案为:一种固定资产投资项目数据清洗终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:S1、将原始数据通过数据装载的方式装载至第一数据库中得到装载数据,所述数据装载的方式包括基本装载、追加装载和合并装载,按照所述第一数据库格式对所述装载数据进行格式转化处理得到待清洗数据;S2、根据预设规则对所述待清洗数据进行清洗过滤处理得到清洗数据,根据完整性规则、唯一性规则、一致性规则、合法性规则和权威性规则对所述清洗数据进行校验,若校验成功,则将所述清洗数据保存至第一数据库中。(三)有益效果本专利技术的有益效果是:将原始数据装载至第一数据库中得到装载数据,对装载数据进行格式转化处理得到待清洗数据,格式转化后避免格式杂乱,便于后续的数据清洗;之后根据预设原则对待清洗数据进行清洗过滤处理得到清洗数据,然后根据完整性规则、唯一性规则、一致性规则、合法性规则和权威性规则对清洗数据进行校验,校验成功的清洗数据才能够保存至第一数据库中,保证存入第一数据库中的清洗数据满足要求,从而能够减少数据质量问题。附图说明图1为本专利技术的固定资产投资项目数据清洗方法的流程图;图2为本专利技术的固定资产投资项目数据清洗终端的结构示意图;图3为本专利技术的固定资产投资项目数据清洗方法的细节图;【附图标记说明】1、一种固定资产投资项目数据清洗终端;2、存储器;3、处理器。具体实施方式为了更好的解释本专利技术,以便于理解,下面结合附图,通过具体实施方式,对本专利技术作详细描述。请参照图1所示,一种固定资产投资项目数据清洗方法,包括:S1、将原始数据通过数据装载的方式装载至第一数据库中得到装载数据,所述数据装载的方式包括基本装载、追加装载和合并装载,按照所述第一数据库格式对所述装载数据进行格式转化处理得到待清洗数据;S2、根据预设规则对所述待清洗数据进行清洗过滤处理得到清洗数据,根据完整性规则、唯一性规则、一致性规则、合法性规则和权威性规则对所述清洗数据进行校验,若校验成功,则将所述清洗数据保存至第一数据库中。从上述描述可知,本专利技术的有益效果在于:将原始数据装载至第一数据库中得到装载数据,对装载数据进行格式转化处理得到待清洗数据,格式转化后避免格式杂乱,便于后续的数据清洗;之后根据预设原则对待清洗数据进行清洗过滤处理得到清洗数据,然后根据完整性规则、唯一性规则、一致性规则、合法性规则和权威性规则对清洗数据进行校验,校验成功的清洗数据才能够保存至第一数据库中,保证存入第一数据库中的清洗数据满足要求,从而能够减少数据质量问题。进一步地,所述S2还包括:若校验不成功本文档来自技高网...
【技术保护点】
1.一种固定资产投资项目数据清洗方法,其特征在于,包括:/nS1、将原始数据通过数据装载的方式装载至第一数据库中得到装载数据,所述数据装载的方式包括基本装载、追加装载和合并装载,按照所述第一数据库格式对所述装载数据进行格式转化处理得到待清洗数据;/nS2、根据预设规则对所述待清洗数据进行清洗过滤处理得到清洗数据,根据完整性规则、唯一性规则、一致性规则、合法性规则和权威性规则对所述清洗数据进行校验,若校验成功,则将所述清洗数据保存至第一数据库中。/n
【技术特征摘要】
1.一种固定资产投资项目数据清洗方法,其特征在于,包括:
S1、将原始数据通过数据装载的方式装载至第一数据库中得到装载数据,所述数据装载的方式包括基本装载、追加装载和合并装载,按照所述第一数据库格式对所述装载数据进行格式转化处理得到待清洗数据;
S2、根据预设规则对所述待清洗数据进行清洗过滤处理得到清洗数据,根据完整性规则、唯一性规则、一致性规则、合法性规则和权威性规则对所述清洗数据进行校验,若校验成功,则将所述清洗数据保存至第一数据库中。
2.根据权利要求1所述的固定资产投资项目数据清洗方法,其特征在于,所述S2还包括:
若校验不成功,则分析所述清洗数据,判断所述清洗数据是否为可自动纠错数据;
若是,则对所述清洗数据进行自动纠错得到纠错数据,将所述纠错数据保存至第一数据库中;
若否,则根据所述清洗数据的区划归属地进行分类保存至第二数据库中,并同时保存所述清洗数据的错误描述和错误数据字段。
3.根据权利要求2所述的固定资产投资项目数据清洗方法,其特征在于,所述若否,则根据所述清洗数据的区划归属地进行分类并保存至第二数据库中,并同时保存所述清洗数据的错误描述和错误数据字段之后还包括:
获取根据所述清洗数据的错误描述和错误数据字段对所述清洗数据进行处理得到的处理数据,若所述处理数据已处理成功,则将所述处理数据保存至第一数据库中。
4.根据权利要求1所述的固定资产投资项目数据清洗方法,其特征在于,所述预设规则包括基础预设规则和新增预设规则;
统计并监控根据预设规则对所述待清洗数据进行清洗过滤处理得到清洗数据的数据质量和数据数量,分别获取在基础预设规则中添加新增预设规则前、后的预设时间段内对所述待清洗数据进行清洗过滤处理得到清洗数据的前数据质量、前数据数量以及后数据质量和后数据数量,将前数据质量和前数据数量分别与所述后数据质量和后数据数量进行对比得到对比结果,根据对比结果判断是否进行告警。
5.一种固定资产投资项目数据清洗终端,包...
【专利技术属性】
技术研发人员:张美跃,黄君,范章华,
申请(专利权)人:恒瑞通福建信息技术有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。