一种快速分类分级方法技术

技术编号:35953591 阅读:19 留言:0更新日期:2022-12-14 10:47
本发明专利技术公开了一种快速分类分级方法,包括:数据分类分级模块、分流解析模块、多个识别处理模块,识别处理模块还包括识别处理模块一、识别处理模块二和识别处理模块三,分类分级模块与识别处理模块一、识别处理模块二和识别处理模块三交互连接,识别处理模块一、识别处理模块二和识别处理模块三与分流解析模块连接,采用将单个字段拼接,通过大字段进行识别传输,加快后期解析速度,针对每个库和表进行分类分级,针对多个类型识别器,可以将各种类型识别器进行标号,放置在一个总的类型识别中,这样在进行识别时,可以进行一次操作,就将所有的类型识别器执行完成,并通过结果中的标号来匹配具体是哪种类型,加快反馈速度,提高数据传输速度。数据传输速度。数据传输速度。

【技术实现步骤摘要】
一种快速分类分级方法


[0001]本专利技术涉及数据处理
,具体为一种快速分类分级方法。

技术介绍

[0002]随着监管合规的不断深入,公司主体对系统数据的认识要求越来越高,这其中重要的一环,就是对数据按照国家法律法规要求进行分类分级但是目前的分类分级主要有以下问题,数据量比较大,要识别的类型比较多;比如在关系型数据库中,会发现包含有很多个数据库,每个数据库中包含有多张表,每个表中包含有多个字段,每个字段都会有多行数据,特别的有的表会包含百万,千万数据;识别的类型多是指数据的种类多,包含隐私数据,财务数据,位置数据,等等;比如一家公司有20个库,每个库10张表,每个表10个字段,每个字段会有万行以上数据;如果识别的类型为50种类型,则需要进行操作20*10*10*100(抽样万行数据)*50=10000000次,每次运行1ms,则需要运行1w秒,大概需要2.8个小时才能运行完成,整体处理速度较慢,大大影响数据的传输,为此,需要一种快速分类分级方法。

技术实现思路

[0003]本专利技术的目的在于提供一种快速分类分级方法,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种快速分类分级方法,包括:数据分类分级模块、分流解析模块、多个识别处理模块,识别处理模块还包括识别处理模块一、识别处理模块二和识别处理模块三,分类分级模块与识别处理模块一、识别处理模块二和识别处理模块三交互连接,识别处理模块一、识别处理模块二和识别处理模块三与分流解析模块连接;r/>[0005]其中,数据分类分级模块用于对多个数据库进行分别分类和分级处理;
[0006]其中,数据分类分级模块中还包括调度模块,用于对数据库进行分配调度;
[0007]其中,数据分类分级模块中还包括解析模块,解析模块为服务器识别处理,通过rpc调用到其它应用分析机器进行数据处理,处理完成后,返回分析结果到分类分级模块中;
[0008]其中,数据分类分级模块还包括组装模块,根据解析模块的分析结果,和分配数据库的分配数据进行对应,组装数据,一起写入到分析结果数据库中进行存储。
[0009]优选的,数据分类分级模块中分类根据数据的用途和含义去定义数据,分级依据数据分类的结果以及数据价值对数据进行分级,不同数据库和数据表采用不同分类分级方法。
[0010]优选的,在数据分类分级模块中的调度模块中,每个服务器根据分配的数据库进行分类分级,调度服务器通过分类分级应用调用不同的应用服务器进行分类分级识别处理。
[0011]优选的,在识别处理模块一、识别处理模块二和识别处理模块三中,根据每个数据
库中表的数量分配线程数量,每个表单独分配一个线程,组成线程并发,单个线程识别单个表。
[0012]优选的,识别处理模块一、识别处理模块二和识别处理模块三还包括数据组装模块,在线程并发识别单个表完成后,使用BaseApiWrapeer进行组装识别数据和每个表的原始数据信息。
[0013]优选的,服务器采用linux虚拟机服务器。
[0014]优选的,在分流解析模块中,使用识别处理模块一、识别处理模块二和识别处理模块三中数据组装模块中的数据包,对数据包进行字段拼接和处理器组装。
[0015]优选的,数据分类分级模块中还包括数据冗余模块,在分类分级模块中出现字段多处重复统一通过数据冗余模块记录保存。
[0016]与现有技术相比,本专利技术的有益效果是:
[0017]本专利技术中,针对每个库的每张表,充分利用计算机分布式多线程进行并发处理,每个表单独进行线程分析,加快每张表的分析速度;
[0018]本专利技术中,针对每张表数据的多个字段,每个字段多行数据,采用将单个字段拼接,得到一个大字段,通过大字段进行识别传输,加快后期解析速度;
[0019]本专利技术中,针对每个库和表进行分类分级,针对多个类型识别器,可以将各种类型识别器进行标号,放置在一个总的类型识别中,这样在进行识别时,可以进行一次操作,就将所有的类型识别器执行完成,并通过结果中的标号来匹配具体是哪种类型,加快反馈速度,提高数据传输速度。
附图说明
[0020]图1为本专利技术速分类分级方法的流程示意图。
具体实施方式
[0021]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]请参阅图1,本专利技术提供一种技术方案:
[0023]实施例一
[0024]一种快速分类分级方法,包括:数据分类分级模块、分流解析模块、多个识别处理模块,识别处理模块还包括识别处理模块一、识别处理模块二和识别处理模块三,分类分级模块与识别处理模块一、识别处理模块二和识别处理模块三交互连接,识别处理模块一、识别处理模块二和识别处理模块三与分流解析模块连接;
[0025]其中,数据分类分级模块用于对20个数据库进行分别分类和分级处理;
[0026]其中,数据分类分级模块中还包括调度模块,用于对数据库进行分配调度,其中分配调度中创建5个linux虚拟机服务器,每个服务器分配4个数据库进行分类分级;
[0027]其中,数据分类分级模块中还包括解析模块,解析模块为服务器识别处理,通过rpc调用到其它应用分析机器进行数据处理,处理完成后,返回分析结果到分类分级模块
中;
[0028]其中,数据分类分级模块还包括组装模块,根据解析模块的分析结果,和分配数据库的分配数据进行对应,组装数据,一起写入到分析结果数据库中进行存储。
[0029]具体的,数据分类分级模块中分类根据数据的用途和含义去定义数据,分级依据数据分类的结果以及数据价值对数据进行分级,不同数据库和数据表采用不同分类分级方法,在进行分类分级实施过程中,首先建立内部数据分类分级标准规范,梳理形成内部数据分类分级目录,使用分类分级工具对数据进行扫描,并分类分级,建立数据标识表,可分为嵌入标识(与数据绑定,主要应用到数据共享利用)和分离标识(与数据松耦合并关联,主要应用到业务数据库或者大数据平台的访问控制和审计),使用数据标识应用到:(1)业务数据访问控制;(2)业务数据安全审计;(3)数据对外共享利用,根据一定规则对数据标示表进行更新。
[0030]具体的,在数据分类分级模块中的调度模块中,每个服务器根据分配的数据库进行分类分级,调度服务器通过分类分级应用调用不同的应用服务器进行分类分级识别处理,调度服务器和应用服务器均采用linux虚拟机服务器,在进行分类分级过程中,创建多个类型识别器,针对多个类型识别器,可以将各种类型识别器进行标号,放置在一个总的类型识别中,这样在进行识别时,可以进行一次操作,就将所有的类型识别器执行完成,并通过结果中的标号来匹配具体是哪种类型。...

【技术保护点】

【技术特征摘要】
1.一种快速分类分级方法,其特征在于,包括:数据分类分级模块、分流解析模块、多个识别处理模块,识别处理模块还包括识别处理模块一、识别处理模块二和识别处理模块三,分类分级模块与识别处理模块一、识别处理模块二和识别处理模块三交互连接,识别处理模块一、识别处理模块二和识别处理模块三与分流解析模块连接;其中,数据分类分级模块用于对多个数据库进行分别分类和分级处理;其中,数据分类分级模块中还包括调度模块,用于对数据库进行分配调度;其中,数据分类分级模块中还包括解析模块,解析模块为服务器识别处理,通过rpc调用到其它应用分析机器进行数据处理,处理完成后,返回分析结果到分类分级模块中;其中,数据分类分级模块还包括组装模块,根据解析模块的分析结果,和分配数据库的分配数据进行对应,组装数据,一起写入到分析结果数据库中进行存储。2.根据权利要求1所述的一种快速分类分级方法,其特征在于:数据分类分级模块中分类根据数据的用途和含义去定义数据,分级依据数据分类的结果以及数据价值对数据进行分级,不同数据库和数据表采用不同分类分级方法。3.根据权利要求1所述的一种快速分类分级方法,其特征在于:在数据分类分级模块中的...

【专利技术属性】
技术研发人员:冯春培张英王世纪薛峰张俊林博邱伟峰楼景华沈健赵雯尔
申请(专利权)人:杭州用九智汇科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1