一种用于处理不信任数据的数据处理系统及处理方法技术方案

技术编号:19186533 阅读:35 留言:0更新日期:2018-10-17 02:17
本发明专利技术公开了一种用于处理不信任数据的数据处理系统及处理方法,其中,所述数据处理系统包括物理防火墙和至少两台虚拟机,优选包括第一虚拟机(1)、第二虚拟机(2)和物理防火墙(3),其中,所述第一虚拟机(1)和第二虚拟机(2)处于不同的局域网中;所述方法如下进行:先在第一虚拟机(1)中进行数据预处理,并传输给物理防火墙(3),然后在物理防火墙(3)内进行数据查杀,并输出给第二虚拟机(2),最后在第二虚拟机(2)内进行数据复核及再处理,并将处理后的数据通过物理防火墙(3)传输给数据分析系统进行数据分析。本发明专利技术采用虚拟机从而减少了对物理机的损坏,巧妙地利用物理防火墙的包过滤技术对不信任数据进行查杀。

A data processing system and processing method for handling mistrust data

The present invention discloses a data processing system and a processing method for processing untrusted data, wherein the data processing system comprises a physical firewall and at least two virtual machines, preferably including a first virtual machine (1), a second virtual machine (2) and a physical firewall (3), wherein the first virtual machine (1) and the second virtual machine (2) The method is as follows: first, data preprocessing is performed in the first virtual machine (1) and transmitted to the physical firewall (3), then data checking and killing is performed in the physical firewall (3), and output to the second virtual machine (2), finally data checking and reprocessing is carried out in the second virtual machine (2), and then data processing is performed in the physical firewall (3). The data after analysis are transmitted to the data analysis system through physical firewall (3) for data analysis. The invention adopts the virtual machine to reduce the damage to the physical machine and skillfully uses the packet filtering technology of the physical firewall to check and kill the untrusted data.

【技术实现步骤摘要】
一种用于处理不信任数据的数据处理系统及处理方法
本专利技术涉及数据处理领域,尤其涉及不信任数据处理,特别地,涉及一种用于处理不信任数据的数据处理系统及处理方法。
技术介绍
不信任数据是指数据源为网络或无法认证可靠性的数据供应商,其可能含有病毒或木马程序,若直接将这些数据接入系统进行数据分析,会造成不可估量的损失。并且,在不信任数据中可能存在一些后期分析时不需要的垃圾数据,如果不对所述垃圾数据在数据分析前进行处理,很可能会增大数据分析的难度,并且导致数据分析结果不精确等。因此,在对不信任数据进行分析前需进行不信任数据处理。在现有技术中,一般采用杀毒软件进行不信任数据分析前处理,但是,采用杀毒软件只能进行杀毒,而不能对数据进行筛选处理,过滤掉不需要的垃圾数据,从而减轻后期分析的工作量。因此,亟需一种不信任数据在进行数据分析前的数据处理系统及处理方法。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究,设计出一种不信任数据处理系统及处理方法,其中,采用多台虚拟机与物理防火墙联用,对不信任数据进行多重处理与检查,不仅可以排除数据中的有害内容,提高数据的可用性,而且减少潜在的对后期数据分析系统的威胁,从而完成本专利技术。本专利技术一方面提供了一种,具体体现在以下方面:(1)一种用于处理不信任数据的数据处理系统,其中,所述不信任数据经所述数据处理系统处理后输出给数据分析系统,进行数据分析,其中,所述数据处理系统包括物理防火墙和至少两台虚拟机,其中,所述虚拟机中至少有两台虚拟机处于不同的局域网中。(2)根据上述(1)所述的数据处理系统,其中,所述数据处理系统包括第一虚拟机1、第二虚拟机2和物理防火墙3,其中,所述第一虚拟机1和所述第二虚拟机2处于不同的局域网中;所述不信任数据通过物理防火墙3从第一虚拟机1传输给第二虚拟机2,再由第二虚拟机2通过物理防火墙3输出至数据分析系统;所述第一虚拟机1用于对不信任数据进行预处理,所述物理防火墙3用于预处理后的数据进行查杀,所述第二虚拟机用于对查杀后的数据进行数据核实及再处理。(3)根据上述(1)或(2)所述的数据处理系统,其中,所述第一虚拟机1包括数据接收模块11,用于接收需要处理的不信任数据;数据预处理模块12,用于对第一虚拟机1接收的不信任数据进行预处理;和数据输出与统计模块13,用于将第一虚拟机1预处理后的数据输出给物理防火墙3,并对输出数据中的文件个数进行统计。(4)根据上述(1)至(3)之一所述的数据处理系统,其中,所述数据预处理模块12包括空文件处理子模块121,用于搜索不信任数据中的空文件,并对搜索到的空文件移动至文件回收站;属性筛选子模块122,用于通过文件属性筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;和稀疏文件处理子模块123,用于对稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,其中,所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件;优选地,所述数据预处理模块12还包括可执行文件处理子模块124,用于搜索不信任数据中的可执行文件,并进行过滤处理;非二进制文件处理子模块125,用于搜索不信任数据中的非二进制文件,并进行过滤处理;有损文件处理子模块126,用于搜索不信任数据中的有损文件,并进行过滤处理;和暂不分析文件处理子模块127,用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。(5)根据上述(1)至(4)之一所述的数据处理系统,其中,所述第二虚拟机2包括数据接收与统计模块21,用于接收物理防火墙3传输的查杀后的数据,并对所述数据中的文件个数进行统计;数据复核模块22,用于将所述数据接收与统计模块21得到的文件统计结果与所述数据输出与统计模块13得到的文件统计结果进行比对,以确定在物理防火墙3的查杀过程中是否有文件丢失;和数据输出模块23,用于将经第二虚拟机2再处理后的数据输出给物理防火墙3;任选地,还包括数据再处理模块24,用于对查杀后的数据进行再处理。(6)根据上述(1)至(5)之一所述的数据处理系统,其中,所述数据再处理模块24包括空文件再处理子模块241,用于搜索经查杀后的数据中的空文件,并对搜索到的空文件移动至文件回收站;属性再筛选子模块242,用于通过文件属性在经查杀后的数据中筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;稀疏文件再处理子模块243,用于对经查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站;可执行文件再处理子模块244,用于搜索经查杀后的数据中的可执行文件,并进行过滤处理;非二进制文件再处理子模块245,用于搜索经查杀后的数据中的非二进制文件,并进行过滤处理;有损文件再处理子模块246,用于搜索经查杀后的数据中的有损文件,并进行过滤处理;和暂不分析文件再处理子模块247,用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。本专利技术另一方面提供了一种不信任数据的处理方法,具体体现在以下方面:(7)一种不信任数据处理方法,优选利用上述(1)至(6)所述数据处理系统进行,其中,所述方法包括以下步骤:步骤1、获得不信任数据,并在第一虚拟机1内对其进行预处理,并将预处理后的数据输出给物理防火墙3;步骤2、物理防火墙3接收到第一虚拟机1输出的数据,并对其进行查杀,然后将查杀后的数据传输给第二虚拟机2;步骤3、第二虚拟机2接收物理防火墙3传输的数据,并对所述数据进行文件核实和再处理,然后将再处理后的数据再次传输给物理防火墙3;步骤4、物理防火墙3接收到第二虚拟机2输出的数据,并将所述数据输出给数据分析系统,进行数据分析。(8)根据上述(7)所述的方法,其中,步骤1包括以下子步骤:步骤1-1、利用数据接收模块11获得需要处理的不信任数据;步骤1-2、利用数据预处理模块12对所述不信任数据进行预处理,获得预处理后的数据;步骤1-3、将预处理后的数据输出给物理防火墙3,并对输出数据中的文件个数进行统计;步骤3包括以下子步骤:步骤3-1、利用数据接收与统计模块21接收物理防火墙3经过查杀后的数据,并对所述数据中的文件进行文件个数统计;步骤3-2、利用数据复核模块22对数据接收与统计模块21获得的文件统计结果以及数据输出与统计模块13获得的文件统计结果进行复核,分析统计的文件个数是否与步骤1-3中输出时统计的文件个数一致;步骤3-3、利用数据再处理模块24对第二虚拟机2接收到的数据再次进行处理;步骤3-4、利用数据输出模块23将经第二虚拟机2再处理后的数据经过物理防火墙3传输给数据分析系统,进行数据分析。(9)根据上述(7)或(8)所述的方法,其中,步骤1-2包括以下子步骤:步骤1-2-1、利用空文件处理子模块121对不信任数据中的空文件进行搜索,并将搜索到的空文件移动至文件回收站,以便后续处理;步骤1-2-2、利用属性筛选子模块122对不信任数据通过文件属性进行筛选,获得需要分析的文件,并过滤掉不需要的文件,同时将过滤掉的文件移动至文件回收站,以便后续处理;步骤1-2-3、利用稀疏文件处理子模块123对不信任数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,以便后续处理;步本文档来自技高网...

【技术保护点】
1.一种用于处理不信任数据的数据处理系统,其中,所述不信任数据经所述数据处理系统处理后输出给数据分析系统,进行数据分析,其特征在于,所述数据处理系统包括物理防火墙和至少两台虚拟机,其中,所述虚拟机中至少有两台虚拟机处于不同的局域网中。

【技术特征摘要】
1.一种用于处理不信任数据的数据处理系统,其中,所述不信任数据经所述数据处理系统处理后输出给数据分析系统,进行数据分析,其特征在于,所述数据处理系统包括物理防火墙和至少两台虚拟机,其中,所述虚拟机中至少有两台虚拟机处于不同的局域网中。2.根据权利要求1所述的数据处理系统,其特征在于,所述数据处理系统包括第一虚拟机(1)、第二虚拟机(2)和物理防火墙(3),其中,所述第一虚拟机(1)和所述第二虚拟机(2)处于不同的局域网中;所述不信任数据通过物理防火墙(3)从第一虚拟机(1)传输给第二虚拟机(2),再由第二虚拟机(2)通过物理防火墙(3)输出至数据分析系统;所述第一虚拟机(1)用于对不信任数据进行预处理,所述物理防火墙(3)用于预处理后的数据进行查杀,所述第二虚拟机用于对查杀后的数据进行数据核实及再处理。3.根据权利要求1或2所述的数据处理系统,其特征在于,所述第一虚拟机(1)包括数据接收模块(11),用于接收需要处理的不信任数据;数据预处理模块(12),用于对第一虚拟机(1)接收的不信任数据进行预处理;和数据输出与统计模块(13),用于将第一虚拟机(1)预处理后的数据输出给物理防火墙(3),并对输出数据中的文件个数进行统计。4.根据权利要求1至3之一所述的数据处理系统,其特征在于,所述数据预处理模块(12)包括空文件处理子模块(121),用于搜索不信任数据中的空文件,并对搜索到的空文件移动至文件回收站;属性筛选子模块(122),用于通过文件属性筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;和稀疏文件处理子模块(123),用于对稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站,其中,所述稀疏文件指文件的实际占用空间小于系统显示的文件大小的文件;优选地,所述数据预处理模块(12)还包括可执行文件处理子模块(124),用于搜索不信任数据中的可执行文件,并进行过滤处理;非二进制文件处理子模块(125),用于搜索不信任数据中的非二进制文件,并进行过滤处理;有损文件处理子模块(126),用于搜索不信任数据中的有损文件,并进行过滤处理;和暂不分析文件处理子模块(127),用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。5.根据权利要求1至4之一所述的数据处理系统,其特征在于,所述第二虚拟机(2)包括数据接收与统计模块(21),用于接收物理防火墙(3)传输的查杀后的数据,并对所述数据中的文件个数进行统计;数据复核模块(22),用于将所述数据接收与统计模块(21)得到的文件统计结果与所述数据输出与统计模块(13)得到的文件统计结果进行比对,以确定在物理防火墙(3)的查杀过程中是否有文件丢失;和数据输出模块(23),用于将经第二虚拟机(2)再处理后的数据输出给物理防火墙(3);任选地,还包括数据再处理模块(24),用于对查杀后的数据进行再处理。6.根据权利要求1至5之一所述的数据处理系统,其特征在于,所述数据再处理模块(24)包括空文件再处理子模块(241),用于搜索经查杀后的数据中的空文件,并对搜索到的空文件移动至文件回收站;属性再筛选子模块(242),用于通过文件属性在经查杀后的数据中筛选出进行后期数据分析时需要的文件,其中,所述属性包括文件创建日期、文件大小和文件格式;稀疏文件再处理子模块(243),用于对经查杀后的数据中的稀疏文件进行搜索,并将搜索到的稀疏文件移动至文件回收站;可执行文件再处理子模块(244),用于搜索经查杀后的数据中的可执行文件,并进行过滤处理;非二进制文件再处理子模块245),用于搜索经查杀后的数据中的非二进制文件,并进行过滤处理;有损文件再处理子模块(246),用于搜索经查杀后的数据中的有损文件,并进行过滤处理;和暂不分析文件再处理子模块(247),用于对暂时不进行后期分析的文件进行过滤处理,优选为移动至文件回收站。7.一种不信任数据处理方法,优选利用权利要求1至6所述数据处理系统进行,其特征在于,所述方法包括以下步骤:步骤1、获得不信任数据,并在第一虚拟机(1)...

【专利技术属性】
技术研发人员:张守义
申请(专利权)人:北京宸信征信有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1