一种基于数据属性分类分级的数据安全风险识别方法技术

技术编号:38083069 阅读:10 留言:0更新日期:2023-07-06 08:49
本发明专利技术一种基于数据属性分类分级的数据安全风险识别方法。解决现有通过自动分级对数据进行安全风险识别,存在无法准确计算数据安全时间的危害程度,难以满足数据分类多样性需求的问题。包括收集目标信息系统数据,对收集数据进行预处理,进行属性判断对数据进行分类,设定数据级别;建立支持向量机,将数据级别标记后的训练数据对支持向量机进行训练,获取风险识别模型;将采集的数据用风险识别模型进行安全风险识别。本发明专利技术利用数据属性分类分级,采用支持向量机分类法对数据级别进行判断,识别出数据安全风险级别,让系统准确判定安全性。本发明专利技术方法操作简单,数据可解释性强,抗干扰效果好,能获得较为准确的数据结果。能获得较为准确的数据结果。能获得较为准确的数据结果。

【技术实现步骤摘要】
一种基于数据属性分类分级的数据安全风险识别方法


[0001]本专利技术涉及数据处理
,尤其是涉及一种基于数据属性分类分级的数据安全风险识别方法。

技术介绍

[0002]根据《数据安全法》第二十一条要求,建立数据分类分级保护制度,根据数据在经济社会发展中的重要程度,以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利益或者个人、组织合法权益造成的危害程度,对数据实行分类分级保护。国家数据安全工作协调机制统筹协调有关部门制定重要数据目录,加强对重要数据的保护。各行业紧跟法律要求制定行业标准,电信、金融行业已出台了相关标准并予以实施。
[0003]现有安全系统一般通过自动分级对数据进行安全风险识别,数据自动分级主要依靠数据内容进行分级,根据数据内容将数据库中的数据分为重要数据、核心数据、一般数据等级别。该方法的目的是对数据库的中的字段、表 、库等级别的数据进行分类分级,当数据泄漏等数据安全事件发生时,无法准确计算数据安全事件的危害程度,难以满足数据分类分级的多样性需求。

技术实现思路

[0004]本专利技术主要是解决现有技术中通过自动分级对数据进行安全风险识别,存在无法准确计算数据安全时间的危害程度,难以满足数据分类多样性需求的问题,提供了一种基于数据属性分类分级的数据安全风险识别方法。其中数据分类分级是基于数据属性进行判断,从而对其进行差异化管理的过程。数据分类分级是以数据为基础的应用,数据分类分级通常使用数据的内容为依据。
[0005]本专利技术的上述技术问题主要是通过下述技术方案得以解决的:一种基于数据属性分类分级的数据安全风险识别方法,包括以下步骤:S1.收集目标信息系统数据;收集的数据包括web服务器日志、数据库使用日志、网络流量等。
[0006]S2.对收集数据进行预处理,将数据格式化;S3.进行属性判断对数据进行分类,根据分类设定数据级别;S4.根据数据级别建立支持向量机,将数据级别标记后的训练数据对支持向量机进行训练,获取风险识别模型;S5.将采集的数据用风险识别模型进行安全风险识别。通过风险识别模型判断数据的级别,根据数据级别获得数据的安全风险程度,实现对数据分类分级的管理,同时实现重点数据使用情况的监测,数据挖掘的判定结果可以通过数据接口和数据挖掘报告作为最终支持向量机的产出。
[0007]本专利技术利用数据属性分类分级,通过统计数据总量、计算数据维度、识别数据类型提取所需特征值,采用支持向量机分类法对数据级别进行判断,识别出数据安全风险级别,
让系统准确判定安全性。本专利技术方法操作简单,数据可解释性强,抗干扰效果好,能获得较为准确的数据结果,达到性能和效果的平衡。
[0008]作为一种优选方案,所述步骤S2具体过程包括:对于结构化数据,保留结构;对于非结构数据,对数据进行分词,提取词组获得词组集合。
[0009]作为一种优选方案,所述S3具体过程包括:S31.对数据内容的属性进行识别并分类,获取分类数据;对内容属性识别方法包括正则表达式、数据字典导入。分类的结果包括个人信息、企业信息、不可识别信息。
[0010]S32.根据分类数据形成指标数据;S33.考虑数量和维度进行多维组合设定数据级别。
[0011]作为一种优选方案,所述步骤S32具体过程包括:将数据总量作为参考特征值,计作D1;将数据维度作为参考特征值,计作D2;计算数据总量和数据维度的商值作为参考特征值,解读为数据密度,计作D3;计算数据分类结果中无法识别信息类的数量,计作D4;计算数据分类结果中属于个人信息类的数量,计作D5;计算数据分类结果中属于企业信息类的数量,计作D6;计算个人信息数量与企业信息数量的商值作为参考特征值,解读为有意义数据比例,计作D7。
[0012]综合数据的来源、数据量级、数据维度、数据类型形成指标数据,如数据总量、数据维度、数据密度、个人信息数、企业信息数、无法识别信息数、有意义数据比例,用于对数据级别的判定。
[0013]作为一种优选方案,所述步骤S33具体过程包括:以个人信息或企业信息数量和无法识别信息数量为两个考虑维度,将数据分为四级,分别为:A分级数据:不包含或仅包含少量个人信息或企业信息,包含数据量较少,无法识别信息数据量较少;该类数据被认为安全风险较低,不属于重点关注数据。
[0014]B分级数据:包含个人信息或企业信息较少,包含数据量较大,无法识别信息数据量较多;该类数据被认为安全风险中等,属于一般关注数据。
[0015]C分级数据:包含大量个人信息或企业信息,无法识别信息数据量较少;该类数据被认为安全风险较高,需要重点关注。
[0016]D分级数据:包含大量个人信息或企业信息,同时包含大量无法识别信息;该类数据被认为可能经过一定加密或混淆,或通过该类信息可导致个人信息与其他信息相互关联进而导致精准个人信息泄漏,安全风险极高,需要重点关注。
[0017]作为一种优选方案,所述步骤S4具体过程包括:S41.根据数据分级的数量确定支持向量机构建数量,分别建立支持向量机,其中支持向量机数量为n*(n

1)/2,n为分级数据数量;S42.将预处理后的数据作为训练样本,根据数据级别对训练样本进行标注,将标志后各类样本各自随机分为训练集和测试集,其中训练集占70%,测试集占30%,使用训练集
分别对各个支持向量机进行训练,训练后获得风险识别模型。
[0018]作为一种优选方案,所述步骤S42中根据数据级别对训练样本进行标注,分别对各个支持向量机进行训练,过程包括:将训练样本根据四种分级数据以ABCD进行标注,分别对六个支持向量机进行训练;训练样本的分配根据每个向量机要关注的重点,关注的重点根据指标数据进行划分。
[0019]训练支持向量机C(A,B),将A训练样本作为A类型样本,将BCD作为B类样本;该支持向量机重点关注数据总量少的样本,将BCD类视为同一类样本;训练支持向量机C(A,C),将ABD训练样本作为A类型样本,将C作为C类样本;该支持向量机重点关注可识别数据密度,将ABD视为同一类样本;训练支持向量机C(A,D),将ABC训练样本作为A类型样本,将D作为D类样本;该支持向量机重点关注非高危样本,将ABC视为同一类样本;训练支持向量机C(B,C),将AB训练样本作为B类型样本,将CD作为C类样本;该支持向量机重点关注可识别数据维度与数量,将AB视为同一类样本,将CD视为同一类样本;训练支持向量机C(B,D),将BC训练样本作为B类型样本,将BAD作为D类样本;该支持向量机重点关注数据量大的无法识别样本,将ACD视为同一类样本;训练支持向量机C(C,D),将AC训练样本作为C类型样本,将BD作为D类样本。该支持向量机重点关注无法识别数据数量,将AC视为同一类样本,将BD视为同一类样本。
[0020]作为一种优选方案,所述步骤S42中获得的风险识别模型,其识别过程包括:将数据格式化后输入风险识别模型,对于支持向量机C(A,B),若判断结果为A类型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据属性分类分级的数据安全风险识别方法,其特征在于:包括以下步骤:S1.收集目标信息系统数据;S2.对收集数据进行预处理,将数据格式化;S3.进行属性判断对数据进行分类,根据分类设定数据级别;S4.根据数据级别建立支持向量机,将数据级别标记后的训练数据对支持向量机进行训练,获取风险识别模型;S5.将采集的数据用风险识别模型进行安全风险识别。2.根据权利要求1所述的一种基于数据属性分类分级的数据安全风险识别方法,其特征是所述步骤S2具体过程包括:对于结构化数据,保留结构;对于非结构数据,对数据进行分词,提取词组获得词组集合。3.根据权利要求2所述的一种基于数据属性分类分级的数据安全风险识别方法,其特征是所述S3具体过程包括:S31.对数据内容的属性进行识别并分类,获取分类数据;S32.根据分类数据形成指标数据;S33.考虑数量和维度进行多维组合设定数据级别。4.根据权利要求3所述的一种基于数据属性分类分级的数据安全风险识别方法,其特征是所述步骤S32具体过程包括:将数据总量作为参考特征值,计作D1;将数据维度作为参考特征值,计作D2;计算数据总量和数据维度的商值作为参考特征值,解读为数据密度,计作D3;计算数据分类结果中无法识别信息类的数量,计作D4;计算数据分类结果中属于个人信息类的数量,计作D5;计算数据分类结果中属于企业信息类的数量,计作D6;计算个人信息数量与企业信息数量的商值作为参考特征值,解读为有意义数据比例,计作D7。5.根据权利要求3所述的一种基于数据属性分类分级的数据安全风险识别方法,其特征是所述步骤S33具体过程包括:以个人信息或企业信息数量和无法识别信息数量为两个考虑维度,将数据分为四级,分别为:A分级数据:不包含或仅包含少量个人信息或企业信息,包含数据量较少,无法识别信息数据量较少;B分级数据:包含个人信息或企业信息较少,包含数据量较大,无法识别信息数据量较多;C分级数据:包含大量个人信息或企业信息,无法识别信息数据量较少;D分级数据:包含大量个人信息或企业信息,同时包含大量无法识别信息。6.根据权利要求5所述的一种基于数据属性分类分级的数据安全风险识别方法,其特征是所述步骤S4具体过程包括:S41.根据数据分级的数量确定支持向量机构建数量,分别建立支持向量机,其中支持
向量机数量为n*(n

1)/2,n为分级数据数量;S42.将预处理后的数据作为训练样本,根据数据级别对训练样本进行标注,将标志后各类样本各自随机分为训练集和测试集,使用训练集分别对各个支持向量机进行训练,训练后获得风险识别模型。7.根据权利...

【专利技术属性】
技术研发人员:邱云翔黄莹彭畅李晋李博谢晓刚王璐
申请(专利权)人:华信咨询设计研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1