本申请提供一种数据分级处理方法、装置、设备和存储介质。该方法包括:通过自然语言处理对新增字段进行分词处理,得到至少一个第一数据标签;根据数据分级规则库中的第二数据标签对应的分级级别,得到每个第一数据标签的分级级别;根据至少一个第一数据标签的分级级别,确定新增字段的分级级别;将新增字段作为新的数据标签,并将新的数据标签以及新的数据标签对应的分级级别存储至数据分级规则库。本实施例降低了人工参与数据分级的干预程度,减少了因个人主观因素掺杂到分级内容中的情况,提高了流程的可用性和自动化,提高了分级准确率,同时实现了数据分级规则库的自动扩充。同时实现了数据分级规则库的自动扩充。同时实现了数据分级规则库的自动扩充。
【技术实现步骤摘要】
数据分级处理方法、装置、设备和存储介质
[0001]本申请涉及信息安全领域,尤其涉及一种数据分级处理方法、装置、设备和存储介质。
技术介绍
[0002]随着云计算、大数据的快速发展,政府部门以及各类企业通过各种途径收集了大量数据,用来进行数据分析研究并根据分析研究结果进行决策制定。收集到的敏感数据涉及个人隐私信息、财产信息、企业基础信息等等,若出现数据泄露或数据滥用事件将会给数据的使用者以及拥有者造成损失,因此如何提高数据使用过程的安全性,是数据安全领域的重要课题。
[0003]数据分类分级是数据安全的前提,准确高效的定义分级级别是数据共享开放的基础,数据只有在确认了分级级别的情况下,才能定义共享开放级别,从而保证数据流通的安全性。现行的分级技术主要是从字段内容出发,即根据字段的实际数据内容,如“身份证号码”、“手机号码”、“姓名”等,通过编写正则表达式,匹配数据内容。
[0004]然而,实际情况中绝大部分的字段并不含有实际的数据内容,这给数据分级带来了很大的难度。
技术实现思路
[0005]本申请提供一种数据分级处理方法、装置、设备和存储介质,以解决现有技术中存在的对不含有实际的数据内容的字段分级难度大的缺陷。
[0006]一方面,本申请提供一种数据分级处理方法,包括:
[0007]通过自然语言处理对新增字段进行分词处理,得到至少一个第一数据标签;
[0008]根据数据分级规则库中的第二数据标签对应的分级级别,得到每个第一数据标签的分级级别,所述分级级别用于指示所述第一数据标签的敏感程度;
[0009]根据所述至少一个第一数据标签的分级级别,确定所述新增字段的分级级别;
[0010]将所述新增字段作为新的数据标签,并将所述新的数据标签以及所述新的数据标签对应的分级级别存储至所述数据分级规则库。
[0011]可选的,所述根据数据分级规则库中的第二数据标签对应的分级级别,得到每个第一数据标签的分级级别,包括:
[0012]若所述数据分级规则库中存在与所述第一数据标签相同的第二数据标签,则将所述第二数据标签的分级级别作为所述第一数据标签的分级级别。
[0013]可选的,所述根据数据分级规则库中的第二数据标签对应的分级级别,得到每个第一数据标签的分级级别,包括:
[0014]若所述数据分级规则库中不存在与所述第一数据标签相同的第二数据标签,则将第一预设分级级别作为所述第一数据标签的分级级别。
[0015]可选的,所述将第一预设分级级别作为所述第一数据标签的分级级别之前,所述
方法还包括:
[0016]获取所述数据分级规则库中预设数量的第二数据标签对应的分级级别的平均值;
[0017]根据所述平均值得到所述第一预设分级级别。
[0018]可选的,所述根据所述至少一个第一数据标签的分级级别,确定所述新增字段的分级级别,包括:
[0019]对所述至少一个第一数据标签的分级级别数据进行加权平均,得到所述新增字段的分级级别。
[0020]可选的,所述将所述新的数据标签以及所述新的数据标签对应的分级级别存储至所述数据分级规则库之前,所述方法还包括:
[0021]若所述新增字段为被标记的新增字段;
[0022]判断所述新增字段的分级级别是否小于第二预设分级级别;
[0023]若小于,则将所述新增字段的分级级别更新为所述第二预设分级级别;
[0024]对应地,所述将所述新的数据标签以及所述新的数据标签对应的分级级别存储至所述数据分级规则库,包括:
[0025]将所述新的数据标签以及所述新的数据标签对应的第二预设分级级别存储至所述数据分级规则库。
[0026]可选的,所述方法还包括:
[0027]建立原始数据集合,所述原始数据集合包括最小颗粒度的第二数据标签;
[0028]确定每个所述第二数据标签的分级级别;
[0029]根据每个所述第二数据标签以及对应的所述分级级别,得到所述数据分级规则库。
[0030]第二方面,本申请提供一种数据分级处理装置,包括:
[0031]处理模块,用于通过自然语言处理对新增字段进行分词处理,得到至少一个第一数据标签;
[0032]所述处理模块,还用于根据数据分级规则库中的第二数据标签对应的分级级别,得到每个第一数据标签的分级级别,所述分级级别用于指示所述第一数据标签的敏感程度;
[0033]确定模块,用于根据所述至少一个第一数据标签的分级级别,确定所述新增字段的分级级别;
[0034]存储模块,用于将所述新增字段作为新的数据标签,并将所述新的数据标签以及所述新的数据标签对应的分级级别存储至所述数据分级规则库。
[0035]可选的,所述处理模块,具体用于若所述数据分级规则库中存在与所述第一数据标签相同的第二数据标签,则将所述第二数据标签的分级级别作为所述第一数据标签的分级级别。
[0036]可选的,所述处理模块,还具体用于若所述数据分级规则库中不存在与所述第一数据标签相同的第二数据标签,则将第一预设分级级别作为所述第一数据标签的分级级别。
[0037]可选的,所述处理模块,还用于获取所述数据分级规则库中预设数量的第二数据标签对应的分级级别的平均值;
[0038]根据所述平均值得到所述第一预设分级级别。
[0039]可选的,所述确定模块,具体用于对所述至少一个第一数据标签的分级级别数据进行加权平均,得到所述新增字段的分级级别。
[0040]可选的,所述数据分级处理装置还包括:判断模块和更新模块,
[0041]若所述新增字段为被标记的新增字段,所述判断模块,用于判断所述新增字段的分级级别是否小于第二预设分级级别;
[0042]所述更新模块,用于在所述新增字段的分级级别小于第二预设分级级别时,将所述新增字段的分级级别更新为所述第二预设分级级别;
[0043]所述存储模块,还用于将所述新的数据标签以及所述新的数据标签对应的第二预设分级级别存储至所述数据分级规则库。
[0044]可选的,所述处理模块,还用于建立原始数据集合,所述原始数据集合包括最小颗粒度的第二数据标签;
[0045]所述确定模块,还用于确定每个所述第二数据标签的分级级别,根据每个所述第二数据标签以及对应的所述分级级别,得到所述数据分级规则库。
[0046]第三方面,本申请提供一种数据分级处理设备,包括:
[0047]存储器;
[0048]处理器;
[0049]其中,所述存储器存储计算机执行指令;
[0050]所述处理器执行所述存储器存储的计算机执行指令,以实现如上述第一方面及第一方面各种可能的实现方式所述的数据分级处理方法。
[0051]第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如上述第一方面及第一方面各种可能的实现方式所述的数据分本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种数据分级处理方法,其特征在于,包括:通过自然语言处理对新增字段进行分词处理,得到至少一个第一数据标签;根据数据分级规则库中的第二数据标签对应的分级级别,得到每个第一数据标签的分级级别,所述分级级别用于指示所述第一数据标签的敏感程度;根据所述至少一个第一数据标签的分级级别,确定所述新增字段的分级级别;将所述新增字段作为新的数据标签,并将所述新的数据标签以及所述新的数据标签对应的分级级别存储至所述数据分级规则库。2.根据权利要求1所述的方法,其特征在于,所述根据数据分级规则库中的第二数据标签对应的分级级别,得到每个第一数据标签的分级级别,包括:若所述数据分级规则库中存在与所述第一数据标签相同的第二数据标签,则将所述第二数据标签的分级级别作为所述第一数据标签的分级级别。3.根据权利要求1所述的方法,其特征在于,所述根据数据分级规则库中的第二数据标签对应的分级级别,得到每个第一数据标签的分级级别,包括:若所述数据分级规则库中不存在与所述第一数据标签相同的第二数据标签,则将第一预设分级级别作为所述第一数据标签的分级级别。4.根据权利要求3所述的方法,其特征在于,所述将第一预设分级级别作为所述第一数据标签的分级级别之前,所述方法还包括:获取所述数据分级规则库中预设数量的第二数据标签对应的分级级别的平均值;根据所述平均值得到所述第一预设分级级别。5.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个第一数据标签的分级级别,确定所述新增字段的分级级别,包括:对所述至少一个第一数据标签的分级级别数据进行加权平均,得到所述新增字段的分级级别。6.根据权利要求1所述的方法,其特征在于,所述将所述新的数据标签以及所述新的数据标签对应的分级级别存储至所述数据分级规则库之前,所述方法...
【专利技术属性】
技术研发人员:周莉,栾泽琳,
申请(专利权)人:联通大数据有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。