System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于电力行业数据安全防护,具体涉及一种适用于电力行业的数据分类分级安全算法。
技术介绍
1、随着电力行业的快速发展和智能化程度的提高,电力数据呈现出爆炸式增长。这些数据涵盖了用电家庭信息、设备状态、能耗分析等多个方面,对于电力企业的运营、管理、决策以及电力系统的安全稳定运行具有至关重要的作用。然而,传统的电力数据管理方式已无法满足日益增长的数据处理需求,因此,如何对电力数据进行高效、准确、安全的分类分级成为当前电力行业亟待解决的问题。
2、数据分级是指按照数据对国家安全、公共利益或者个人、组织合法权益的影响和重要程度,对数据进行级别的判定,不同的数据级别采用不同的保护和共享方式。目前,电力行业在数据分类分级方面主要依赖于人工经验和简单的规则判断,这种方式存在诸多不足。人工分类分级效率低下,难以应对大规模数据的处理需求;分类分级结果受人为因素影响较大,缺乏客观性和准确性;对于涉及敏感信息的电力数据,人工处理方式存在较大的安全隐患。
3、针对上述问题,国内外学者和企业开始探索基于机器学习、数据挖掘等技术的电力数据分类分级方法。这些方法通过构建数学模型,自动学习数据特征,实现对电力数据的智能分类分级。电力数据通常具有高维度和复杂性,包含大量的特征。在进行分类分级之前,需要进行特征提取和选择,从原始数据中提取出最具代表性和相关性的特征,以降低维度并提高分类分级的准确性和效率。在数据分类分级中,常用的分类算法包括决策树、支持向量机、神经网络、朴素贝叶斯等。针对不同类型的电力数据和分类任务,选择合适的分类算
技术实现思路
1、本专利技术为了克服上述的不足之处,基于深度学习技术提出一种适用于电力行业的数据分类分级安全算法,本专利技术依据电力行业的数据敏感程度对电力行业中的数据进行分级,并设计了一种适用于电力行业的数据分类分级安全算法,该算法基于深度学习混合模型的数据自动分级方法,模型由适配层、嵌入层、cnn层、bigru层和crf层五部分组成,针对电力行业信息资源目录系统中的数据进行了上下文的特征表示和实体标签的预测。
2、为达到上述目的,本专利技术采用的技术方案是:
3、一种适用于电力行业的数据分类分级安全算法,包括以下步骤:
4、s1:制定明确的分类标准,根据数据的重要性、对电力系统运行的影响程度以及政策法规的要求,同时考虑数据的实时性、完整性、可靠性、保密性,将数据划分为普通数据、重要数据和核心数据这三个级别的数据;
5、s2:将普通数据、重要数据、核心数据进行随机打乱,按6:3:1的比例划分为训练集、验证集和测试集这三个数据集;确认测试集中的数据项与训练集、验证集中的数据项没有重叠。记录每个数据集的数据项编号或标识符,以及划分的比例和大小;
6、s3:搭建适配层为数据分类分级安全防护系统提供接入接口;确定接口所需要的功能和参数,功能包括数据上传、查询、更新、删除;参数包括接口名称、输入参数、输出参数、接口方法;支持的组件主要包括:mysql,hive接口、hbase接口、hdfs接口、spark接口、yarn接口、api接口等,包括但不限于以上组件;
7、s4:通过适配层接收数据,设计实现基于深度学习的电力系统中数据的自动分级模块包括嵌入层、cnn层、bigru层和crf层;
8、s5:准备运行环境,配置设定运行参数,进行训练;所述运行参数包括:词向量维度、gru单元维度;
9、s6:基于所述训练后的深度卷积神经网络进行了上下文的特征表示和实体标签的预测;
10、进一步的,所述s1中,根据数据的敏感程度设计具体的人工标注规则,明确每种级别数据的特征和分类依据,并提供明确的判定标准;审核人员对标注结果进行检查,发现并纠正可能存在的错误或不一致之处。
11、进一步的,所述s4中,所述嵌入层使用wordvec模型中的skip-gram模式训练词向量,目标是通过给定一个词汇,预测其周围上下文中的词汇;所述cnn层中采用了卷积神经网络模块,提取文本中的语义信息;所述bigru层即双向门控循环单元(bigru)是一种能够同时考虑序列的前向和后向信息的循环神经网络结构;所述crf层即条件随机场(conditionalrandomfield,crf)用于对序列标注任务进行建模和解决;
12、进一步的,所述s5中,配置运行环境内存为64gb,开发工具为pycharmide,运行环境为python3.8,cpu为intel(r)xeon(r)cpue5-2620,核数为24。参数设定如下:词向量维度、gru单元维度和胶囊向量维度分别设置为300、100和16;随机失活率(dropout)和学习率(learningrate)分别为0.5和0.001;迭代次数和批量大小batch_size)分别为50和256;
13、本专利技术与现有技术相比具有有益效果:
14、深度学习模型可以更好地识别不主动公开实体中的特征,能较好地实现数据的分类分级任务。通过深度学习实现自动从训练范例库中学习所需特征并进行分级判断,在训练过程中不断纠正用于判断的数据特征以及深度卷积神经网络参数,从而能够极大提高在现实应用场景中的分级准确性和可靠度,且随着训练范例库中数据的数量递增,该分级准确性和可靠度还将进一步提高。
15、具体地,本专利技术提出一种适应于电力行业的数据分类分级模块算法,设计并实现了电力行业信息资源目录系统中数据的自动分级模块,并在前期工作的基础上,完成了行业领域下的数据自动分级。
16、所述适配层为所述数据分类分级安全防护系统提供接入接口。所述嵌入层基于输入的词汇预测其上下文词汇,在嵌入层中使用wordvec模型的skip-gram模式训练词向量,以更好地进行领域语义提取。所述cnn层使用多层卷积神经网络进行语义信息的提取,其中包含输入层、卷积层、池化层和全连接层。其输入为已训练好的词向量,输出为特征矩阵。所述bigru层使用bigru从字符向量序列中提取上下文信息。gru是一种单向神经网络结构,由更新门和复位门组成,可以选择保存上下文信息来解决rnn梯度消失或爆炸的问题。所述crf层即条件随机场是一种用于建模输入序列与输出序列之间的依赖关系的统计模型。crf广泛应用于各种自然语言处理任务,如词性标注、命名实体识别和语义角色标注等。crf的主要优点是能够明确地建模观测数据与标签之间的依赖关系,同时考虑整个序列的上下文信息。
本文档来自技高网...【技术保护点】
1.一种适用于电力行业的数据分类分级安全算法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种适用于电力行业的数据分类分级安全算法,其特征在于,所述S1中,根据数据的敏感程度设计具体的人工标注规则,明确每种级别数据的特征和分类依据,并提供明确的判定标准;审核人员对标注结果进行检查,发现并纠正可能存在的错误或不一致之处。
3.根据权利要求1所述一种适用于电力行业的数据分类分级安全算法,其特征在于,所述S4中,所述嵌入层使用WordVec模型中的Skip-Gram模式训练词向量,通过给定一个词汇,预测其周围上下文中的词汇;所述CNN层中采用了卷积神经网络模块,提取文本中的语义信息;所述BigRU层即双向门控循环单元(BiGRU)是一种能够同时考虑序列的前向和后向信息的循环神经网络结构;所述CRF层即条件随机场,用于对序列标注任务进行建模和解决。
4.根据权利要求1所述一种适用于电力行业的数据分类分级安全算法,其特征在于,所述S5中,配置运行环境内存为64GB,开发工具为PyCharmIDE,运行环境为Python3.8,CPU为Intel(R
...【技术特征摘要】
1.一种适用于电力行业的数据分类分级安全算法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种适用于电力行业的数据分类分级安全算法,其特征在于,所述s1中,根据数据的敏感程度设计具体的人工标注规则,明确每种级别数据的特征和分类依据,并提供明确的判定标准;审核人员对标注结果进行检查,发现并纠正可能存在的错误或不一致之处。
3.根据权利要求1所述一种适用于电力行业的数据分类分级安全算法,其特征在于,所述s4中,所述嵌入层使用wordvec模型中的skip-gram模式训练词向量,通过给定一个词汇,预测其周围上下文中的词汇;所述cnn层中采用了卷积神经网络模块,提取文本中的语义信息;所述bigru层即双向门控循...
【专利技术属性】
技术研发人员:艾徐华,张希翔,银源,黄依婷,蒙琦,董贇,张丽媛,陈昭利,刘凯杰,符嘉成,
申请(专利权)人:广西电网有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。