一种电网非结构化数据深度聚类优化方法及系统技术方案

技术编号：42718618 阅读：28 留言：0更新日期：2024-09-13 12:07

本发明专利技术提供了一种电网非结构化数据深度聚类优化方法及系统，具体涉及电网数据存储领域，技术方案为：S1采集并重构电网系统中的非结构化数据得到重构数据；S2基于重构数据进行降维操作得到低维数据，基于低维数据的数据密度和K近邻算法找出低维数据的聚类中心集；S3搭建数据聚类模型，基于数据聚类模型对低维数据进行特征提取，将提取后的数据特征结合所述聚类中心集进行聚类得到聚类结果，基于聚类结果构建损失函数，基于梯度下降法最小化损失函数，不断迭代聚类结果直至损失函数趋于稳定值，得到聚类分配结果。本发明专利技术改善电网中非结构数据聚类精度低，处理效率低的问题，提高了非结构化数据处理的精度，以便从大量非结构化数据挖掘出有用信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及电网数据存储领域，尤其涉及一种电网非结构化数据深度聚类优化方法及系统。

技术介绍

1、深度聚类（deep clustering）是一种结合了深度学习模型和聚类算法的方法，旨在自动地从数据中学习特征并将数据分组成具有相似特征的类别。

2、非结构化平台是指专门用于处理和管理非结构化数据的系统或平台。非结构化数据包括文本、图像、音频、视频等多种形式，具有复杂性和多样性等特点，处理和管理难度较大。非结构化平台通过集成数据采集、处理、存储、分析和安全保护等功能，为企业提供端到端的非结构化数据处理和管理方案。

3、但是，现有技术依旧存在以下问题：

4、首先，随着新的数据中台存储组件的引入，难以实现将新增上传的非结构化数据无缝对接存储到数据中台；其次，难以完成非结构化数据在数据中台上未来的存储及管理；最后，大量非结构化数据仍依赖人工进行审核阅读，效率低下，且无法实现对结构化、非结构化数据的全覆盖审计。

5、非结构化数据没有统一的格式和标准，难以使用传统的数据库管理技术进行管理，虽然处理难度大，但非结构化数据中蕴含着丰富的信息，对电网运行、设备管理和客户服务等方面有着重要价值。

6、因此，亟需开发一种方案解决上述问题。

技术实现思路

1、本专利技术的目的在于提供一种电网非结构化数据深度聚类优化方法及系统，用以改善电网中非结构数据聚类精度低，处理效率低的问题，提高了非结构化数据处理的精度和速度，以便从大量非结构化数据挖掘出有用的信息。

2、本专利技术提供的一种电网非结构化数据深度聚类方法及系统，采用如下的技术方案：

3、第一方面，本专利技术提供一种电网非结构化数据深度聚类优化方法，包括：

4、采集并重构电网系统中的非结构化数据得到重构数据；

5、基于重构数据进行降维操作得到低维数据，基于低维数据的数据密度和k近邻算法找出低维数据的聚类中心集；

6、搭建数据聚类模型，基于数据聚类模型对低维数据进行特征提取，将提取后的数据特征结合所述聚类中心集进行聚类得到聚类结果，基于聚类结果构建损失函数，基于梯度下降法最小化损失函数，不断迭代聚类结果直至损失函数趋于稳定值，得到聚类分配结果。

7、本专利技术提供的一种电网非结构化数据深度聚类方法及系统的有益效果在于：通过非结构化数据根据自学习的结果在特征空间上重构，保留数据的局部结构信息的同时，提升泛化能力；通过降维操作，捕捉数据中的复杂结果和聚类模式，改善面对高维稀疏数据容易陷入局部最优解、计算效率低的问题；通过k近邻算法预先找到最佳聚类中心集，提高非结构化数据的聚类质量，通过深度网络提取高层次数据后进行聚类后再优化，结合无监督学习和有监督学习的优点，提高非结构化数据处理的精度和速度。

8、可选地，采集并重构电网系统中的非结构化数据得到重构数据，包括：

9、基于电网系统中采集非结构化数据；其中，所述非结构化数据包括：办公文档、工程图纸、图像文件和音视频文件；

10、基于所述非结构化数据进行特征提取和数据压缩实现降维；

11、基于降维后的非结构化数据进行线性变换，恢复到原有的特征数量后得到重构数据。

12、可选地，基于重构数据进行降维操作得到低维数据，包括：

13、基于高斯分布计算所述重构数据的相似度；

14、初始化低维空间的点，基于t分布计算所述低维空间的点的相似度矩阵；

15、基于相似度和相似度矩阵构建相对熵目标函数，迭代更新低维空间的点坐标，直到相对熵目标函数趋于稳定最小值，得到对应重构数据的低维数据。

16、可选地，基于低维数据的数据密度和k近邻算法找出低维数据的聚类中心集，包括：

17、计算低维数据的数据点之间的密度值，遍历低维数据中的数据点，当所述数据点与其最近数据点的密度值小于预设阈值为聚类中心点，遍历完所有的数据点后得到聚类中心集。

18、可选地，计算低维数据的数据点之间的密度值时，包括：

19、数据点和之间密度值计算公式：

20、，

21、其中，表示两个数据点与之间的距离，是一个常数，若，；若，；是半径领域，控制聚类时核心点的检索范围。

22、可选地，将提取后的数据特征结合所述聚类中心集进行聚类得到聚类结果前，初始化聚类参数，所述聚类参数包括：邻域半径、密度阈值、核心节点的节点数阈值。

23、可选地，基于数据聚类模型优化所述聚类结果得到聚类分配结果时，包括：

24、基于聚类结果构建损失函数，基于梯度下降法最小化损失函数，不断迭代聚类结果直至损失函数趋于稳定值，得到聚类分配结果。

25、第二方面，一种电网非结构化数据深度聚类优化系统，包括：

26、数据采集单元，用于采集并重构电网系统中的非结构化数据得到重构数据；

27、降维聚类单元，用于基于重构数据进行降维操作得到低维数据，基于低维数据的数据密度和k近邻算法找出低维数据的聚类中心集；

28、模型优化单元，搭建数据聚类模型，基于数据聚类模型对低维数据进行特征提取，将提取后的数据特征结合所述聚类中心集进行聚类得到聚类结果，基于聚类结果构建损失函数，基于梯度下降法最小化损失函数，不断迭代聚类结果直至损失函数趋于稳定值，得到聚类分配结果。

29、可选地，所述数据聚类模型包括特征提取模块、数据聚类模块和梯度优化模块，所述特征提取模块用于特征提取低维数据得到高层次数据，所述数据聚类模块用于结合所述聚类中心集对高层次数据进行聚类得到聚类结果，所述梯度优化模块用于对聚类结果构建的损失函数进行梯度下降优化得到聚类分配结果。

30、可选地，数据聚类模型中的特征提取模块包括5层卷积层和3层全连接层依次连接，每层卷积层后面连接池化层并使用relu激活函数，最后一层的全连接层使用softmax激活函数。

31、第二方面的有益效果可以参照第一方面的有益效果。

本文档来自技高网...

【技术保护点】

1.一种电网非结构化数据深度聚类优化方法，其特征在于，包括：

2.根据权利要求1所述的电网非结构化数据深度聚类优化方法，其特征在于，采集并重构电网系统中的非结构化数据得到重构数据，包括：

3.根据权利要求1所述的电网非结构化数据深度聚类优化方法，其特征在于，基于重构数据进行降维操作得到低维数据，包括：

4.根据权利要求1所述的电网非结构化数据深度聚类优化方法，其特征在于，基于低维数据的数据密度和K近邻算法找出低维数据的聚类中心集，包括：

5.根据权利要求4所述的电网非结构化数据深度聚类优化方法，其特征在于，计算低维数据的数据点之间的密度值时，包括：

6.根据权利要求1所述的电网非结构化数据深度聚类优化方法，其特征在于，将提取后的数据特征结合所述聚类中心集进行聚类得到聚类结果前，初始化聚类参数，所述聚类参数包括：邻域半径、密度阈值、核心节点的节点数阈值。

7.一种电网非结构化数据深度聚类优化系统，其特征在于，包括：

8.根据权利要求7所述的电网非结构化数据深度聚类优化系统，其特征在于，所述数据聚类模

9.根据权利要求8所述的电网非结构化数据深度聚类优化系统，其特征在于，数据聚类模型中的特征提取模块包括5层卷积层和3层全连接层依次连接，每层卷积层后面连接池化层并使用ReLU激活函数，最后一层的全连接层使用Softmax激活函数。

...

【技术特征摘要】

1.一种电网非结构化数据深度聚类优化方法，其特征在于，包括：

2.根据权利要求1所述的电网非结构化数据深度聚类优化方法，其特征在于，采集并重构电网系统中的非结构化数据得到重构数据，包括：

3.根据权利要求1所述的电网非结构化数据深度聚类优化方法，其特征在于，基于重构数据进行降维操作得到低维数据，包括：

4.根据权利要求1所述的电网非结构化数据深度聚类优化方法，其特征在于，基于低维数据的数据密度和k近邻算法找出低维数据的聚类中心集，包括：

5.根据权利要求4所述的电网非结构化数据深度聚类优化方法，其特征在于，计算低维数据的数据点之间的密度值时，包括：

6.根据权利要求1所述的电网非结构化数据深度聚类优化方法，其特征在于，将提取后的数据特征结合所述聚类中心集进行聚类得到聚类结果前...

【专利技术属性】
技术研发人员：彭谦，周旭敏，罗坤，梁良，金高峰，刘小康，李思源，胡潇，章文腾，朱海鹏，
申请(专利权)人：国网江西省电力有限公司信息通信分公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人