一种基于语义深度聚类的训练仿真装备数据对齐方法及系统技术方案

技术编号：43208239 阅读：6 留言：0更新日期：2024-11-01 20:26

本发明专利技术公开了一种基于语义深度聚类的训练仿真装备数据对齐方法及系统，涉及装备数据对齐处理技术领域，首先从训练仿真中装备的目标数据表内选定用于进行聚类判断的字段数据，构建并训练深度聚类网络，得到聚类结果，以及距离统计矩阵；根据距离统计矩阵计算每个类簇中与质心向量距离最小的数据记录，作为该类簇的中心数据记录；对于装备的源数据表中的每一条源数据记录，选取相似度最高的中心数据记录对应的类簇作为对齐目标数据，将源数据记录与对齐目标数据进行数据对齐，并将对齐后的源数据记录插入目标数据表中。本发明专利技术解决了训练仿真装备数据对齐过程中的关键问题，提升了数据对齐的效率和质量，对于装备数据工程的建设具有重要的推动作用。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及装备数据对齐处理，更具体的说是涉及一种基于语义深度聚类的训练仿真装备数据对齐方法及系统。

技术介绍

1、随着技术的进步，数字化成为军事领域变革的一个重要方向。在训练仿真领域，模型和数据是训练仿真的核心。在训练仿真系统开发过程中，模型的建立方式往往是建立一类装备实体的模型，进而根据装备参数中的性能参数值对模型实例化，从而实现同属一类装备的型号装备建模，因此装备参数数据直接影响训练仿真中装备实体的模型，进而影响训练仿真效能。在装备参数数据的建设中，可能采用逐项录入或引接其它数据源数据的方式，但都存在装备数据重复的问题，针对同一型装备，可能存在有名称重复，如“苏27”、“苏-27”、“侧卫”、“su-27”等不同的命名，如果不进行装备数据对齐，那么必然出现大量描述同一装备实体的重复数据，如果采用逐一比对的方式，在海量装备实体数据的情况下，其效率必然不高，这就极大制约仿真训练中装备数据的建设，通过合理的方法提升训练仿真中数据对齐的效率，有效减少对齐过程中的时间花费，能够有效推动训练仿真中装备数据的建设，支撑训练仿真开展。

2、目前，训练仿真装备数据对齐的关键在于对两条装备数据相似性的判断，以多个维度作为判断依据，如装备名称、装备类型、装备各项战技参数等。对于不同类型的数据采用不同相似度计算方法，例如字符型数据采用字符串匹配等方法，数值型数据通过计算数据偏差的方法，多个数据维度的相似度还需进行综合。由于需要将源数据集和目标数据集中数据进行一一对比，当数据量较大时，对比次数将十分庞大，数据对齐往往需耗费大量的时间。

3、数据聚类是按照一定的判断标准，把一个数据集分割成不同的类或簇，使得同一个簇内数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。根据判断标准的不同区分为不同的方法。基于划分式的聚类方法需要事先指定簇类的数目或者聚类中心，通过不断迭代，将数据划分至离其最近的聚类中心最近的类簇中，典型方法如kmeans、k中心点等；基于密度的聚类方法需计算某一区域内的数据密度即数据个数，当密度超过某个阈值时，将该区域内容所有数据划分至同一类簇，典型方法如dbscan、optics等。由于聚类本身是一种无监督的算法，因此其对输入数据十分敏感，装备数据由于存在不同维度，且不同维度包含的信息并不一致，无法通过有效的方法对不同维度的数据信息进行表征时，聚类准确性将无法得到保证。

4、根据上述可知，现有技术中进行训练仿真装备数据对齐的过程中仍存在以下技术问题：

5、1、装备数据的对齐过程中，当数据量较大时，需要进行数据两两对比的次数过高，导致整体数据对齐的时间花费过大。

6、2、装备数据的数据描述维度较多，不能有效聚合多维度信息，并通过统一的特征对数据信息进行表征时，将导致装备数据聚类的准确性较低。

技术实现思路

1、有鉴于此，本专利技术提供了一种基于语义深度聚类的训练仿真装备数据对齐方法及系统，构建了深度聚类网络实现对装备数据的聚类，减少数据对齐过程中的数据比对次数，提升了数据对齐效率。

2、为了实现上述目的，本专利技术提供如下技术方案：

3、一种基于语义深度聚类的训练仿真装备数据对齐方法，包括以下步骤：

4、步骤1、从训练仿真中装备的目标数据表内选定用于进行聚类判断的字段数据；

5、步骤2、根据所述字段数据，构建并训练深度聚类网络，得到聚类结果，即每条字段数据所属的类簇，以及距离统计矩阵；

6、步骤3、根据所述距离统计矩阵计算每个类簇中与质心向量距离最小的数据记录，作为该类簇的中心数据记录；

7、步骤4、对于装备的源数据表中的每一条源数据记录，选取相似度最高的中心数据记录对应的类簇作为对齐目标数据，将源数据记录与对应的对齐目标数据进行数据对齐匹配过程，并将对齐后的源数据记录插入目标数据表中。

8、进一步的，所述步骤1中，从目标数据表中选定的字段数据包括装备名称、装备型号、装备类型、装备描述以及装备的战技参数。

9、进一步的，所述步骤2中，所述深度聚类网络包括预处理模块、编码模块和聚类模块；

10、所述预处理模块用于将目标数据表中的每一行数据进行拼接，得到一条聚类输入数据si；

11、所述编码模块包括输入层，隐藏层以及输出层，其中输入层和输出层包含相同个数的神经元，神经元个数等于t，隐藏层神经元个数为q，输入层至隐藏层视为一个编码器，将输入层的某个聚类输入数据si映射到隐藏层的语义特征表示hi；隐藏层至输出层视为一个解码器，将隐藏层的表示hi进行解码重构，通过输出层输出结果

12、所述聚类模块接收编码模块中的语义特征表示h，并根据语义特征表示h对数据记录进行聚类。

13、进一步的，编码模块的损失函数如下：

14、

15、对于每一条数据记录，计算编码模块输出与编码模块输入si之间的欧式距离，将所有数据记录的偏差值相加后作为编码模块的损失函数；n表示目标数据表中数据记录的条数，t表示输入层神经元个数。

16、进一步的，聚类模块首次聚类开始前，随机选择k条数据记录作为k个类簇的初始质心，这k条数据记录的语义数据特征将作为质心向量，k个类簇的质心向量组成类簇中心矩阵d，包含k个类簇的质心向量，每个向量的维度为q，与语义特征的维度相同；

17、计算每条数据记录的语义特征与当前所有类簇的质心向量的欧式距离，第i条数据记录与第k个类簇的质量的欧式距离计算公式为：并将数据记录划分到与其距离最近的质心所在的类簇；

18、通过一个距离统计矩阵记录每条数据与各个类簇质心的距离：

19、

20、矩阵中每一个元素oij表示第i个类簇的质心与第j条数据记录的距离为oij；

21、聚类结束后通过一个次数统计矩阵记录每条数据记录被划分至各个类簇中的次数：

22、

23、矩阵中的每一个元素cij表示第i条数据记录被划分至第j个聚类的次数为cij次；

24、对类簇中心矩阵d中的每一个质心向量dk采用如下规则进行更新：

25、

26、对于被划分至第k个类簇的nk条数据记录，根据次数统计矩阵计算出次数权重，次数权重由每条数据记录被划分至第k个类簇的次数，对nk条数据记录的被划分至第k个类簇的总次数占比得到，根据次数权重将nk个数据记录的语义特征进行加和后作为第k个类簇更新后的质心，每条数据记录被划分至该类簇的次数越多则对质心的影响越小，反之则影响越大。

27、进一步的，聚类模块的损失函数如下：

28、

29、对于每一个类簇，计算被划分至该类簇下所有数据记录的语义特征向量与类簇质心向量的欧式距离，将距离加和后作为每个类簇的损失，计算所有类簇的损失和作为聚类模块的损失。

30、进一步的，所述步骤2中，对深度聚类网络进行训练的方法为：

31本文档来自技高网...

【技术保护点】

1.一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，所述步骤1中，从目标数据表中选定的字段数据包括装备名称、装备型号、装备类型、装备描述以及装备的战技参数。

3.根据权利要求1所述的一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，所述步骤2中，所述深度聚类网络包括预处理模块、编码模块和聚类模块；

4.根据权利要求3所述的一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，编码模块的损失函数如下：

5.根据权利要求4所述的一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，聚类模块首次聚类开始前，随机选择K条数据记录作为K个类簇的初始质心，这K条数据记录的语义数据特征将作为质心向量，K个类簇的质心向量组成类簇中心矩阵D，包含K个类簇的质心向量，每个向量的维度为q，与语义特征的维度相同；

6.根据权利要求5所述的一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，聚类模块的损失函数如下：

7.根据权利要求3所述的一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，所述步骤2中，对深度聚类网络进行训练的方法为：

8.根据权利要求7所述的一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，还包括步骤5，用于进行聚类信息的更新：将插入的数据记录输入至深度聚类网络中，输出该数据记录的语义特征，同时将其划分至某个类簇中，按照类簇中心矩阵的更新规则，更新类簇中心矩阵D，同时更新距离统计矩阵O、次数统计矩阵C，并计算出该类簇新的中心数据记录。

9.一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，包括：

...

【技术特征摘要】

1.一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，包括以下步骤：

4.根据权利要求3所述的一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，编码模块的损失函数如下：

5.根据权利要求4所述的一种基于语义深度聚类的训练仿真装备数据对齐方法，其特征在于，聚类模块首次聚类开始前，随机选择k条数据记录作为k个类簇的初始质心，这k条数据记录的语义数据特征将作为质心向量，k个类簇的质...

【专利技术属性】
技术研发人员：许国珍，齐锋，张一嘉，柯明星，张海燕，和伟，陈怀进，鞠儒生，刘晓阳，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人