【技术实现步骤摘要】
军工科研生产数据管理方法及系统
[0001]本专利技术涉及相似性智能判别的领域,且更为具体地,涉及一种军工科研生产数据管理方法及系统。
技术介绍
[0002]在长期的军工科研生产过程中积累了大量的数据文件,在开展数据处理与统计分析等相关工作时,面临着数据文件重复的问题,即,多个文件描述角度不同、分析层次不同、制作单位不同,但本质上描述的内容是相同的。
[0003]数据文件重复会给数据文件的管理带来挑战,在开展数据处理时,例如,在进行数据清理时,需要对本质上描述的内容相同的两份文本进行删除其中之一,以避免另外一份文本占据不必要的存储空间。
[0004]对两份文本的描述内容是否相同,可通过对两份文本进行相似性分析来进行。当前的相似性文本判重主要采用人工的方式进行,由有经验的资深专家来判断多份文件本质内容是否相同,这种方法耗时耗力且能处理的数据量有限,难以满足数字化智能化发展浪潮下大规模非结构化数据快速处理的需求。
[0005]因此,期待一种用于军工科研生产数据管理方案,其能够对军工科研生产数据的相似性进行判断以便于后续的数据管理,例如,数据压缩、重复数据删除等。
技术实现思路
[0006]为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种军工科研生产数据管理方法及其系统,其通过人工智能技术的深度神经网络模型来从第一军工科研生产文本数据和第二军工科研生产文本数据中分别提取出具有词序列和段序列的全局性隐含关联特征,进一步融合所述词序列和所述段序列的特征信息来进行所述第一军工科 ...
【技术保护点】
【技术特征摘要】
1.一种军工科研生产数据管理方法,其特征在于,包括:获取待判别的第一军工科研生产文本数据和第二军工科研生产文本数据;将所述第一军工科研生产文本数据和所述第二军工科研生产文本数据进行分词处理后通过包含嵌入层的上下文编码器以得到多个第一词特征向量和多个第二词特征向量;将所述多个第一词特征向量进行二维排列为第一词特征矩阵后通过作为词粒度特征提取器的第一卷积神经网络以得到第一全文语义特征矩阵;将所述多个第二词特征向量进行二维排列为第二词特征矩阵后通过作为词粒度特征提取器的第二卷积神经网络以得到第二全文语义特征矩阵;对所述第一军工科研生产文本数据和所述第二军工科研生产文本数据分别进行分段处理以得到对应于所述第一军工科研生产文本数据的多个第一段和对应于所述第二军工科研生产文本数据的多个第二段;将所述多个第一段中各个第一段和所述多个第二段中各个第二段分别通过包含嵌入层的双向长短期记忆神经网络模型以得到多个第一段语义特征向量和多个第二段语义特征向量;对所述多个第一段语义特征向量中各个第一段语义特征向量和对所述多个第二段语义特征向量中各个第二段语义特征向量进行全局池化处理以得到第一段语义输入向量和第二段语义输入向量;将所述第一段语义输入向量和所述第二段语义输入向量分别通过包含一维卷积层的序列编码器以得到第一全文语义特征向量和第二全文语义特征向量;将所述第一全文语义特征矩阵与所述第一全文语义特征向量进行相乘以得到第一段
‑
词多粒度全文语义特征向量,且将所述第二全文语义特征矩阵与所述第二全文语义特征向量进行相乘以得到第二段
‑
词多粒度全文语义特征向量;融合所述第一段
‑
词多粒度全文语义特征向量和所述第二段
‑
词多粒度全文语义特征向量以得到分类特征向量;以及将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示所述第一军工科研生产文本数据和所述第二军工科研生产文本数据是否为重复文本数据。2.根据权利要求1所述的军工科研生产数据管理方法,其特征在于,所述将所述第一军工科研生产文本数据和所述第二军工科研生产文本数据进行分词处理后通过包含嵌入层的上下文编码器以得到多个第一词特征向量和多个第二词特征向量,包括:对所述第一军工科研生产文本数据和所述第二军工科研生产文本数据进行分词处理以将所述第一军工科研生产文本数据和所述第二军工科研生产文本数据分别转化为由多个词组成的词序列以获得第一词序列和第二词序列;使用所述上下文编码器的嵌入层将所述第一词序列和所述第二词序列中各个词分别映射到词向量以获得第一词向量的序列和第二词向量的序列;以及使用所述上下文编码器的转化器对所述第一词向量的序列和所述第二词向量的序列分别进行基于全局的上下文语义编码以获得所述多个第一词特征向量和所述多个第二词特征向量。3.根据权利要求2所述的军工科研生产数据管理方法,其特征在于,所述将所述多个第一词特征向量进行二维排列为第一词特征矩阵后通过作为词粒度特征提取器的第一卷积
神经网络以得到第一全文语义特征矩阵,包括:所述第一卷积神经网络的各层在层的正向传递中对输入数据分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部通道维度的均值池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;其中,所述第一卷积神经网络的最后一层的输出为所述第一全文语义特征矩阵,所述第一卷积神经网络的第一层的输入为所述第一词特征矩阵。4.根据权利要求3所述的军工科研生产数据管理方法,其特征在于,所述将所述多个第二词特征向量进行二维排列为第二词特征矩阵后通过作为词粒度特征提取器的第二卷积神经网络以得到第二全文语义特征矩阵,包括:所述第二卷积神经网络的各层在层的正向传递中对输入数据分别进行:对输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行基于局部通道维度的均值池化以得到池化特征图;以及对所述池化特征图进行非线性激活以得到激活特征图;其中,所述第二卷积神经网络的最后一层的输出为所述第二全文语义特征矩阵,所述第二卷积神经网络的第一层的输入为所述第二词特征矩阵。5.根据权利要求4所述的军工科研生产数据管理方法,其特征在于,所述对所述多个第一段语义特征向量中各个第一段语义特征向量和对所述多个第二段语义特征向量中各个第二段语义特征向量进行全局池化处理以得到第一段语义输入向量和第二段语义输入向量,包括:对所述多个第一段语义特征向量中各个第一段语义特征向量进行全局均值池化以得到对应于各个第一段语义特征向量的第一段语义特征向量;将所述对应于各个第一段语义特征向量的第一段语义特征向量排列为所述第一段语义输入向量;对所述多个第二段语义特征向量中各个第二段语义特征向量进行全局均值池化以得到对应于各个第二段语义特征向量的第二段语义特征向量;和将所述对应于各个第二段语义特征向量的第二段语义特征向量排列为所述第二段语义输入向量。6.根据权利要求5所述的军工科研生产数据管理方法,其特征在于,所述将所述第一段语义输入向量和所述第二段语义输入向量分别通过包含一维卷积层的序列编码器以得到第一全文语义特征向量和第二全文语义特征向量,包括:使用所述序列编码器的全连接层以如下公式分别对所述第一段语义输入向量和所述第二段语义输入向量进行全连接编码以提取出所述输入向量中各个位置的特征值的高维隐含特征,其中,所述公式为:其中X是所述输入向量,Y是输出向量,W是权重矩阵,B是偏置向量,表示矩阵乘;使用所述序列编码器的一维卷积层以如下公式分别对所述第一段语义输入向量和所述第二段语义输入向量进行一维卷积编码以提取出所述输入向量中各个位置的特征值间的高维隐含关联特征,其中,所述公式为:
其中,a为卷积核在x方向上的宽度、F为卷积核参数向量、G为与卷积核函数运算的局部向...
【专利技术属性】
技术研发人员:田林涛,陆平,严真旭,张峰,张斌,廖大中,赵亿锌,张春宇,
申请(专利权)人:中国信息通信研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。