一种基于事件抽取的作战任务生成方法及系统技术方案

技术编号:37045326 阅读:14 留言:0更新日期:2023-03-29 19:24
本发明专利技术属于作战任务信息识别技术领域,具体提供了一种基于事件抽取的作战任务生成方法及系统,其中方法包括:对原始的作战指令文本进行预处理;使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息;建立作战任务抽取模型,并训练作战任务抽取模型参数;利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。基于事件抽取的作战任务生成方法,将作战任务视为一种战场事件,利用机器算法从文本中自动抽取作战任务,有助于建立机器对作战指令文本语义的理解,能够为作战任务关联分析、打击目标分配、兵力火力配置等后续工作的智能化实现提供重要支撑。智能化实现提供重要支撑。智能化实现提供重要支撑。

【技术实现步骤摘要】
一种基于事件抽取的作战任务生成方法及系统


[0001]本专利技术涉及作战任务信息识别
,更具体地,涉及一种基于事件抽取的作战任务生成方法及系统。

技术介绍

[0002]作战任务信息是作战指挥知识的重要组成部分,是进行作战方案拟制、作战计划制定的重要先验知识。利用事件抽取技术抽取作战任务信息的目的,是为了在海量信息涌入的情况快速识别指挥文书中蕴含的显性作战任务,并采用预定义的描述框架抽取作战任务的相关信息。
[0003]目前,从指挥文书中识别作战任务及其关键信息的工作主要是由人工判读来实现。人工分析方式严重依赖指挥人员个体的知识、经验,无法最大限度应用在长期研究与实践中积累的关于作战任务描述、作战任务规划、作战任务匹配模式的丰富知识与经验,当短时间内有大量信息涌入指挥系统或作战行动涉及多个领域的大量作战单元时,分析结论易受主观因素影响大且难以实现对上级指令的快速理解和完备分析。
[0004]事件抽取技术的主要功能是从目标语料中识别预定义类型的事件并抽取事件的相关要素,它可为下游的多个应用,如知识图谱构建、智能问答、自然语言理解等,提供有价值的结构化信息。当前,现有大多数事件抽取算法仅从句子的视角进行事件抽取,在应用于面向指挥文书的作战任务抽取时面临以下挑战:
[0005](1)“参数分散”,指一个作战任务的参数可能跨越多个句子分布。参数分散挑战要求事件抽取模型要能够对整篇文档拥有整体性的理解,并且具有跨越句子来聚集所有事件参数的能力;
[0006](2)“多事件”,指文档中包含两个以上不同的作战任务并且这些作战任务之间没有明显的文本边界。多事件挑战要求事件抽取模型要能够识别出一篇文档中包含多少个作战任务,并要能够正确地将各个参数分配至匹配的事件。

技术实现思路

[0007]本专利技术针对现有技术中存在的从指挥文书中识别作战任务存在参数分散、多事件导致信息提取困难的技术问题。
[0008]本专利技术提供了一种基于事件抽取的作战任务生成方法,包括以下步骤:
[0009]S1,对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;
[0010]S2,构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;
[0011]S3,使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;
[0012]S4,基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作
战任务抽取模型参数;
[0013]S5,利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。
[0014]优选地,所述S1具体包括:
[0015]S11,对输入的原始作战指令文本进行预处理,去除无意义的符号,并按照中文断句符号进行分句,将原始的非结构化文本转换为句子序列;
[0016]S12,依据领域内的权威术语集和专业词典,对句子序列中的每个句子逐个进行分词操作,生成词汇矩阵。
[0017]优选地,所述S12具体包括:
[0018]计算最长的句子中所包含的词汇数N
w
,对于长度小于N
w
的句子在词汇矩阵多余的位置用0元素补足。
[0019]优选地,所述S2具体包括:
[0020]S21,以领域内的权威术语集和专业词典为原始语料,基于BERT开源学习框架,构建适配于作战指挥领域语义特征的预训练语言模型;
[0021]S22,利用完成训练的预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵;
[0022]S23,使用条件随机场算法对词嵌入矩阵逐行执行实体识别并予以标注,使用维特比解码推理获取每个句子的实体识别最佳标注结果。
[0023]优选地,所述S3具体包括:
[0024]S31,针对标注出的所有实体,在其词嵌入序列上执行最大池化运算,聚合实体所有成分词汇的词嵌入生成一个单一的实体嵌入;
[0025]S32,对词嵌入矩阵的每一行执行最大池化运算,将任意句子的词嵌入序列聚合于一个具有固定维度的句子嵌入中;
[0026]S33,在所有已获得的实体嵌入中添加句子的位置特征;
[0027]S34,对句子的嵌入向量使用基于Transformer方法的编码器将句子外部的篇章信息编码进该句子的嵌入向量中;
[0028]S35,对所有句子的嵌入向量执行最大池化运算,获得整篇文档的嵌入。
[0029]优选地,所述S4具体包括:
[0030]S41,以枚举的方式对已知的作战任务类型进行预定义,对于每种预定义的作战任务类型列举出它们所包含的任务属性并指定这些属性的排布顺序,每个作战任务类型与其拥有的属性集合构成一个作战任务描述模板;
[0031]S42,以作战任务描述模板为抽取框架,首先生成一个虚拟的根节点,抽取出文档中存在的作战任务指称并将其添加到根节点上,然后根据提前预定义好的作战任务描述模板,为作战任务指称节点依次添加属性节点;
[0032]S43,使用基于Transformer模型的解码器Decoder(
·
)通过条件概率计算依次预测出训练样本中每个实体对应的作战任务属性标签;
[0033]S44,依据作战任务描述模板中作战任务属性集合的默认次序,将预测标签类型与作战任务属性类型相一致的实体逐个链接至对应的作战任务属性节点上,并利用该实体的真实标签和预测标签计算出一个交叉熵损失函数,一个作战任务描述模板中所有属性节点损失函数之和即为当前训练样本最终的损失函数;
[0034]S45,根据步骤S44计算出的损失函数优化模型参数,完成当前作战任务属性的实体添加操作后,然后继续进入下一个训练样本的处理进程,重复上述操作直至损失函数小于预定的阈值或者模型迭代次数达到预设的次数。
[0035]优选地,所述S5具体包括:
[0036]S51,输入的待抽取的作战指令文本;
[0037]S52,对步骤S51生成的词汇矩阵逐行进行序列标注;
[0038]S53,基于步骤S52生成的嵌入矩阵,学习捕获每个预测样本语义特征,并将学习结果输入训练好的作战任务抽取模型;
[0039]S54,通过作战任务抽取模型对实体嵌入、嵌入向量、整篇文档嵌入应用标签分类器,引导机器识别出文档中包含的作战任务及其参数,对于识别出的每个作战任务,生成一个基于实体的作战任务图来对其进行表达。
[0040]本专利技术还提供了一种基于事件抽取的作战任务生成系统,所述系统用于实现基于事件抽取的作战任务生成方法,包括:
[0041]预处理模块,用于对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;
[0042]词嵌入序列标注模块,用于构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于事件抽取的作战任务生成方法,其特征在于,包括以下步骤:S1,对原始的作战指令文本进行预处理,将其从非结构化文本转换为词汇矩阵;S2,构建作战指挥领域预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵,对词嵌入矩阵中逐行进行序列标注;S3,使用由神经网络构建的多重语义编码器,逐级学习捕获实体、句子、篇章三个层级的语义信息,同时融入句子本地和文档全局的上下文来增强算法对文档中各个任务参数的辨识度;S4,基于对作战指令文本的语义特征学习结果,建立作战任务抽取模型,并训练作战任务抽取模型参数;S5,利用训练好的作战任务抽取模型,对待预测的作战指令文本进行作战任务信息抽取。2.根据权利要求1所述的基于事件抽取的作战任务生成方法,其特征在于,所述S1具体包括:S11,对输入的原始作战指令文本进行预处理,去除无意义的符号,并按照中文断句符号进行分句,将原始的非结构化文本转换为句子序列;S12,依据领域内的权威术语集和专业词典,对句子序列中的每个句子逐个进行分词操作,生成词汇矩阵。3.根据权利要求2所述的基于事件抽取的作战任务生成方法,其特征在于,所述S12具体包括:计算最长的句子中所包含的词汇数N
w
,对于长度小于N
w
的句子在词汇矩阵多余的位置用0元素补足。4.根据权利要求1所述的基于事件抽取的作战任务生成方法,其特征在于,所述S2具体包括:S21,以领域内的权威术语集和专业词典为原始语料,基于BERT开源学习框架,构建适配于作战指挥领域语义特征的预训练语言模型;S22,利用完成训练的预训练语言模型,将待处理的词汇矩阵转换为词嵌入矩阵;S23,使用条件随机场算法对词嵌入矩阵逐行执行实体识别并予以标注,使用维特比解码推理获取每个句子的实体识别最佳标注结果。5.根据权利要求1所述的基于事件抽取的作战任务生成方法,其特征在于,所述S3具体包括:S31,针对标注出的所有实体,在其词嵌入序列上执行最大池化运算,聚合实体所有成分词汇的词嵌入生成一个单一的实体嵌入;S32,对词嵌入矩阵的每一行执行最大池化运算,将任意句子的词嵌入序列聚合于一个具有固定维度的句子嵌入中;S33,在所有已获得的实体嵌入中添加句子的位置特征;S34,对句子的嵌入向量使用基于Transformer方法的编码器将句子外部的篇章信息编码进该句子的嵌入向量中;S35,对所有句子的嵌入向量执行最大池化运算,获得整篇文档的嵌入。6.根据权利要求1所述的基于事件抽取的作战任务生成方法,其特征在于,所述S4具体
包括:S41,以枚举的方式对已知的作战任务类型进行预定义,对于每种预定义的作战任务类型列举出它们所包含的任务属性并指定这些属性的排布顺序,每个作战任务类型与其拥有的属性集合构成一个作战任务描述模板;S42,以作战任务描述模板为抽取框架,首先生成一个虚拟的根节点...

【专利技术属性】
技术研发人员:卢稳新殷昌盛杨若鹏韦文夏杨远涛陶宇石永琪鲁义威
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1