多模态命名实体识别方法、装置以及电子设备制造方法及图纸

技术编号:30180284 阅读:19 留言:0更新日期:2021-09-25 15:42
本发明专利技术涉及一种多模态命名实体识别方法、装置以及电子设备,该方法包括:获取社交媒体的评论数据,评论数据包括文本和与文本对应的图像,获得上下文表示和图像实体词,输入至多头跨模态注意力机制模型,获得文本向量和图像向量,输入至门控机制模型进行融合,获得多模态融合特征,输入至混合专家系统,获得第一隐藏层向量,输入至自注意力层进行编码,获得第二隐藏层向量,将第一隐藏层向量、第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果,引入词性信息,来消除文本实体的噪声,通过门控机制筛选图像信息,来消除图像的噪声,基于知识库的混合专家系统滤除多模态融合后的噪声,从而提高了命名实体识别精度。实体识别精度。实体识别精度。

【技术实现步骤摘要】
多模态命名实体识别方法、装置以及电子设备


[0001]本专利技术涉及自然语言处理
,特别是涉及一种多模态命名实体识别方法、装置以及电子设备。

技术介绍

[0002]命名实体识别是自然语言处理的一个基本问题,其目的在于发现文本中的命名实体以及将命名实体划分到预定义的类别,如人名、地名或组织机构名等。近年来,由于深度学习技术的兴起与成熟,尤其是神经网络在序列标注任务上的成功,基于LSTM

CRF方法在纯文本的命名实体识别任务中取得了令人满意的效果。
[0003]然而,使用该方法来处理社交媒体上的帖子仍然存在很多限制。一方面,社交媒体中的文本通常是短文本,文本内容所传达的信息非常少,对命名实体进行分类具有挑战性。另一方面,在大多数情况下,图像对于表达观点是很重要的,也即视觉信息有助于命名实体识别的分类。因此,基于社交网络的多模态数据的名实体识别方法孕育而生。
[0004]在传统的多模态命名实体识别方法中,倾向于收集文本和图像两种模态的信息,然后将文本信息和图像信息拼接,整合到多模态命名实体识别神经网络模型中,来处理模态内部以及模态之间的关系。但是,这些传统方法给网络引入了大量的无关信息,导致多模态噪声大、命名实体识别精度低。

技术实现思路

[0005]基于此,本专利技术的目的在于,提供一种多模态命名实体识别方法、装置以及电子设备,其具有降低噪声、提高命名实体识别精度的优点。
[0006]根据本申请实施例的第一方面,提供一种多模态命名实体识别方法,包括如下步骤:获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条
件随机场,获得命名实体识别结果。
[0007]根据本申请实施例的第二方面,提供一种多模态命名实体识别装置,包括:数据获取模块,用于获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;向量获取模块,用于获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;特征提取模块,用于将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;向量获得模块,用于将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;向量融合模块,用于将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;融合特征输入模块,用于将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;上下文编码模块,用于将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;结果获得模块,用于将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。
[0008]根据本申请实施例的第三方面,提供一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如上述任意一项所述的多模态命名实体识别方法。
[0009]本申请实施例通过获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像。获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示。将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词。将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量。将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征。将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量。将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量。将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。本专利技术在多模态命名实体识别任务中引入词性信息,来消除文本实体的噪声;进一步通过门控机制筛选图像信息,来消除图像的噪声;在图像和文本特征融合后通过基于知识库的混合专家系统提取每个实体的专家级特征,从整体上对每个实体进行了选择,从而滤除多模态融合后的噪声,从而降低了多模态命名实体识别过程中的噪声、提高了命名实体识别精度。
[0010]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
[0011]为了更好地理解和实施,下面结合附图详细说明本专利技术。
附图说明
[0012]图1为本专利技术多模态命名实体识别方法的流程示意图;图2为本专利技术多模态命名实体识别方法中S20的流程示意图;图3为本专利技术多模态命名实体识别方法中S30的流程示意图;图4为本专利技术多模态命名实体识别方法中S40的流程示意图;图5为本专利技术多模态命名实体识别方法中S50的程示意图;图6为本专利技术多模态命名实体识别方法中S60的程示意图;图7为本专利技术多模态命名实体识别方法中S70的程示意图;图8为本专利技术多模态命名实体识别方法中S80的程示意图;图9为本专利技术多模态命名实体识别装置的结构框图;图10为本专利技术多模态命名实体识别装置向量获取模块92的结构框图;图11为本专利技术多模态命名实体识别装置特征提取模块93的结构框图;图12为本专利技术多模态命名实体识别装置向量获得模块94的结构框图;图13为本专利技术多模态命名实体识别装置向量融合模块95的结构框图;图14为本专利技术多模态命名实体识别装置融合特征输入模块96的结构框图;图15为本专利技术多模态命名实体识别装置上下文编码模块97的结构框图;图16为本专利技术多模态命名实体识别装置结果获得模块98的结构框图。
具体实施方式
[0013]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
[0014]应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0015]在本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态命名实体识别方法,其特征在于,包括:获取社交媒体的评论数据,所述评论数据包括文本和与所述文本对应的图像;获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示;将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词;将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量;将所述文本向量和所述图像向量输入至门控机制模型进行融合,获得所述文本向量和所述图像向量的多模态融合特征;将所述多模态融合特征输入至混合专家系统,获得第一隐藏层向量;将所述上下文表示输入至自注意力层进行编码,获得第二隐藏层向量;将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场,获得命名实体识别结果。2.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述获取所述文本的词性向量、词向量、上下句向量和位置向量,将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码,获得所述文本的上下文表示,包括:获取所述文本中每个词的词性信息、单词信息、上下句信息和位置信息,通过词嵌入表将每个词的所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量;将每个词的所述词性向量、词向量、上下句向量和位置向量求和,输入至预训练的双向自注意力模型进行编码,获得所述文本的上下文表示。3.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得所述图像中的图像实体词,包括:将所述图像输入至掩模区域卷积神经网络模型进行特征提取,获得多个目标命名实体词的分类得分;根据所述分类得分对所述目标命名实体词进行从高到低排序,取前k个目标命名实体词构成目标命名实体词集合;将所述目标命名实体词集合中每个目标命名实体词输入至词嵌入表,生成对象嵌入向量;将所述对象嵌入向量输入至单层感知机,获得与所述上下文表示的维度相同的图像实体词;其中,生成对象嵌入向量的公式为:体词;其中,生成对象嵌入向量的公式为:为每个所述目标命名实体词,为所述对象嵌入向量,表示所述词嵌入表,;获得与所述上下文表示相同维度的图像实体词的公式为:获得与所述上下文表示相同维度的图像实体词的公式为:为所述图像实体词,是激活函数,和为所述单层感知机中可训练的权
重参数。4.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述多头跨模态注意力机制模型包括第一跨模态注意力层、第二跨模态注意力层和第三跨模态注意力层,所述将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型,获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量,包括:将所述上下文表示和所述图像实体词输入至所述第一跨模态注意力层,并以所述图像实体词作为查询向量,所述上下文表示作为键和值,获得图像引导上下文注意力的输出表示;将所述上下文表示和所述图像引导上下文注意力的输出表示输入至所述第二跨模态注意力层,并以所述上下文表示作为查询向量,所述图像引导上下文注意力的输出表示作为键和值,获得所述上下文表示对应的文本向量;将所述上下文表示和所述图像实体词输入至所述第三跨模态注意力层,并以所述上下文表示作为查询向量,所述图像实体词作为键和值,获得所述图像实体词对应的图像向量;其中,获得图像引导上下文注意力的输出表示的公式为:其中,获得图像引导上下文注意力的输出表示的公式为:其中,获得图像引导上下文注意力的输出表示的公式为:其中,获得图像引导上下文注意力的输出表示的公式为:是所述第一跨模态注意力层的第个头,是所述图像实体词,是所述上下文表示,是训练一个批次的句子数量,是所述第一跨模态注意力层的多头注意力的头数,、、和是所述第一跨模态注意力层的权重参数,表示转置,是所述第一跨模态注意力层的个头的组合,是所述第一跨模态注意力层的第1个头到第个头,是所述图像引导上下文注意力的输出表示,是激活函数,是激活函数;获得所述上下文表示对应的文本向量的公式为:获得所述上下文表示对应的文本向量的公式为:获得所述上下文表示对应的文本向量的公式为:获得所述上下文表示对应的文本向量的公式为:是所述第二跨模态注意力层的第个头,是所述第二跨模态注意力层的多头注意力的头数,、、和是所述第二跨模态注意力层的权重参数,是所述第二跨模态注意力层的个头的组合,是所述第二跨模态注意力层的第1个头到第个头,是所述上下文表示对应的文本向量;
获得所述图像实体词对应的图像向量的公式为:获得所述图像实体词对应的图像向量的公式为:获得所述图像实体词对应的图像向量的公式为:获得所述图像实体词对应的图像向量的公式为:是所述第三跨模态注意力层的第个头,是所述第三跨模态注意力层的多头注意力的头数,、、和是所述第三跨模态注意力层的权重参数,是所述第三跨模态注意力层的个头的组合,是所述第三跨模态注意力层的第1个头到第个头,是所述图像实体词对应的图像向量。5.根据权利要求1所述的多模态命名实体识别方法,其特征在于,所述门控机制模型包括多模态门和过滤门...

【专利技术属性】
技术研发人员:陈建颖薛云张政轩陈洁海
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1