多模态命名实体识别方法、装置以及电子设备制造方法及图纸

技术编号：30180284 阅读：19 留言：0更新日期：2021-09-25 15:42

本发明专利技术涉及一种多模态命名实体识别方法、装置以及电子设备，该方法包括：获取社交媒体的评论数据，评论数据包括文本和与文本对应的图像，获得上下文表示和图像实体词，输入至多头跨模态注意力机制模型，获得文本向量和图像向量，输入至门控机制模型进行融合，获得多模态融合特征，输入至混合专家系统，获得第一隐藏层向量，输入至自注意力层进行编码，获得第二隐藏层向量，将第一隐藏层向量、第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果，引入词性信息，来消除文本实体的噪声，通过门控机制筛选图像信息，来消除图像的噪声，基于知识库的混合专家系统滤除多模态融合后的噪声，从而提高了命名实体识别精度。实体识别精度。实体识别精度。

全部详细技术资料下载

【技术实现步骤摘要】
多模态命名实体识别方法、装置以及电子设备

[0001]本专利技术涉及自然语言处理
，特别是涉及一种多模态命名实体识别方法、装置以及电子设备。

技术介绍

[0002]命名实体识别是自然语言处理的一个基本问题，其目的在于发现文本中的命名实体以及将命名实体划分到预定义的类别，如人名、地名或组织机构名等。近年来，由于深度学习技术的兴起与成熟，尤其是神经网络在序列标注任务上的成功，基于LSTM
‑
CRF方法在纯文本的命名实体识别任务中取得了令人满意的效果。
[0003]然而，使用该方法来处理社交媒体上的帖子仍然存在很多限制。一方面，社交媒体中的文本通常是短文本，文本内容所传达的信息非常少，对命名实体进行分类具有挑战性。另一方面，在大多数情况下，图像对于表达观点是很重要的，也即视觉信息有助于命名实体识别的分类。因此，基于社交网络的多模态数据的名实体识别方法孕育而生。
[0004]在传统的多模态命名实体识别方法中，倾向于收集文本和图像两种模态的信息，然后将文本信息和图像信息拼接，整合到多模态命名实体识别神经网络模型中，来处理模态内部以及模态之间的关系。但是，这些传统方法给网络引入了大量的无关信息，导致多模态噪声大、命名实体识别精度低。

技术实现思路

[0005]基于此，本专利技术的目的在于，提供一种多模态命名实体识别方法、装置以及电子设备，其具有降低噪声、提高命名实体识别精度的优点。
[0006]根据本申请实施例的第一方面，提供一种多模态命名实体识别方法，包括如下步骤...

【技术保护点】

【技术特征摘要】
1.一种多模态命名实体识别方法，其特征在于，包括：获取社交媒体的评论数据，所述评论数据包括文本和与所述文本对应的图像；获取所述文本的词性向量、词向量、上下句向量和位置向量，将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码，获得所述文本的上下文表示；将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得所述图像中的图像实体词；将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量；将所述文本向量和所述图像向量输入至门控机制模型进行融合，获得所述文本向量和所述图像向量的多模态融合特征；将所述多模态融合特征输入至混合专家系统，获得第一隐藏层向量；将所述上下文表示输入至自注意力层进行编码，获得第二隐藏层向量；将所述第一隐藏层向量、所述第二隐藏层向量以及预设的概率转换矩阵输入至条件随机场，获得命名实体识别结果。2.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述获取所述文本的词性向量、词向量、上下句向量和位置向量，将所述词性向量、词向量、上下句向量和位置向量输入至双向自注意力模型进行编码，获得所述文本的上下文表示，包括：获取所述文本中每个词的词性信息、单词信息、上下句信息和位置信息，通过词嵌入表将每个词的所述词性信息、单词信息、上下句信息和位置信息编码成对应的词性向量、词向量、上下句向量和位置向量；将每个词的所述词性向量、词向量、上下句向量和位置向量求和，输入至预训练的双向自注意力模型进行编码，获得所述文本的上下文表示。3.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得所述图像中的图像实体词，包括：将所述图像输入至掩模区域卷积神经网络模型进行特征提取，获得多个目标命名实体词的分类得分；根据所述分类得分对所述目标命名实体词进行从高到低排序，取前k个目标命名实体词构成目标命名实体词集合；将所述目标命名实体词集合中每个目标命名实体词输入至词嵌入表，生成对象嵌入向量；将所述对象嵌入向量输入至单层感知机，获得与所述上下文表示的维度相同的图像实体词；其中，生成对象嵌入向量的公式为：体词；其中，生成对象嵌入向量的公式为：为每个所述目标命名实体词，为所述对象嵌入向量，表示所述词嵌入表，；获得与所述上下文表示相同维度的图像实体词的公式为：获得与所述上下文表示相同维度的图像实体词的公式为：为所述图像实体词，是激活函数，和为所述单层感知机中可训练的权
重参数。4.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述多头跨模态注意力机制模型包括第一跨模态注意力层、第二跨模态注意力层和第三跨模态注意力层，所述将所述上下文表示和所述图像实体词输入至多头跨模态注意力机制模型，获得所述上下文表示对应的文本向量和所述图像实体词对应的图像向量，包括：将所述上下文表示和所述图像实体词输入至所述第一跨模态注意力层，并以所述图像实体词作为查询向量，所述上下文表示作为键和值，获得图像引导上下文注意力的输出表示；将所述上下文表示和所述图像引导上下文注意力的输出表示输入至所述第二跨模态注意力层，并以所述上下文表示作为查询向量，所述图像引导上下文注意力的输出表示作为键和值，获得所述上下文表示对应的文本向量；将所述上下文表示和所述图像实体词输入至所述第三跨模态注意力层，并以所述上下文表示作为查询向量，所述图像实体词作为键和值，获得所述图像实体词对应的图像向量；其中，获得图像引导上下文注意力的输出表示的公式为：其中，获得图像引导上下文注意力的输出表示的公式为：其中，获得图像引导上下文注意力的输出表示的公式为：其中，获得图像引导上下文注意力的输出表示的公式为：是所述第一跨模态注意力层的第个头，是所述图像实体词，是所述上下文表示，是训练一个批次的句子数量，是所述第一跨模态注意力层的多头注意力的头数，、、和是所述第一跨模态注意力层的权重参数，表示转置，是所述第一跨模态注意力层的个头的组合，是所述第一跨模态注意力层的第1个头到第个头，是所述图像引导上下文注意力的输出表示，是激活函数，是激活函数；获得所述上下文表示对应的文本向量的公式为：获得所述上下文表示对应的文本向量的公式为：获得所述上下文表示对应的文本向量的公式为：获得所述上下文表示对应的文本向量的公式为：是所述第二跨模态注意力层的第个头，是所述第二跨模态注意力层的多头注意力的头数，、、和是所述第二跨模态注意力层的权重参数，是所述第二跨模态注意力层的个头的组合，是所述第二跨模态注意力层的第1个头到第个头，是所述上下文表示对应的文本向量；
获得所述图像实体词对应的图像向量的公式为：获得所述图像实体词对应的图像向量的公式为：获得所述图像实体词对应的图像向量的公式为：获得所述图像实体词对应的图像向量的公式为：是所述第三跨模态注意力层的第个头，是所述第三跨模态注意力层的多头注意力的头数，、、和是所述第三跨模态注意力层的权重参数，是所述第三跨模态注意力层的个头的组合，是所述第三跨模态注意力层的第1个头到第个头，是所述图像实体词对应的图像向量。5.根据权利要求1所述的多模态命名实体识别方法，其特征在于，所述门控机制模型包括多模态门和过滤门...

【专利技术属性】
技术研发人员：陈建颖，薛云，张政轩，陈洁海，
申请(专利权)人：华南师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人