一种基于依存句法和图神经网络的多模态命名实体识别方法技术

技术编号：42833333 阅读：35 留言：0更新日期：2024-09-24 21:06

一种基于依存句法和图神经网络的多模态命名实体识别方法，包括以下步骤：获取文本及文本关联图像，利用预训练模型获取文本的上下文特征表示并分别构建文本语义图和文本句法图，然后利用图共享卷积网络对文本的上下文特征表示、文本语义图和文本句法图进行处理，获取最终文本特征表示；通过图像字幕生成模型将文本关联图像转换为图像标题，构建图像标题语义图和图像标题句法图，然后利用图共享卷积网络，获取最终图像标题特征表示；利用视觉图神经网络对文本关联图像进行提取，获取图级视觉特征表示；利用跨模态Transformer融合获得多模态特征表示，然后利用条件随机场对多模态特征表示进行处理，输出实体概率分布。本发明专利技术通过充分挖掘和利用语义信息和句法信息，显著提升了命名实体准确性，提高多模态命名实体识别的有效性和灵活性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及命名实体识别的，尤其涉及一种基于依存句法和图神经网络的多模态命名实体识别方法。

技术介绍

1、在信息爆炸的时代，社交媒体和数字平台孕育了丰富且多模态的数据，包括文本和图像。这种多模态数据的出现为信息的全面理解带来了挑战，特别是在命名实体识别(ner)领域。传统的命名实体识别主要依赖于文本数据，忽视了其他模态中存在的关键信息。然而，随着社交媒体的全球流行，用户在发布内容时经常融合多种信息模态，这使得单一模态分析方法难以完全捕捉到丰富的内容。因此，多模态命名实体识别已成为命名实体识别领域内的一个关键研究领域。

2、多模态命名实体识别的任务在于如何有效地对齐和融合文本、视觉和其他数据，从而提高实体的准确识别和分类。这项任务的重要性对于视觉语言任务、社交媒体分析和其他需要深入分析多种模态信息以揭示数据中隐藏的复杂关系和模式的领域中尤为显著。例如，社交媒体上的多模态内容可能包括特定实体的文本描述和相关图像，文本描述和相关图像交织的信息为准确理解命名实体提供了丰富的线索。多模态命名实体识别不仅考虑文本内的信息，还纳入了来自图像的视觉特征，因此实现了对命名实体更全面和准确的识别。如图1所示，当提供一对文本和图像时，任务是识别文本中的实体并确定它们的类型，视觉信息可以辅助识别命名实体。

3、在过去几年中，深度学习技术的迅速进步为多模态命名实体识别开辟了新的可能性。卷积神经网络(cnn)、循环神经网络(rnn)和transformer模型的出现使研究人员能够更好地捕捉不同数据模态之间的复杂关系。预训练的语言模

4、早期方法普遍未能充分考虑句子内部的句法依赖性，大部分将文本简化为一维特征向量的集合，从而忽视了句子成分间的相互依存性。句子内部的元素是通过复杂的句法依赖链条相互链接的，这种句法依存关系对于解析句子的结构与含义至关重要。

5、现有模型通常以粗粒度方式处理视觉特征，这可能在视觉模态中引入噪声并带来不必要的信息。此外，社交媒体上的图像通常包含许多不规则形状的对象，使得像vgg和resnet这样的网络变得多余且在处理这些对象时灵活性不足。

技术实现思路

1、针对现有方法忽视了句子成分间的相互依存性，对视觉模态中存在的噪声带来不必要的信息的处理灵活性和有效性不足的技术问题，本专利技术提出一种基于依存句法和图神经网络的多模态命名实体识别方法，通过充分挖掘和利用语义信息和句法信息，显著提升了命名实体识别的准确性，引入了图像文本描述生成文本和图结构，通过细粒度图像信息提高多模态命名实体识别的有效性和灵活性。

2、为了达到上述目的，本专利技术的技术方案是这样实现的：

3、一种基于依存句法和图神经网络的多模态命名实体识别方法，包括以下步骤：

4、s1：获取文本及文本关联图像，利用预训练模型获取文本的上下文特征表示并分别构建文本语义图和文本句法图，然后利用图共享卷积网络对文本的上下文特征表示、文本语义图和文本句法图进行处理，获取最终文本特征表示；

5、s2：通过图像字幕生成模型将文本关联图像转换为图像标题，利用预训练模型获取图像标题的特征表示并分别构建图像标题语义图和图像标题句法图，然后利用图共享卷积网络对图像标题的特征表示、图像标题语义图和图像标题句法图进行处理，获取最终图像标题特征表示；

6、s3：利用视觉图神经网络对文本关联图像进行提取，获取图级视觉特征表示；

7、s4：利用跨模态transformer融合最终文本特征表示、最终图像标题特征表示和图级视觉特征表示，获得多模态特征表示，然后利用条件随机场对多模态特征表示进行处理，输出实体概率分布。

8、步骤s1所述利用预训练模型获取文本特征表示并构建文本语义图方法为：对于给定的多模态数据集d中文本ta，将文本ta表示为输入的单词序列(w1,w2…wi...wn)，n为文本长度，wi为第i个单词；首先利用预训练模型roberta获取文本ta的词嵌入词嵌入et的获取公式为：其中为第i个单词的原始特征表示，roberta()表示预训练模型函数，然后利用多头注意力机制构建注意力矩阵mz，构建注意力矩阵公式为：其中，softmax()表示归一化函数，h表示多头注意力中的总头数，z表示多头注意力机制中第z个头，d表示的单词wi的嵌入维度，wiq和wik均为参数矩阵；随后，对注意力矩阵采用top-k选择策略，获取语义图语义图获取公式为：其中，top-k()表示top-k操作函数。

9、步骤s1所述利用预训练模型获取文本特征表示并构建文本句法图方法为：首先，利用预训练模型roberta计算单词wi对另一个单词wj的句法影响，wi和wj均表示文本ta中的单词，将单词wi映射单词wi的中间上下文特征表示eθ(w)i，随后使用扰动掩蔽对单词wi进行掩码，形成在没有单词wi的情况下单词wi的上下文特征表示eθ(w\{wi})i，接着，使用扰动掩蔽对单词wj进行掩码，得到在没有单词wi和单词wj的情况下单词wi的上下文特征表示eθ(w\{wi,wj})i，计算上下文特征表示eθ(w\{wi})i和上下文特征表示eθ(w\{wi,wj})i之间的欧氏距离bij＝∥eθ(w\{wi})i-eθ(w\{wi,wj})i∥2，然后，通过对整个文本ta中每一对单词重复执行所述欧氏距离的计算，生成句法影响矩阵b∈rn×n，其中欧氏距离bij∈b表示单词wi对单词wj的句法影响，最后，采用树解码从句法影响矩阵b生成文本句法图

10、步骤s1所述利用图共享卷积网络对文本的上下文特征表示、语义图和句法图进行处理，获取最终文本特征表示的方法为：首先图共享卷积网络利用密集连接图卷积神经网络模型获取卷积层第l层本文档来自技高网...

【技术保护点】

1.一种基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤S1所述利用预训练模型获取文本特征表示并构建文本语义图方法为：对于给定的多模态数据集D中文本Ta，将文本Ta表示为输入的单词序列(w1,w2…wi...wn)，n为文本长度，wi为第i个单词；首先利用预训练模型RoBERTa获取文本Ta的词嵌入词嵌入Et的获取公式为：其中为第i个单词的原始特征表示，RoBERTa()表示预训练模型函数，然后利用多头注意力机制构建注意力矩阵Mz，构建注意力矩阵公式为：其中，softmax()表示归一化函数，h表示多头注意力中的总头数，z表示多头注意力机制中第z个头，d表示的单词wi的嵌入维度，WiQ和WiK均为参数矩阵；随后，对注意力矩阵采用top-k选择策略，获取语义图语义图获取公式为：其中，top-k()表示top-k操作函数。

3.根据权利要求2所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤S1所述利用预训练模型获取文本

4.根据权利要求3所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤S1所述利用图共享卷积网络对文本的上下文特征表示、语义图和句法图进行处理，获取最终文本特征表示的方法为：首先图共享卷积网络利用密集连接图卷积神经网络模型获取卷积层第l层的第j节点的特征表示表示节点j的原始特征表示，表示卷积层1层到l层生成的节点j的特征表示，然后将文本语义图文本句法图馈送到密集连接图卷积神经网络模型进行卷积处理，对文本语义图的处理操作为：其中，是基于文本语义图在密集连接图卷积神经网络模型中第l层卷积层中第i个节点的隐藏特征表示，表示语义图中的一个元素；对文本句法图的处理操作为：其中，是基于文本句法图的在密集连接图卷积神经网络模型中第l层卷积层中第i个节点的隐藏特征表示，表示文本句法图中的一个元素，ρ()表示卷积操作，Wt(l)为卷积层第l层卷积层中两个密集连接图卷积神经网络模型之间的共享参数矩阵，充当密集连接图卷积神经网络模型的共享偏置；最后，经过所有卷积层的卷积操作，在最后一层卷积层分别得到基于文本语义图的文本语义特征表示Ets和基于文本句法图的文本句法特征表示Etf，用Etc＝(Ets+Etf)/2表示最终文本特征表示。

5.根据权利要求4所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤S2所述通过图像字幕生成模型将图像转换为图像标题的实现方法为：图像字幕生成模型TFSGC通过编码获取输入图像的查询向量Q、键向量K、值向量V，利用多头注意力设计图神经网络模型MH＝MHA(Q,K,V)，获取图嵌入MH，采用每个专家建立在MHA上的基于专家混合的解码器，通过前馈神经网络FNN(MH)＝LN(FC(ReLU(FC(MH)))+MH)生成不同类型的单词，LN表示层归一化操作，FC表示全连接层，ReLU为激活函数，从而获得图像标题。

6.根据权利要求4所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤S2所述获取最终图像标题特征表示的方法为：利用预训练模型RoBERTa获取图像标题的词嵌入m表示图像标题中有m个单词，然后利用预训练模型RoBERTa获取图像标题的词嵌入Ea的特征表示并构建图像标题语义图利用预训练模型RoBERTa获取图像标题的词嵌入Ea的特征表示并构建图像标题句法图随后，利用图共享卷积网络对词嵌入Ea、图像标题语义图和图像标题句法图进行处理，获取最终图像标题特征表示Eac。

7.根据权利要求1到6任一项所述的基于依存句法和图神经网络的多模态命名实体识别方法，...

【技术特征摘要】

1.一种基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤s1所述利用预训练模型获取文本特征表示并构建文本语义图方法为：对于给定的多模态数据集d中文本ta，将文本ta表示为输入的单词序列(w1,w2…wi...wn)，n为文本长度，wi为第i个单词；首先利用预训练模型roberta获取文本ta的词嵌入词嵌入et的获取公式为：其中为第i个单词的原始特征表示，roberta()表示预训练模型函数，然后利用多头注意力机制构建注意力矩阵mz，构建注意力矩阵公式为：其中，softmax()表示归一化函数，h表示多头注意力中的总头数，z表示多头注意力机制中第z个头，d表示的单词wi的嵌入维度，wiq和wik均为参数矩阵；随后，对注意力矩阵采用top-k选择策略，获取语义图语义图获取公式为：其中，top-k()表示top-k操作函数。

3.根据权利要求2所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤s1所述利用预训练模型获取文本特征表示并构建文本句法图方法为：首先，利用预训练模型roberta计算单词wi对另一个单词wj的句法影响，wi和wj均表示文本ta中的单词，将单词wi映射单词wi的中间上下文特征表示eθ(w)i，随后使用扰动掩蔽对单词wi进行掩码，形成在没有单词wi的情况下单词wi的上下文特征表示eθ(w\{wi})i，接着，使用扰动掩蔽对单词wj进行掩码，得到在没有单词wi和单词wj的情况下单词wi的上下文特征表示eθ(w\{wi,wj})i，计算上下文特征表示eθ(w\{wi})i和上下文特征表示eθ(w\{wi,wj})i之间的欧氏距离bij＝∥eθ(w\{wi})i-eθ(w\{wi,wj})i∥2，然后，通过对整个文本ta中每一对单词重复执行所述欧氏距离的计算，生成句法影响矩阵b∈rn×n，其中欧氏距离bij∈b表示单词wi对单词wj的句法影响，最后，采用树解码从句法影响矩阵b生成文本句法图

4.根据权利要求3所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤s1所述利用图共享卷积网络对文本的上下文特征表示、语义图和句法图进行处理，获取最终文本特征表示的方法为：首先图共享卷积网络利用密集连接图卷积神经网络模型获取卷积层第l层的第j节点的特征表示表示节点j的原始特征表示，表示卷积层1层到l层生成的节点j的特征表示，然后将文本语义图文本句法图馈送到密集连接图卷积神经网络模型进行卷积处理，对文本语义图的处理操作为：其中，是基于文本语义图在密集连接图卷积神经网络模型中第l层卷积层中第i个节点的隐藏特征表示，表示语义图中的一个元素；对文本句法图的处理操作为：其中，是基于文本句法图的在密集连接图卷积神经网络模型中第l层卷积层中第i个节点的隐藏特征表示，表示文本句法图中的一个元素，ρ()表示卷积操作，wt(l)为卷积层第l层卷积层中两个密集连接图卷积神经网络模型之间的共享参数矩阵，充当密集连接图卷积神经网络模型的共享偏置；最后，经过所有卷积层的卷积操作，在最后一层卷积层分别得到基于文本语义图的文本语义特征表示ets和基于文本句法图的文本句法特征表示etf，用etc＝(ets+etf)/2表示最终文本特征表示。

5.根据权利要求4所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤s2所述通过图像字幕生成模型将图像转换为图像标题的实现方法为：图像字幕生成模型tfsgc通过编码获取输入图像的查询向量q、键向量k、值向量v，利用多头注意力设计图神经网络模型mh＝mha(q,k,v)，获取图嵌入mh，采用每个专家建立在mha上的基于专家混合的解码器，通过前馈神经网络fnn(mh)＝ln(fc(relu(fc(mh)))+mh)生成不同类型的单词，ln表示层归一化操作，fc表示全连接层，relu为激活函数，从而获得图像标题。

6.根据权利要求4所述的基于依存句法和图神经网络的多模态命名实体识别方法，其特征在于，步骤s2...

【专利技术属性】
技术研发人员：马江涛，王艳军，李祖贺，晋文朵，李坤霖，刘博，芦云龙，张六福，卫梦屹，
申请(专利权)人：天津师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人