一种基于多粒度特征增强的多模态命名实体识别方法技术

技术编号：44253078 阅读：5 留言：0更新日期：2025-02-11 13:50

本发明专利技术公开了一种基于多粒度特征增强的多模态命名实体识别方法，首先对输入数据进行单模态特征提取，之后基于单模态特征提取的结果进行输入数据的多模态多粒度特征交互，最后基于多粒度特征交互的结果进行输入数据的标签预测，完成实体识别。本发明专利技术的方案定义了一种可用于多媒体图文帖子的多模态命名实体识别的框架，其中单模态特征提取率先降低了文本和图像自身无关干扰的结果的影响，具备处理非正式和短文本内容的性能，有效解决数据稀疏嘈杂的问题，多模态的多粒度语义交互充分考虑文本和图片的相关性、图片特征局部和整体的必要性，获得文本所需的更全面的视觉指导，从而提高最终标签预测的准确性，本实验在twitter数据集上有很好的实验结果，具有一定推广实用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器学习、自然语言处理领域，具体涉及一种基于多粒度特征增强的多模态命名实体识别方法。

技术介绍

1、社交媒体成为人们分享日常、表达观点的主要途径，发帖量也随之增加。这种图文结合的表现方式使得用户表达更具准确度、趣味性、多元性，更好地反映出用户的需求、情感，同时也为自然语言处理(nlp)提供了大量丰富的原始语料数据。命名实体识别(ner)作为许多信息提取任务的前奏，旨在从原始文本数据中发现多个类别的命名实体，例如人员(per)、位置(loc)和组织(org)。目前基于文本的ner方法在格式良好的文本上有很好的性能，如新闻报道文本等，借助cnn、lstm和transformer学习上下文，通过softmax和crf用于解码。但是社交媒体文本往往包含非正式、口语化的表达，甚至错别字、拼写错误，同时短文本包含较少的上下文信息，这样的文本内容导致数据稀疏，影响准确性。多模态命名实体识别(mner)的提出关注到相关图片中的视觉特征，借助视觉信息增强语言特征来获得比ner更好的结果，主要是使用整个图片对每个单词编码，或者是用文本向量与视觉对象特征建立对齐。

2、尽管如此，多模态命名实体识别依旧重视文本内容，非正式的表达、缺少上下文依旧是需要克服是挑战；另外，全图可能存在大量无关紧要的信息，这对实体提取存在一定的干扰，因此不能只关注到整图的视觉特征而忽略了图像中的对象对于文本中单词的语义对应关系。因此急需一种多模态命名实体识别方法解决上诉问题，并进一步提高多模态命名实体识别在社交媒体帖子上的准确性。

<p>技术实现思路

1、针对上述问题，本专利技术的目的在于提供一种基于多粒度特征增强的多模态命名实体识别方法。

2、实现本专利技术目的的具体技术方案为：

3、一种基于多粒度特征增强的多模态命名实体识别方法，包括以下步骤：

4、步骤1、对输入数据进行单模态特征提取；

5、步骤2、基于单模态特征提取的结果进行输入数据的多模态多粒度特征交互；

6、步骤3、基于多粒度特征交互的结果进行输入数据的标签预测，完成实体识别。

7、相比于现有技术，本专利技术的有益效果在于：

8、(1)本专利技术的方案使用训练成熟的文本特征增强技术获取每个单词输入的上下文表示，有效弱化文本非正式表达中存在的干扰，增强文本中有效词的权重；文本特征与多粒度图片特征交互，多重考虑文本与全局特征、文本与局部特征、文本与图片匹配的对应关系，找到对文本特征有支持作用的图片为依据，减少图片无关噪声的影响，进一步提高命名实体识别的准确性；

9、(2)本专利技术在多模态交互阶段构建多重跨模态transformer结构，多级语义交互充分学习图像最有价值的词感知多模态表示，更精准、更全面地为文本提供所需的视觉线索；

10、(3)本专利技术基于多粒度特征增强的多模态命名实体识别方法定义了一种可用于多媒体图文帖子的多模态命名实体识别的框架，其中单模态特征提取率先降低了文本和图像自身无关干扰的结果的影响，具备处理非正式和短文本内容的性能，有效解决数据稀疏嘈杂的问题；本方案的多模态的多粒度语义交互充分考虑文本和图片的相关性、图片特征局部和整体的必要性，获得文本所需的更全面的视觉指导，从而提高最终标签预测的准确性，本实验在twitter数据集上有很好的实验结果。

11、下面结合具体实施方式对本专利技术做进一步的说明。

本文档来自技高网...

【技术保护点】

1.一种基于多粒度特征增强的多模态命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多粒度特征增强的多模态命名实体识别方法，其特征在于，所述步骤1中的单模态特征提取，具体为：

3.根据权利要求2所述的基于多粒度特征增强的多模态命名实体识别方法，所述步骤1-1中的文本信息的特征提取方式包括BERT模型、语义增强和CLIP模型；

4.根据权利要求2所述的基于多粒度特征增强的多模态命名实体识别方法，其特征在于，所述步骤1-2中的图片特征提取方式包括ResNet网络、MASK RCNNL模型以及CLIP模型；

5.根据权利要求4所述的基于多粒度特征增强的多模态命名实体识别方法，其特征在于，所述步骤2中的输入数据的多模态多粒度特征交互，具体为：

6.根据权利要求5所述的基于多粒度特征增强的多模态命名实体识别方法，其特征在于，所述步骤2-2中的基于跨模态transformer进行多级语义交互，具体为：

7.根据权利要求5所述的基于多粒度特征增强的多模态命名实体识别方法，其特征在于，所述步骤3中的标签预测，具体为：

8.一种基于多粒度特征增强的多模态命名实体识别系统，其特征在于，包括以下模块：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述方法的步骤。

10.一种计算机可存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于多粒度特征增强的多模态命名实体识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多粒度特征增强的多模态命名实体识别方法，其特征在于，所述步骤1中的单模态特征提取，具体为：

3.根据权利要求2所述的基于多粒度特征增强的多模态命名实体识别方法，所述步骤1-1中的文本信息的特征提取方式包括bert模型、语义增强和clip模型；

4.根据权利要求2所述的基于多粒度特征增强的多模态命名实体识别方法，其特征在于，所述步骤1-2中的图片特征提取方式包括resnet网络、mask rcnnl模型以及clip模型；

5.根据权利要求4所述的基于多粒度特征增强的多模态命名实体识别方法，其特征在于，所述步骤2中的输入数据的多模态多粒度特征交互，具体为：

【专利技术属性】
技术研发人员：张鹏，郭雨，曾港艳，秦绪功，张可欣，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人