基于实体对齐和跨模态推理的视觉文本问答方法技术

技术编号：42375920 阅读：19 留言：0更新日期：2024-08-16 15:00

本发明专利技术公开了一种基于实体对齐和跨模态推理的视觉文本问答方法，所述方法包括如下步骤：步骤一、提出VTQA任务；步骤二、构建VTQA数据集；步骤三、构建KECMRN模型；步骤四、利用训练集和验证集训练KECMRN模型；步骤五、利用测试开发集对训练好的KECMRN模型进行筛选，将测试集输入筛选后的最佳KECMRN模型中，得到问题答案。该方法为了更全面的评估，引入了一个新数据集，包含来自10,124对图文对的23,781个问题，这个数据集的任务要求模型对同一实体的多模态表示进行对齐，以实现图像和文本之间的多跳推理，并最终使用自然语言回答问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种视觉问答方法，具体涉及一种基于实体对齐和跨模态推理的视觉文本问答(vtqa)方法。

技术介绍

1、在人工智能研究中，一个重要的目标是赋予系统理解真实世界的能力，类似于人类的理解。问答(qa)是一个有效的任务，用于评估人工智能系统的认知能力。为了回答问题，人们需要从多种模态(如文本、图像和结构化数据，如知识库、图形和表格)中提取信息。此外，人们需要对齐信息并在不同模态之间进行多步骤推理。

2、视觉问答(vqa)旨在基于图像回答自然语言问题，这要求模型在视觉-语言联合空间中理解并推理。在过去的几年中，已经提出了几个数据集，如daquar、fm-iqa、vqa、cocoqa、visual7w、visual genome、gqa、okvqa、a-okvqa、vizwizqa等。这些数据集中的自然语言问题可以被视为指导模型完成视觉任务(如对象检测、场景识别、计数等)的指令。尽管vqa作为多模态qa任务已被广泛研究，但是vqa模型在回答问题时仅从图像中提取信息，并且主要关注场景识别、计数、颜色和其他视觉检测任务，这些任务不需要太多逻辑推理或不同模态之间的分配。

3、最近有一些尝试将更多模态信息引入vqa任务。例如：(1)fvqa和kbvqa结合知识库(kb)与vqa任务，这要求具有知识理解和多步骤推理的能力，但构建一个全面的kb在真实世界中是困难的，因此限制了其回答开放式问题的能力；(2)textbookqa和scienceqa使用教科书作为数据源，涉及文本、图像、表格和其他多模态信息。但这些数据集

4、为了解决这些问题，最近出现了一些新数据集，如multimodalqa和mumuqa，它们涉及跨文本、图像和表格的推理。然而，值得注意的是，这些数据集都是用抽取式问答的形式进行的。在multimodalqa数据集中，每个图像对应于一个维基百科实体，将图像推理简化为根据这些实体对图像进行排名，这减少了跨模态推理能力的必要性。对于mumuqa，尽管它需要在图像和文本之间进行对齐和多跳推理，但仍存在一些问题：(1)数据全部来自新闻，导致大多数问题与人类有关；(2)问题都遵循特定模式：首先执行图像文本实体对齐，然后在新闻正文文本中找到答案；(3)只有1384个人类策划的例子，训练数据是自动生成的，这导致数据质量差且难以训练。当前的多模态基准测试仍然远远没有达到真实世界的qa场景，不能很好地衡量人工智能系统的多模态理解能力。mumuqa数据集是一个基于新闻的qa数据集，其图像和问题主要涉及人和事件。该数据集只有少量的人工标记数据，大部分数据是通过自动化方法生成的，因此可能存在很多噪声和错误。

技术实现思路

1、为了解决
技术介绍
存在的上述问题，本专利技术提供了一种基于实体对齐和跨模态推理的视觉文本问答方法。该方法为了更全面的评估，引入了一个新数据集，包含来自10,124对图文对的23,781个问题，这个数据集的任务要求模型对同一实体的多模态表示进行对齐，以实现图像和文本之间的多跳推理，并最终使用自然语言回答问题。

2、本专利技术的目的是通过以下技术方案实现的：

3、一种基于实体对齐和跨模态推理的视觉文本问答方法，包括如下步骤：

4、步骤一、提出vtqa任务：

5、步骤一一、给定一个图文对和一个问题；

6、步骤一二、分析问题并找出关键实体；

7、步骤一三、对齐图像和文本中的关键实体；

8、步骤一四、根据问题和对齐的实体生成答案；

9、步骤二、构建vtqa数据集：

10、步骤二一、通过注释界面收集数据：

11、在第一轮标注中，向注释者展示mscoco数据集的图像及其对应的图像描述，以及对象检测标签，注释者生成超过100字的文本，其中应包含图像中的对象，并包含图像描述中未包含的信息；注释者根据图文对想出问题，注释过程要求问题不能仅通过图像或文本来回答，每个图文对被标注1～4个问题；

12、在第二轮标注中，不同的注释者被要求确定问题是否可以仅依赖于相应的文本-问题对或图像-问题对中的图像或文本来回答；通过这一检查的问题将被标注答案和答案类别，答案设置了三个类别：(1)yn表示是或否的答案，(2)e表示答案从文本中提取，(3)g表示答案根据图文对生成；

13、步骤二二、随机将数据集分割为训练集、验证集、测试开发集和测试集；

14、步骤三、构建关键实体跨模态推理网络(key entity cross-modal reasoningnetwork,kecmrn)模型：

15、所述kecmrn模型由单层lstm网络、kecmr模块、注意力压缩层构成，输入图像以自底向上的方式表示为一组区域视觉特征，输入问题和文本通过一个单层lstm网络转换为特征，多次使用kecmr模块提取关键实体并进行多步骤跨模态推理，使用注意力压缩层融合多媒体特征，并将融合的多媒体特征投影到答案概率分布中；

16、所述kecmr模块由一个关键实体提取(key entity extract，kee)层和多个跨模态推理(cross-modal reason，cmr)层组成，kee层和cmr层由注意力单元和前馈单元组成；

17、给定一组查询qr∈rn×d，n个键值对，通过以下方式获得被关注的特征：

18、

19、其中，k∈rn×d为键矩阵，v∈rn×d为值矩阵，d是矩阵中向量的维度；

20、注意力单元将输入分成h部分，并在每部分上进行单头注意力，特征由以下公式给出：

21、mh(qr，k，v)＝concat(head1，…，headh)wo

22、

23、其中，和是投影矩阵，dh是每个头的输出特征维度；

24、前馈单元接受注意力单元的输出特征，并通过两个带有relu激活的全连接层进一步转换输出特征：

25、ffn(x)＝max(0，xw1+b1)w2+b2

26、其中是投影矩阵，b1和b2是偏置量；

27、kee层组合注意力单元和前馈单元，将问题信息整合到文本和图像中，对问题感知的文本/图像特征应用一个全连接层，以获得每个特征的分数，提取前k个特征作为关键实体，kee层由以下公式描述：

28、q＝ffn(mh(q，q，q))

29、t＝ffn(mh(mh(t，t，t)，q，q))

30、scoret＝wtt+bt

31、其中，q为问题特征，t为输入文本特征，图像特征i的处理与输入文本特征的处理一致；

32、cmr层从输入特征中收集关键实体作为其中lk是所有关键实体的总数，关键实体通过自注意力、基于原始特征的全局交叉注意力和前馈单元分散到输入特征中，cmr层由以下公本文档来自技高网...

【技术保护点】

1.一种基于实体对齐和跨模态推理的视觉文本问答方法，其特征在于所述方法包括如下步骤：

2.根据权利要求1所述的基于实体对齐和跨模态推理的视觉文本问答方法，其特征在于所述KECMR模块由一个关键实体提取KEE层和多个跨模态推理CMR层组成，KEE层和CMR层由注意力单元和前馈单元组成；

3.根据权利要求2所述的基于实体对齐和跨模态推理的视觉文本问答方法，其特征在于所述注意力压缩层由以下公式描述：

【技术特征摘要】

1.一种基于实体对齐和跨模态推理的视觉文本问答方法，其特征在于所述方法包括如下步骤：

2.根据权利要求1所述的基于实体对齐和跨模态推理的视觉文本问答方法，其特征在于所述kecmr模块由一个关键实体提...

【专利技术属性】
技术研发人员：邬向前，卜巍，陈康，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人