基于前提的多粒度跨模态推理方法及装置制造方法及图纸

技术编号：37881020 阅读：27 留言：0更新日期：2023-06-15 21:09

本发明专利技术涉及一种基于前提的多粒度跨模态推理方法及装置，方法包括：对文本前提和文本选项进行文本拼接后作为文本输入，原始图像作为图像输入；提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征；融合粗粒度多模态特征和细粒度多模态特征，得到融合的多粒度特征；基于融合的多粒度特征得到最终的预测结果，使用粗粒度特征提取模块和细粒度特征提取模块分别提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征。本发明专利技术能够充分利用图像模态和文本前提之间的多粒度关系，通过粗细两种粒度的对齐，模型的判别能力大大提升，显著提高了预测结果的精确性。显著提高了预测结果的精确性。显著提高了预测结果的精确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于前提的多粒度跨模态推理方法及装置

[0001]本专利技术涉及跨模态推理
，尤其是指一种基于前提的多粒度跨模态推理方法及装置。

技术介绍

[0002]跨模态推理任务主要作用于视觉和文本上，其目的是让模型基于给定的视觉信息进行语言推理。跨模态推理任务主要包含视觉问答、视觉语言推理和基于前提的跨模态推理等任务。在上述跨模态推理任务中，基于前提的跨模态推理目前研究潜力比较大，对教育，广播影视，网络信息等方面具有潜在的商业价值。基于前提的跨模态推理任务的目标是在给定一张图片配有一条文本形式的前提句和一个问句的情况下，模型需要基于前提线索理解图片，再从四个选项中选择唯一符合问题和图片的答案。
[0003]目前基于前提的跨模态推理任务主要使用多模态蕴含方法，多模态蕴含方法是指利用目标检测提取图像中的目标细粒度特征，随后联合文本前提来进行综合判断，其准确度比较高，但是多模态蕴含方法在利用图像细粒度特征的同时容易忽略图像整体特征完整性，造成部分的信息丢失，在一些需要整体信息参与判断的数据例中，模型存在缺陷。

技术实现思路

[0004]为此，本专利技术所要解决的技术问题在于克服现有技术中存在的技术缺陷，而提出一种基于前提的多粒度跨模态推理方法及装置，其能够充分利用图像模态和文本前提之间的多粒度关系，通过粗细两种粒度的对齐，模型的判别能力大大提升，显著提高了预测结果的精确性。
[0005]为解决上述技术问题，本专利技术提供了一种基于前提的多粒度跨模态推理方法，包括：对文本前提和文本选项进行文本拼...

【技术保护点】

【技术特征摘要】
1.一种基于前提的多粒度跨模态推理方法，其特征在于：包括：对文本前提和文本选项进行文本拼接后作为文本输入，原始图像作为图像输入；提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征；融合所述粗粒度多模态特征和细粒度多模态特征，得到融合的多粒度特征；基于融合的多粒度特征得到最终的预测结果；其中，使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。2.根据权利要求1所述的一种基于前提的多粒度跨模态推理方法，其特征在于：在对文本前提和文本选项进行文本拼接前，使用特殊字符将所述文本前提和所述文本选项进行分隔。3.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法，其特征在于：所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器，所述文本编码器包括6层文本转换器，所述图像编码器包括12层视觉转换器，所述多模态编码器包括6层多模态转换器。4.根据权利要求3所述的一种基于前提的多粒度跨模态推理方法，其特征在于：使用粗粒度特征提取模块提取所述图像和所述文本对齐后的粗粒度多模态特征的方法，包括：通过图像编码器和文本编码器分别提取整体文本特征和整体视觉特征，并通过多模态编码器将整体视觉特征和整体文本特征对齐，输出粗粒度多模态特征。5.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法，其特征在于：所述细粒度特征提取模块包括目标检测器和多模态融合器，所述目标检测器包括快速区域卷积神经网络，所述多模态融合器包括12层转换器。6.根据权利要求5所述的一种基于前提的多粒度跨模态推理方法，其特征在于：使用细粒度特征提取模块提取所述图像和所述文本对齐后的细粒度多模态特征的方法，包括：通过目标检测器提取所述图像中的局部实体特征，并将提取的局部实体特征和文本输入共同作为多模态融合器的输入，输出细粒度多模态特征。7.根据权利...

【专利技术属性】
技术研发人员：艾春辉，闫旭，曹自强，曹敏，付国宏，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人