本发明专利技术涉及一种基于前提的多粒度跨模态推理方法及装置,方法包括:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征;融合粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;基于融合的多粒度特征得到最终的预测结果,使用粗粒度特征提取模块和细粒度特征提取模块分别提取图像和文本对齐后的粗粒度多模态特征和细粒度多模态特征。本发明专利技术能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。显著提高了预测结果的精确性。显著提高了预测结果的精确性。
【技术实现步骤摘要】
基于前提的多粒度跨模态推理方法及装置
[0001]本专利技术涉及跨模态推理
,尤其是指一种基于前提的多粒度跨模态推理方法及装置。
技术介绍
[0002]跨模态推理任务主要作用于视觉和文本上,其目的是让模型基于给定的视觉信息进行语言推理。跨模态推理任务主要包含视觉问答、视觉语言推理和基于前提的跨模态推理等任务。在上述跨模态推理任务中,基于前提的跨模态推理目前研究潜力比较大,对教育,广播影视,网络信息等方面具有潜在的商业价值。基于前提的跨模态推理任务的目标是在给定一张图片配有一条文本形式的前提句和一个问句的情况下,模型需要基于前提线索理解图片,再从四个选项中选择唯一符合问题和图片的答案。
[0003]目前基于前提的跨模态推理任务主要使用多模态蕴含方法,多模态蕴含方法是指利用目标检测提取图像中的目标细粒度特征,随后联合文本前提来进行综合判断,其准确度比较高,但是多模态蕴含方法在利用图像细粒度特征的同时容易忽略图像整体特征完整性,造成部分的信息丢失,在一些需要整体信息参与判断的数据例中,模型存在缺陷。
技术实现思路
[0004]为此,本专利技术所要解决的技术问题在于克服现有技术中存在的技术缺陷,而提出一种基于前提的多粒度跨模态推理方法及装置,其能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。
[0005]为解决上述技术问题,本专利技术提供了 一种基于前提的多粒度跨模态推理方法,包括:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;基于融合的多粒度特征得到最终的预测结果;其中,使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。
[0006]在本专利技术的一个实施例中,在对文本前提和文本选项进行文本拼接前,使用特殊字符将所述文本前提和所述文本选项进行分隔。
[0007]在本专利技术的一个实施例中,所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器,所述文本编码器包括6层文本转换器,所述图像编码器包括12层视觉转换器,所述多模态编码器包括6层多模态转换器。
[0008]在本专利技术的一个实施例中,使用粗粒度特征提取模块提取所述图像和所述文本对齐后的粗粒度多模态特征的方法,包括:
通过图像编码器和文本编码器分别提取整体文本特征和整体视觉特征,并通过多模态编码器将整体视觉特征和整体文本特征对齐,输出粗粒度多模态特征。
[0009]在本专利技术的一个实施例中,所述细粒度特征提取模块包括目标检测器和多模态融合器,所述目标检测器包括快速区域卷积神经网络,所述多模态融合器包括12层转换器。
[0010]在本专利技术的一个实施例中,使用细粒度特征提取模块提取所述图像和所述文本对齐后的细粒度多模态特征的方法,包括:通过目标检测器提取所述图像中的局部实体特征,并将提取的局部实体特征和文本输入共同作为多模态融合器的输入,输出细粒度多模态特征。
[0011]在本专利技术的一个实施例中,融合所述粗粒度多模态特征和细粒度多模态特征的方法,包括:构建多粒度信息融合模块,使用所述多粒度信息融合模块融合所述粗粒度多模态特征和细粒度多模态特征,其中,所述多粒度信息融合模块为一动态的门控单元如下:,式中,表示sigmoid激活函数,、、和表示需要学习的参数,表示细粒度特征权重,表示粗粒度特征权重,表示融合的多粒度特征,表示细粒度多模态特征,表示粗粒度多模态特征。
[0012]在本专利技术的一个实施例中,基于所述融合特征得到最终的预测结果的方法,包括:,式中,MLP表示多层全连接层,表示文本输入,表示图像输入,表示预测的结果。
[0013]此外,本专利技术还提供一种基于前提的多粒度跨模态推理装置,包括:数据输入模块,其用于对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;多粒度多模态特征提取模块,其用于提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;多粒度信息融合模块,其用于融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;预测模块,其用于基于融合的多粒度特征得到最终的预测结果;其中,多粒度多模态特征提取模块包括粗粒度特征提取模块和细粒度特征提取模块,使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。
[0014]在本专利技术的一个实施例中,所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器,所述文本编码器包括6层文本转换器,所述图像编码器包括12层视觉转换器,所述多模态编码器包括6层多模态转换器;所述细粒度特征提取模块包括目标检测器
和多模态融合器,所述目标检测器包括快速区域卷积神经网络,所述多模态融合器包括12层转换器。
[0015]本专利技术的上述技术方案相比现有技术具有以下优点:本专利技术所述的一种基于前提的多粒度跨模态推理方法及装置,其能够充分利用图像模态和文本前提之间的多粒度关系,通过粗细两种粒度的对齐,模型的判别能力大大提升,显著提高了预测结果的精确性。
附图说明
[0016]为了使本专利技术的内容更容易被清楚的理解,下面根据本专利技术的具体实施例并结合附图,对本专利技术作进一步详细的说明。
[0017]图1是本专利技术提出的一种基于前提的多粒度跨模态推理方法的流程示意图。
[0018]图2是本专利技术提出的一种基于前提的多粒度跨模态推理装置的框图。
[0019]图3是本专利技术提出的粗粒度特征提取模块的结构示意图。
[0020]图4是本专利技术提出的细粒度特征提取模块的结构示意图。
[0021]其中,附图标记说明如下:11、粗粒度特征提取模块;111、图像编码器;112、文本编码器;113、多模态编码器;12、细粒度特征提取模块;121、目标检测器;122、多模态融合器;20、多粒度信息融合模块。
具体实施方式
[0022]下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。
[0023]参照图1所示,本专利技术实施例提供一种基于前提的多粒度跨模态推理方法,包括:步骤S101:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;步骤S102:提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;步骤S103:融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;步骤S104:基于融合的多粒度特征得到最终的预测结果。
[0024]其中,在步骤S101中,在对文本前提和文本选项进行文本拼接前,使用特殊字符将所述文本前提和所述文本选项进行分隔,作为示例地,特殊字符可以使用[SEP],即可以使用特殊字符[SEP]将本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于前提的多粒度跨模态推理方法,其特征在于:包括:对文本前提和文本选项进行文本拼接后作为文本输入,原始图像作为图像输入;提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征;融合所述粗粒度多模态特征和细粒度多模态特征,得到融合的多粒度特征;基于融合的多粒度特征得到最终的预测结果;其中,使用粗粒度特征提取模块和细粒度特征提取模块分别提取所述图像和所述文本对齐后的粗粒度多模态特征和细粒度多模态特征。2.根据权利要求1所述的一种基于前提的多粒度跨模态推理方法,其特征在于:在对文本前提和文本选项进行文本拼接前,使用特殊字符将所述文本前提和所述文本选项进行分隔。3.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法,其特征在于:所述粗粒度特征提取模块包括图像编码器、文本编码器和多模态编码器,所述文本编码器包括6层文本转换器,所述图像编码器包括12层视觉转换器,所述多模态编码器包括6层多模态转换器。4.根据权利要求3所述的一种基于前提的多粒度跨模态推理方法,其特征在于:使用粗粒度特征提取模块提取所述图像和所述文本对齐后的粗粒度多模态特征的方法,包括:通过图像编码器和文本编码器分别提取整体文本特征和整体视觉特征,并通过多模态编码器将整体视觉特征和整体文本特征对齐,输出粗粒度多模态特征。5.根据权利要求1或2所述的一种基于前提的多粒度跨模态推理方法,其特征在于:所述细粒度特征提取模块包括目标检测器和多模态融合器,所述目标检测器包括快速区域卷积神经网络,所述多模态融合器包括12层转换器。6.根据权利要求5所述的一种基于前提的多粒度跨模态推理方法,其特征在于:使用细粒度特征提取模块提取所述图像和所述文本对齐后的细粒度多模态特征的方法,包括:通过目标检测器提取所述图像中的局部实体特征,并将提取的局部实体特征和文本输入共同作为多模态融合器的输入,输出细粒度多模态特征。7.根据权利...
【专利技术属性】
技术研发人员:艾春辉,闫旭,曹自强,曹敏,付国宏,
申请(专利权)人:苏州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。