一种多粒度视觉信息引导的多模态语言生成方法和系统技术方案

技术编号：42900671 阅读：16 留言：0更新日期：2024-09-30 15:16

本发明专利技术涉及一种多粒度视觉信息引导的多模态语言生成方法和系统，方法包括以下步骤：获取视觉输入和文本输入，根据文本输入提取文本输入特征，将视觉输入通过多粒度视觉融合模块处理后，与文本输入特征进行拼接，并输入大语言模型中进行解码获得输出响应；多粒度视觉融合模块将视觉输入插值为低分辨率数据和高分辨率数据，并分别进行特征提取，得到低分辨率特征和高分辨率特征，并提取出对象级特征；将低分辨率特征与高分辨率特征融合后，得到融合特征，再与对象级特征拼接，得到输出的特征结果。与现有技术相比，本发明专利技术具有提升了多模态大语言模型的细粒度感知和理解能力，提升了多模态大语言模型的性能等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其是涉及一种多粒度视觉信息引导的多模态语言生成方法和系统。

技术介绍

1、传统的多模态大语言模型，比如llava，如图1所示，采用的是视觉编码器-投影层-大语言模型的范式，视觉输入经过视觉编码器编码，然后通过投影层将特征与大语言模型的输入进行对齐，最后与文本输入拼接后送入大语言模型进行解码。但是受限于大语言模型输入长度变化带来的计算量的大幅增长，llava只采用了低分辨率(336×336)视觉输入。后来的工作，如图2所示，如llava-uhd通过将高分辨率输入切分为多个，分别输入进视觉编码器然后拼接在一起，提升了视觉输入的分辨率，进一步提升了多模态大语言模型的性能。

2、现有的多模态大语言模型大多只采用低分辨率的输入，这导致模型在小物体的识别上性能较差，同时在识别文本的过程中也面临困难。而如果直接提升视觉输入的分辨率，输入长度会大幅增长，带来无法承受的计算成本。此外，将高分辨率输入切分为多个输入虽然可以缓解这一问题，但是模型仍然缺少对视觉输入更细粒度的信息，因此导致模型无法感知到场景中的部分物体。

技术实现思路

1、本专利技术的目的就是为了克服上述现有技术存在直接提升视觉输入的分辨率，输入长度会大幅增长，带来无法承受的计算成本；将高分辨率输入切分为多个输入，仍然缺少对视觉输入更细粒度的信息，因此导致模型无法感知到场景中的部分物体的缺陷而提供一种多粒度视觉信息引导的多模态语言生成方法和系统。

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种多粒度视觉信息引导的多模态语言生成方法，包括以下步骤：

4、获取视觉输入和文本输入，根据文本输入提取文本输入特征，将视觉输入通过多粒度视觉融合模块处理后，与文本输入特征进行拼接，并输入大语言模型中进行解码获得输出响应；

5、所述多粒度视觉融合模块将视觉输入插值为低分辨率数据和高分辨率数据，并分别进行特征提取，得到低分辨率特征和高分辨率特征，并提取出对象级特征；将低分辨率特征与高分辨率特征融合后，得到融合特征，再与对象级特征拼接，得到输出的特征结果。

6、进一步地，所述多粒度视觉融合模块采用低分辨率视觉编码器对低分辨率数据提取特征，采用高分辨率视觉编码器对高分辨率数据提取特征。

7、进一步地，所述对象级特征的提取过程具体为：

8、采用标注模型对视觉输入进行类别标注，根据视觉输入和标注的类别获得视觉输入的边界框；根据视觉输入的边界框和高分辨率特征，通过特征区域对齐，获取边界框对应的对象级特征，并对获取的各个对象级特征进行拼接。

9、进一步地，对各个对象级特征进行拼接过程中，将各个对象级特征进行全局平均池化后拼接。

10、进一步地，将低分辨率特征与高分辨率特征融合的过程具体为：

11、将低分辨率特征与高分辨率特征分别经过一维卷积模块进行通道变换；将变换后的两个特征拼接在一起送入门控网络中生成高分辨率特征的权重；将该高分辨率特征的权重与高分辨率特征相乘后与低分辨率特征相加，得到所述融合特征。

12、进一步地，所述视觉输入为图片或视频。

13、进一步地，所述融合特征和对象级特征均分别通过投影层，转化为适用于大语言模型的特征后，进行拼接。

14、本专利技术还提供一种多粒度视觉信息引导的多模态语言生成系统，包括：

15、数据输入模块，用于获取视觉输入和文本输入；

16、文本嵌入模块，用于根据文本输入提取文本输入特征；

17、多粒度视觉融合模块，用于将视觉输入插值为低分辨率数据和高分辨率数据，并分别进行特征提取，得到低分辨率特征和高分辨率特征，并提取出对象级特征；将低分辨率特征与高分辨率特征融合后，得到融合特征，再与对象级特征拼接，得到输出的特征结果；

18、视觉文本拼接模块，用于将多粒度视觉融合模块输出的特征与文本输入特征进行拼接；

19、大语言模型，用于对视觉文本拼接模块输出的拼接结果进行解码获得输出响应。

20、进一步地，所述多粒度视觉融合模块包括：

21、插值模块，用于将视觉输入插值为低分辨率数据和高分辨率数据；

22、低分辨率视觉编码器，用于对低分辨率数据提取特征，得到低分辨率特征；

23、高分辨率视觉编码器，用于对高分辨率数据提取特征，得到高分辨率特征；

24、对象级特征提取模块，用于采用标注模型对视觉输入进行类别标注，根据视觉输入和标注的类别获得视觉输入的边界框；根据视觉输入的边界框和高分辨率特征，通过特征区域对齐，获取边界框对应的对象级特征，并对获取的各个对象级特征进行拼接；

25、卷积门控融合模块，用于将低分辨率特征与高分辨率特征分别经过一维卷积模块进行通道变换；将变换后的两个特征拼接在一起送入门控网络中生成高分辨率特征的权重；将该高分辨率特征的权重与高分辨率特征相乘后与低分辨率特征相加，得到所述融合特征；

26、多粒度拼接模块，用于将融合特征与对象级特征拼接，得到输出的特征结果。

27、进一步地，所述多粒度视觉融合模块还包括第一投影层和第二投影层，分别用于将融合特征和对象级特征转化为适用于大语言模型的特征后拼接。

28、与现有技术相比，本专利技术具有以下优点：

29、(1)本专利技术在传统的低分辨率视觉输入和高分辨率输入之外，首次将对象级别的输入引入多模态大语言模型中，通过将低分辨率特征、高分辨率特征、对象级别的特征进行高效融合，提升了多模态大语言模型的细粒度感知和理解能力，提升了多模态大语言模型的性能，尤其在感知任务上性能的提升尤为显著。

30、(2)本专利技术通过轻量级的卷积-门控融合模块，首先通过门控网络根据低分辨率特征和高分辨率特征生成高分辨率特征的权重，将该权重与高分辨率特征相乘后与低分辨率特征相加在一起获得融合特征；在这个过程中高分辨率特征与低分辨率特征互相融合，并且输入的长度保持不变，几乎没有带来计算量的提升；使得整体方案在计算量小幅增长的情况下大幅提升了模型的性能。

31、(3)本专利技术与多个不同规模的大语言模型进行了实验对比，大小从3.8b(billion)参数到34b参数不等，均取得了超过当前其他先进方法的性能，展现了本专利技术方法的泛化能力。

本文档来自技高网...

【技术保护点】

1.一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，所述多粒度视觉融合模块采用低分辨率视觉编码器对低分辨率数据提取特征，采用高分辨率视觉编码器对高分辨率数据提取特征。

3.根据权利要求1所述的一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，所述对象级特征的提取过程具体为：

4.根据权利要求3所述的一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，对各个对象级特征进行拼接过程中，将各个对象级特征进行全局平均池化后拼接。

5.根据权利要求3所述的一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，将低分辨率特征与高分辨率特征融合的过程具体为：

6.根据权利要求1所述的一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，所述视觉输入为图片或视频。

7.根据权利要求1所述的一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，所述融合特征和对象级特征均分别通过投影层，转化为适用于大语言模型的特征后，进行拼接。

8.一种多粒度视觉信息引导的多模态语言生成系统，其特征在于，包括：

9.根据权利要求8所述的一种多粒度视觉信息引导的多模态语言生成系统，其特征在于，所述多粒度视觉融合模块包括：

10.根据权利要求9所述的一种多粒度视觉信息引导的多模态语言生成系统，其特征在于，所述多粒度视觉融合模块还包括第一投影层和第二投影层，分别用于将融合特征和对象级特征转化为适用于大语言模型的特征后拼接。

...

【技术特征摘要】

1.一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，所述对象级特征的提取过程具体为：

5.根据权利要求3所述的一种多粒度视觉信息引导的多模态语言生成方法，其特征在于，将低分辨率特征与高分辨率特征融合的过程具体为：...

【专利技术属性】
技术研发人员：赵翔宇，李祥泰，黄海安，段浩东，李亦宁，陈恺，杨华，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人