内容生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号：44993121 阅读：3 留言：0更新日期：2025-04-15 17:08

本公开实施例公开了一种内容生成方法、装置、电子设备及存储介质，通过获取查询图像和查询文本，对查询文本进行编码得到第一文本特征，在对查询文本进行编码的过程中，对前馈网络的输出特征进行多种粒度的池化得到多种池化特征，将多种池化特征融合得到融合池化特征，基于融合池化特征与输出特征之和得到第一文本特征，对查询图像进行编码得到视觉特征，将视觉特征与第一文本特征进行融合得到查询特征，根据查询特征检索出参考文本，调用视觉大语言模型基于参考文本、查询图像以及查询文本进行内容生成，得到目标内容，能够提升内容生成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，特别是涉及一种内容生成方法、装置、电子设备及存储介质。

技术介绍

1、随着互联网数据如文本、图像内容的急剧增长，视觉大语言模型的应用变得越来越广泛。视觉大语言模型通常具备理解所输入的查询文本和图像的能力，以生成相应的内容。相关技术中，在利用视觉大语言模型进行内容生成时一般可以采用检索增强生成(rag)的方式，在检索阶段通过检索与输入相关的文本来辅助视觉大语言模型进行推理，然而，在检索阶段，往往对输入的文本的理解能力不足，导致检索得到的文本与输入之间相关性下降，从而降低了内容生成的准确性。

技术实现思路

1、以下是对本公开详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

2、本公开实施例提供了一种内容生成方法、装置、电子设备及存储介质，能够提升内容生成的准确性。

3、一方面，本公开实施例提供了一种内容生成方法，包括：

4、获取查询图像，对所述查询图像进行编码，得到视觉特征；

5、获取查询文本，对所述查询文本进行编码得到第一文本特征，其中，在对所述查询文本进行编码的过程中，对前馈网络的输出特征进行多种粒度的池化得到多种池化特征，将多种所述池化特征融合得到融合池化特征，将所述融合池化特征与所述输出特征进行求和，根据求和结果得到所述第一文本特征；

6、将所述视觉特征与所述第一文本特征进行融合得到查询特征，根据所述查询特征检索出与所述查询文本相关的参考文本；

7、调用视觉大语言模型基于所

8、另一方面，本公开实施例还提供了一种内容生成装置，包括：

9、第一编码模块，用于获取查询图像，对所述查询图像进行编码，得到视觉特征；

10、第二编码模块，用于获取查询文本，对所述查询文本进行编码得到第一文本特征，其中，在对所述查询文本进行编码的过程中，对前馈网络的输出特征进行多种粒度的池化得到多种池化特征，将多种所述池化特征融合得到融合池化特征，将所述融合池化特征与所述输出特征进行求和，根据求和结果得到所述第一文本特征；

11、检索模块，用于将所述视觉特征与所述第一文本特征进行融合得到查询特征，根据所述查询特征检索出与所述查询文本相关的参考文本；

12、生成模块，用于调用视觉大语言模型基于所述参考文本、所述查询图像以及所述查询文本进行内容生成，得到目标内容。

13、进一步，第二编码模块还用于：

14、对前馈网络的输出特征进行局部最大池化得到第一池化特征，对所述输出特征进行分段最大池化得到第二池化特征；

15、将所述第一池化特征与所述第二池化特征融合得到第三池化特征，将所述第三池化特征与所述输出特征进行求和得到融合池化特征。

16、进一步，第二编码模块还用于：

17、根据所述输出特征与第一可学习矩阵得到所述第一池化特征对应的第一权重，根据所述输出特征与第二可学习矩阵得到所述第二池化特征对应的第二权重；

18、根据所述第一权重以及所述第二权重，将所述第一池化特征与所述第二池化特征进行加权求和得到第三池化特征。

19、进一步，第二编码模块还用于：

20、根据所述输出特征与第三可学习矩阵得到第三权重，根据所述第二权重对所述第二池化特征进行加权后与所述第三权重进行哈达玛积；

21、根据所述第一权重对所述第一池化特征进行加权后，与哈达玛积的结果进行求和得到第三池化特征。

22、进一步，第二编码模块还用于：

23、根据前馈网络的输出特征的均值得到填充特征，在所述输出特征的首尾处分别拼接所述填充特征；

24、基于滑动窗口在拼接所述填充特征后的所述输出特征中进行滑动采样，对每次滑动采样得到的特征分别进行最大池化，得到每次滑动采样对应的第一池化子特征；

25、将多个所述第一池化子特征进行拼接，得到第一池化特征。

26、进一步，第二编码模块还用于：

27、基于预设间隔将所述输出特征划分为多个分段子特征；

28、对于任意一个所述分段子特征，对所述分段子特征进行最大池化，得到所述分段子特征对应的第二池化子特征，根据所述分段子特征的尺寸复制所述第二池化子特征，将复制得到的多个所述第二池化子特征进行拼接，得到所述分段子特征对应的第三池化子特征；

29、将多个所述第三池化子特征进行拼接，得到第二池化特征。

30、进一步，第一编码模块还用于：

31、基于所述第一文本特征将所述视觉特征进行聚合以使所述视觉特征与所述第一文本特征对齐；

32、根据所述第一文本特征与对齐后的所述视觉特征的均值，得到查询特征。

33、进一步，第一编码模块还用于：

34、确定所述第一文本特征与所述视觉特征之间的相似性分数，归一化所述相似性分数；

35、根据归一化后的所述相似性分数与温度系数的比值得到聚合权重；

36、根据所述聚合权重将所述视觉特征进行聚合以使所述视觉特征与所述第一文本特征对齐。

37、进一步，生成模块还用于：

38、对所述参考文本进行摘要化，得到总结文本；

39、将所述总结文本、所述查询图像以及所述查询文本输入至视觉大语言模型进行内容生成，得到目标内容。

40、进一步，生成模块还用于：

41、基于所述参考文本、所述图像标题文本以及所述查询文本构建提示文本，其中，所述提示文本用于提示大语言模型根据所述图像标题文本以及所述查询文本总结所述参考文本；

42、将所述提示文本输入至所述大语言模型进行文本生成，得到总结文本。

43、进一步，第一编码模块还用于：

44、对所述查询图像进行对象检测，得到所述视觉对象对应的子图像，基于所述查询图像以及所述子图像构建图像集合；

45、对所述图像集合进行编码，得到视觉特征。

46、进一步，检索模块还用于：

47、对知识库中的各个参考文本进行编码，得到第二文本特征；

48、根据所述查询特征与所述第二文本特征之间的相似度，从多个所述知识库中检索出与所述查询文本相关的所述参考文本。

49、进一步，检索模块还用于：

50、获取同一训练批次中的多个第一样本文本以及与各个所述第一样本文本相关的第二样本文本；

51、通过所述第一文本编码器对所述第一样本文本进行编码，得到第一样本特征；

52、通过所述第二文本编码器对与所述第一样本文本相关的所述第二样本文本进行编码，得到第二样本特征；

53、通过所述第二文本编码器对所述训练批次中与所述第一样本文本不相关的所述第二样本文本进行编码，得到第三样本特征；

54、确定所述第一样本特征与所述第二样本特征本文档来自技高网...

【技术保护点】

1.一种内容生成方法，其特征在于，包括：

2.根据权利要求1所述的内容生成方法，其特征在于，所述对前馈网络的输出特征进行多种粒度的池化得到多种池化特征，将多种所述池化特征融合得到融合池化特征，包括：

3.根据权利要求2所述的内容生成方法，其特征在于，所述将所述第一池化特征与所述第二池化特征融合得到第三池化特征，包括：

4.根据权利要求3所述的内容生成方法，其特征在于，所述根据所述第一权重以及所述第二权重，将所述第一池化特征与所述第二池化特征进行加权求和得到第三池化特征，包括：

5.根据权利要求2所述的内容生成方法，其特征在于，所述对前馈网络的输出特征进行局部最大池化得到第一池化特征，包括：

6.根据权利要求2所述的内容生成方法，其特征在于，所述对所述输出特征进行分段最大池化得到第二池化特征，包括：

7.根据权利要求1所述的内容生成方法，其特征在于，所述将所述视觉特征与所述第一文本特征进行融合得到查询特征，包括：

8.根据权利要求7所述的内容生成方法，其特征在于，所述基于所述第一文本特征将所述视觉特

9.根据权利要求1所述的内容生成方法，其特征在于，所述调用视觉大语言模型基于所述参考文本、所述查询图像以及所述查询文本进行内容生成，得到目标内容，包括：

10.根据权利要求9所述的内容生成方法，其特征在于，所述对所述参考文本进行摘要化，得到总结文本，包括：

11.根据权利要求1所述的内容生成方法，其特征在于，所述对所述查询图像进行编码，得到视觉特征，包括：

12.根据权利要求1所述的内容生成方法，其特征在于，所述根据所述查询特征检索出与所述查询文本相关的参考文本，包括：

13.根据权利要求12所述的内容生成方法，其特征在于，所述第一文本特征通过第一文本编码器编码得到，所述第二文本特征通过第二文本编码器编码得到，所述第一文本编码器以及所述第二文本编码器通过以下步骤训练得到：

14.根据权利要求1所述的内容生成方法，其特征在于，所述对所述查询文本进行编码得到第一文本特征，包括：

15.根据权利要求1所述的内容生成方法，其特征在于，所述参考文本的数量为多个，所述调用视觉大语言模型基于所述参考文本、所述查询图像以及所述查询文本进行内容生成，得到目标内容，包括：

16.一种内容生成装置，其特征在于，包括：

17.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至14任意一项所述的内容生成方法。

18.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14任意一项所述的内容生成方法。

19.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至14任意一项所述的内容生成方法。

...

【技术特征摘要】

1.一种内容生成方法，其特征在于，包括：

3.根据权利要求2所述的内容生成方法，其特征在于，所述将所述第一池化特征与所述第二池化特征融合得到第三池化特征，包括：

5.根据权利要求2所述的内容生成方法，其特征在于，所述对前馈网络的输出特征进行局部最大池化得到第一池化特征，包括：

6.根据权利要求2所述的内容生成方法，其特征在于，所述对所述输出特征进行分段最大池化得到第二池化特征，包括：

7.根据权利要求1所述的内容生成方法，其特征在于，所述将所述视觉特征与所述第一文本特征进行融合得到查询特征，包括：

8.根据权利要求7所述的内容生成方法，其特征在于，所述基于所述第一文本特征将所述视觉特征进行聚合以使所述视觉特征与所述第一文本特征对齐，包括：

10.根据权利要求9所述的内容生成方法，其特征在于，所述对所述参考文本进行摘要化，得到总...

【专利技术属性】
技术研发人员：朱敏，郝彦超，李博，陈曦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人