基于视觉图像的对话方法、电子设备及存储介质技术

技术编号：40946906 阅读：24 留言：0更新日期：2024-04-18 20:20

本公开提供了一种基于视觉图像的对话方法、电子设备及存储介质，涉及信息处理技术领域。本公开实施例中，可以结合目标图像、位置描述信息以及对话问题信息，得到用于回复对话问题信息的对话答案信息，因此该对话答案信息是结合位置描述信息对应的图像位置处的图像内容、以及目标图像的整体内容、并针对对话问题信息得到的，因此，本公开实施例中的对话模型可以具备更强大更全面的认知推理能力，从而针对对话问题信息，给出更加准确的对话答案信息。

全部详细技术资料下载

【技术实现步骤摘要】

本公开实施例涉及信息处理，尤其涉及一种基于视觉图像的对话方法、电子设备及存储介质。

技术介绍

1、随着人工智能技术的发展，以chatgpt/gpt4为代表的语言模型受到的广泛的关注和应用。为了将视觉模态融入到语言模型中，相关技术中，将图像编码器和语言模型通过不同的方式进行连接，并通过在大规模图像文本数据中的训练赋予语言模型一定的图像感知能力。然而，这些模型依然局限于对整体图像进行较为模糊的对话。为了让该类多模态系统更加精准地感知用户意图，相关技术中使用预训练的语言模型作为中央控制器，将用户基于语言和点击输入转为控制信号以驱动具备不同功能的预训练视觉模型协作完成ocr、图像生成、图像编辑等若干功能。然而，这种方案仅仅简单地对各类预训练模型进行拼接与组合，在性能方面依然存在很大的缺陷。第一，这种组合式架构极大地限制了模型的运行效率。语言模型需要结合上游的视觉模型的输出完成规划，以控制下游的视觉模型完成目标功能。相对于原始的语言模型，上游和下游的视觉模型会进一步降低交互系统的运行效率。第二，这种架构将使得语言模型的综合性能受限于某一个具体的前驱模块，例如interngpt的点击感知能力源自于其拼接了sam与ocr这两个模型，故模型只能与用户在场景文字相关的区域进行交互，并不能对任意图片内容进行聊天。

技术实现思路

1、本公开实施例提供一种基于视觉图像的对话方法、电子设备及存储介质，以至少部分解决相关技术中存在的问题。

2、本公开实施例第一方面提供了一种基于视觉图像的对话方法，所述方法包括：

3、获得目标图像，以及获得所述目标图像中目标对象的位置描述信息；

4、获得对话问题信息；

5、基于所述目标图像、所述位置描述信息以及所述对话问题信息，得到用于回复所述对话问题信息的对话答案信息；

6、输出所述对话答案信息。

7、本公开实施例第二方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本公开第一方面所述的方法中的步骤。

8、本公开实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本公开第一方面所述的方法中的步骤。

9、本公开实施例第四方面提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如本公开第一方面所述的方法中的步骤。

10、基于本公开实施例提供的技术方案，用户可以在目标图像上通过交互操作选定目标图像的任意图像区域，并基于该任意图像区域对应的位置描述信息、目标图像和对话问题信息，得到对应的对话答案信息，可以实现更加智能的语言交互功能，提升用户体验。

11、本公开实施例中提供的基于视觉图像的对话方法，可以结合目标图像、位置描述信息以及对话问题信息，得到用于回复对话问题信息的对话答案信息，因此该对话答案信息是结合位置描述信息对应的图像位置处的图像内容、以及目标图像的整体内容、并针对对话问题信息得到的，因此，本公开实施例中的对话模型可以具备更强大更全面的认知推理能力，从而针对对话问题信息，给出更加准确的对话答案信息。

12、本公开实施例提供的基于视觉图像的对话方法，直接通过目标图像和位置描述信息确定用户感兴趣的图像位置处的图像内容，无需结合ocr、图像生成、图像编辑等若干功能，无需对各类图像处理模型进行拼接与组合，不影响交互系统的整体运行效率，并且，本公开基于目标图像和位置描述信息确定用户感兴趣的图像位置处的图像内容，使得用户可以任意选择图像位置，结合任意图片位置中的内容进行聊天。

本文档来自技高网...

【技术保护点】

1.一种基于视觉图像的对话方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获得所述目标图像中目标对象的位置描述信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，获得对话问题信息，包括以下任一者：

4.根据权利要求1所述的方法，其特征在于，在输出所述对话答案信息之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，在输出所述对话答案信息之后，所述方法还包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，通过预先训练的对话模型对所述目标图像和所述组合文本进行处理，包括：

8.根据权利要求7所述的方法，其特征在于，所述对话模型是按照以下步骤训练得到的：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-8任一项所述的基于视觉图像的对话方法的步骤。

10.一种计算机可读存储

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-8任一项所述的基于视觉图像的对话方法的步骤。

...

【技术特征摘要】

1.一种基于视觉图像的对话方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获得所述目标图像中目标对象的位置描述信息，包括：

3.根据权利要求1或2所述的方法，其特征在于，获得对话问题信息，包括以下任一者：

4.根据权利要求1所述的方法，其特征在于，在输出所述对话答案信息之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，在输出所述对话答案信息之后，所述方法还包括：

6.根据权利要求1-5任一所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，通过预先训练的对话模型对所述目标图像和所述...

【专利技术属性】
技术研发人员：赵亮，葛政，魏浩然，于恩，彭雨昂，周鸿宇，董润沛，张祥雨，
申请(专利权)人：北京迈格威科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人