一种基于截图的视觉语言模型交互方法、设备及介质技术

技术编号：44399310 阅读：3 留言：0更新日期：2025-02-25 10:12

本申请公开了一种基于截图的视觉语言模型交互方法、设备及介质，涉及多模态大模型技术领域，方法包括：基于预设的截图目录，对截图目录的目录时间戳进行时间戳遍历分析，确定用户当前截图数据；对用户当前截图数据进行分析模型推荐评估，以得到优选分析模型；根据优选分析模型，通过调用函数配置，确定优选分析模型的调用函数；基于调用函数，将用户当前截图输入优选分析模型，得到文本分析数据；获取用户指令数据，并对用户指令数据和文本分析数据进行综合语义分析，以得到截图分析结果。本申请通过上述方法解决了用户截图图像信息搜索操作流程繁琐的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及多模态大模型，尤其涉及一种基于截图的视觉语言模型交互方法、设备及介质。

技术介绍

1、近年来，随着深度学习与人工智能技术的快速发展，视觉-语言模型成为了实现多模态信息处理的重要工具之一。在视觉-语言模型的细分应用场景中，基于截图的自动分析需求逐步增多。通过对截图内容的快速理解与信息提取，频繁使用计算机进行学习、工作的个人用户可以实现便捷高效的截图内容获取、提问与分析等功能，从而提升日常使用体验和信息检索的效率。

2、许多计算机用户在日常操作中经常需要将屏幕上的内容进行搜索查询，包括文字和图像。然而，文字搜索过程中，用户也通常需要先手动复制文字，再打开浏览器逐步执行搜索。如果涉及图像内容，尤其是希望获取图案中某些细节的进一步解释，即使借助现有的多模态大模型工具，用户仍需复制图像并打开特定网站，操作流程繁琐，用户体验差的同时，降低了工作流程的效率。

技术实现思路

1、本申请实施例提供了一种基于截图的视觉语言模型交互方法、设备及介质，解决了用户截图图像信息搜索操作流程繁琐的技术问题。

2、第一方面，本申请实施例提供了一种基于截图的视觉语言模型交互方法，其特征在于，方法包括：基于预设的截图目录，对截图目录的目录时间戳进行时间戳遍历分析，确定用户当前截图数据；对用户当前截图数据进行分析模型推荐评估，以得到优选分析模型；根据优选分析模型，通过调用函数配置，确定优选分析模型的调用函数；基于调用函数，将用户当前截图输入优选分析模型，得到文本分析数据；获取用户指令数

3、在本申请的一种实现方式中，基于预设的截图目录，对截图目录的目录时间戳进行时间戳遍历分析，确定用户当前截图数据，具体包括：获取当前时间戳，并基于当前时间戳，对截图目录进行周期性遍历，以得到截图文件最后修改时间；根据截图文件最后修改时间，通过最后检查时间识别，确定截图更新数据；对当前时间戳进行更新，以确定当前时间戳之后的检测时间戳，并对截图更新数据进行存储路径查询，以得到用户当前截图数据；其中，用户当前截图数据包括：用户当前截图、用户当前截图存储路径。

4、在本申请的一种实现方式中，对用户当前截图数据进行分析模型推荐评估，以得到优选分析模型，具体包括：对当前截图数据进行图片类型特征分析，以得到第一推荐评估参数；对当前截图数据进行图片信息量特征分析，以得到第二推荐评估参数；基于第一推荐评估参数和第二推荐评估参数，通过截图数据处理性能分析，确定优选分析模型。

5、在本申请的一种实现方式中，根据优选分析模型，通过调用函数配置，确定优选分析模型的调用函数，具体包括：在优选分析模型为云端模型的情况下，调用预设的litellm库中的completion函数，以确定第一调用函数；在优选分析模型为本地模型的情况下，调用预设的ollama库中的chat函数，以确定第二调用函数；基于第一调用函数或第二调用函数，确定优选分析模型的调用函数。

6、在本申请的一种实现方式中，基于调用函数，将用户当前截图输入优选分析模型，得到文本分析数据，具体包括：在调用函数为completion函数的情况下，将用户当前截图数据进行数据封装；调用预设的api，并将数据封装后的用户当前截图数据输入至api，以得到api解析参数；基于api解析参数，对用户当前截图数据进行截图内容分析，以得到第一文本分析数据；在调用函数为chat函数的情况下，在预设的本地环境中加载分析模型，并根据分析模型，通过截图内容分析，得到第二文本分析数据；根据第一文本分析数据或第二文本分析数据，得到文本分析数据。

7、在本申请的一种实现方式中，对用户指令数据和文本分析数据进行综合语义分析，以得到截图分析结果，具体包括：对用户指令数据进行用户意图分析，以确定用户指令影响参数；基于用户指令影响参数，对文本分析数据进行模拟指令分析，以得到文本分析数据的指令分析数据；对指令分析数据进行指令意图验证，以得到截图分析结果。

8、在本申请的一种实现方式中，在对用户指令数据和文本分析数据进行综合语义分析，以得到截图分析结果之后，方法还包括：基于预设的展示界面配置，对截图分析结果进行排版，得到截图分析结果的初始展示界面；根据截图分析结果的初始展示界面，通过展示界面实时配置，得到截图分析结果的展示界面。

9、在本申请的一种实现方式中，在根据截图分析结果的初始展示界面，通过展示界面实时配置，得到截图分析结果的展示界面之后，方法还包括：将截图分析结果存储至预设的缓存地址，并对缓存地址进行周期性存储空间扫描，以确定缓存清理节点；在缓存地址的存储剩余空间低于预设的存储阈值时，对缓存地址的缓存空间进行缓存重置。

10、第二方面，本申请实施例还提供了一种基于截图的视觉语言模型交互设备，其特征在于，设备包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：基于预设的截图目录，对截图目录的目录时间戳进行时间戳遍历分析，确定用户当前截图数据；对用户当前截图数据进行分析模型推荐评估，以得到优选分析模型；根据优选分析模型，通过调用函数配置，确定优选分析模型的调用函数；基于调用函数，将用户当前截图输入优选分析模型，得到文本分析数据；获取用户指令数据，并对用户指令数据和文本分析数据进行综合语义分析，以得到截图分析结果。

11、第三方面，本申请实施例还提供了一种基于截图的视觉语言模型交互方法的非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，计算机可执行指令设置为：基于预设的截图目录，对截图目录的目录时间戳进行时间戳遍历分析，确定用户当前截图数据；对用户当前截图数据进行分析模型推荐评估，以得到优选分析模型；根据优选分析模型，通过调用函数配置，确定优选分析模型的调用函数；基于调用函数，将用户当前截图输入优选分析模型，得到文本分析数据；获取用户指令数据，并对用户指令数据和文本分析数据进行综合语义分析，以得到截图分析结果。

12、本申请实施例提供了一种基于截图的视觉语言模型交互方法、设备及介质，通过对待分析截图文件的实时更新、分析算法的动态推荐以及用户指令的同时分析，解决了图像信息搜索操作流程繁琐的技术问题，实现了截图分析的自动化，提高了截图分析结果的准确性、支持ollama框架调用本地推理模型，降低云端依赖并提升用户隐私的安全性。

本文档来自技高网...

【技术保护点】

1.一种基于截图的视觉语言模型交互方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于截图的视觉语言模型交互方法，其特征在于，基于预设的截图目录，对所述截图目录的目录时间戳进行时间戳遍历分析，确定用户当前截图数据，具体包括：

3.根据权利要求1所述的一种基于截图的视觉语言模型交互方法，其特征在于，对所述用户当前截图数据进行分析模型推荐评估，以得到优选分析模型，具体包括：

4.根据权利要求1所述的一种基于截图的视觉语言模型交互方法，其特征在于，根据所述优选分析模型，通过调用函数配置，确定所述优选分析模型的调用函数，具体包括：

5.根据权利要求1所述的一种基于截图的视觉语言模型交互方法，其特征在于，基于所述调用函数，将所述用户当前截图输入所述优选分析模型，得到文本分析数据，具体包括：

6.根据权利要求1所述的一种基于截图的视觉语言模型交互方法，其特征在于，对所述用户指令数据和所述文本分析数据进行综合语义分析，以得到截图分析结果，具体包括：

7.根据权利要求1所述的一种基于截图的视觉语言模型交互方法，

8.根据权利要求1所述的一种基于截图的视觉语言模型交互方法，其特征在于，在根据所述截图分析结果的初始展示界面，通过展示界面实时配置，得到所述截图分析结果的展示界面之后，所述方法还包括：

9.一种基于截图的视觉语言模型交互设备，其特征在于，所述设备包括：

10.一种基于截图的视觉语言模型交互方法的非易失性计算机存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令设置为：

...

【技术特征摘要】

1.一种基于截图的视觉语言模型交互方法，其特征在于，所述方法包括：

【专利技术属性】
技术研发人员：葛君正，陈其宾，姜凯，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人