基于视觉大语言模型的网页导航方法、装置、介质及产品制造方法及图纸

技术编号：44652737 阅读：0 留言：0更新日期：2025-03-17 18:43

本申请实施例提供一种基于视觉大语言模型的网页导航方法、装置、介质及产品。该方法包括：接收用户需要导航的总任务信息，确定总任务信息所关联的第一信息；将第一信息输入至子任务预测的第一视觉大语言模型中，获得第一视觉大语言模型输出的需要执行的下一个子任务；获取下一个子任务关联的第二信息，将第二信息输入至步骤预测的第二视觉大语言模型中，获得第二视觉大语言模型输出的子任务所对应的当前执行动作和下一执行步骤信息；在下一执行步骤信息指示子任务执行完成的情况下，返回步骤二，直至第二视觉大语言模型输出的所有子任务完成为止。本申请的方案可以解决图形用户界面图像识别定位准确性差的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体涉及一种基于视觉大语言模型的网页导航方法、装置、介质及产品。

技术介绍

1、图形用户界面(graphical user interface，gui)导航算法需要具有较为先进的屏幕解释、行动推理和定位能力。而视觉语言模型(vision-language models,vlms)可以整合多感官技能实现通用智能，因此可利用vlm来完成gui导航任务。但现有技术的应用方式在采用光学字符识别(ocr)等视觉方法获取gui截图中的文字、图标等数据作为vlm模型的视觉信息补充时，无法与具体任务和步骤内容关联，导致模型缺乏进化能力；忽略了gui导航任务的模块化属性，导致推理结果准确性较低；以及在gui图像分辨率过大时，对图像的目标识别存在误差。

技术实现思路

1、本申请的至少一个实施例提供了一种基于视觉大语言模型的网页导航方法、装置、介质及产品，用于解决现有技术中采用vlm模型能力差或gui图像分辨率过大时对图像的目标识别存在误差的问题。

2、为了解决上述技术问题，本申请是这样实现的：

3、第一方面，本申请实施例提供了一种基于视觉大语言模型的网页导航方法，包括：

4、步骤a，接收用户需要导航的总任务信息，确定所述总任务信息所关联的第一信息；

5、步骤b，将所述第一信息输入至子任务预测的第一视觉大语言模型中，获得所述第一视觉大语言模型输出的需要执行的下一个子任务；

6、步骤c，获取所述下一个子任务关联的第二信息，将所

7、步骤d，在所述下一执行步骤信息指示子任务执行完成的情况下，更新所述第一信息为第三信息，并返回步骤b，直至所述第二视觉大语言模型输出目标子任务的下一执行步骤信息指示所述目标子任务执行完成的情况下为止；所述目标子任务为所述第一视觉大语言模型输出的需要执行的最后一个子任务。

8、可选地，所述步骤a，包括：

9、根据所述总任务信息和第一案例数据库，获取与所述总任务信息所关联的总任务参考案例、历史子任务序列和当前子任务-步骤序列；

10、获取当前的第一图形用户界面gui截图；

11、将所述总任务信息、所述总任务参考案例、所述历史子任务序列、所述当前子任务-步骤序列和第一gui截图，确定为所述第一信息。

12、可选地，所述步骤c，包括：

13、根据所述子任务和第二案例数据库，获取与所述子任务所关联的子任务参考案例、历史步骤-当前步骤的序列；

14、获取所述子任务的当前步骤的第二gui截图；

15、利用视觉目标检测算法，获得与所述第二gui截图的兴趣区域信息；

16、根据所述兴趣区域信息和所述第二gui截图，确定最大轮廓截取区域；

17、将所述子任务参考案例、所述子任务、所述历史步骤-当前步骤的序列、所述最大轮廓截取区域和所述兴趣区域信息，确定为所述第二信息；

18、根据所述第二信息和预设的第一指令生成器，生成第一输入指令；

19、将所述第一输入指令输入至所述第二视觉大语言模型中，获得所述第二视觉大语言模型输出的所述子任务所对应的当前执行动作和下一执行步骤信息。

20、可选地，利用视觉目标检测算法，获得与所述第二gui截图的兴趣区域信息，包括：

21、利用所述第二案例数据库，获得与所述当前步骤所关联的目标相关案例；

22、确定所述目标相关案例的案例截图和案例执行动作；

23、将所述案例截图和所述案例执行动作，输入至具有所述视觉目标检测算法的预设模型中，获取在所述第二gui截图中与所述目标相关案例相关的目标检测框；

24、利用所述目标检测框对所述第二gui截图进行兴趣区域提取，获得与所述第二gui截图的兴趣区域信息。

25、可选地，在所述步骤c后，所述方法还包括：

26、若所述下一执行步骤信息用于表示所述子任务完成的情况下，则执行利用所述第二视觉大语言模型，重新接收所述第一视觉大语言模型输出的子任务的步骤；

27、若所述下一执行步骤信息用于表示所述子任务失败的情况下，则执行将预测失败的子任务-步骤序列作为输入信息，并将所述输入信息输入至所述第一视觉大语言模型中重新生成当前子任务。

28、可选地，在所述步骤c后，所述方法还包括：

29、若所述下一执行步骤信息用于表示非子任务完成和非所述子任务失败的其他信息的情况下，则执行将预测失败的子任务-步骤序列作为输入信息，并将所述输入信息输入至所述第一视觉大语言模型中重新生成当前子任务。

30、可选地，在所述步骤a前，所述方法还包括：

31、利用多个历史案例数据集，构建案例数据库；

32、其中，所述历史案例数据集中的每个历史案例包括多个总任务描述信息、每个所述总任务描述信息所关联子任务集合；

33、所述子任务集合中包括子任务描述信息和所述子任务描述信息所关联的特征信息；

34、所述特征信息包括子任务分解的执行步骤描述信息、动作内容、gui截图；所述动作内容包括动作类型、位置信息和动作值。

35、第二方面，本申请实施例提供了一种基于视觉大语言模型的网页导航装置，包括：

36、第一处理模块，用于接收用户需要导航的总任务信息，确定所述总任务信息所关联的第一信息；

37、第二处理模块，用于将所述第一信息输入至子任务预测的第一视觉大语言模型中，获得所述第一视觉大语言模型输出的需要执行的下一个子任务；

38、第三处理模块，用于获取所述下一个子任务关联的第二信息，将所述第二信息输入至步骤预测的第二视觉大语言模型中，获得所述第二视觉大语言模型输出的所述子任务所对应的当前执行动作和下一执行步骤信息；

39、第四处理模块，用于在所述下一执行步骤信息指示子任务执行完成的情况下，更新所述第一信息为第三信息，并返回步骤b，直至所述第二视觉大语言模型输出目标子任务的下一执行步骤信息指示所述目标子任务执行完成的情况下为止；所述目标子任务为所述第一视觉大语言模型输出的需要执行的最后一个子任务。

40、第三方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。

41、第四方面，本申请实施例提供了一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如第一方面所述的方法的步骤。

42、与现有技术相比，本申请实施例提供的基于视觉大语言模型的网页导航方法、装置、介质及产品，该方法包括步骤a至步骤d，步骤a用于接收用户需要导航的总任务信息，确定总任务信息所关联的第一信息；步骤b将第一信息本文档来自技高网...

【技术保护点】

1.一种基于视觉大语言模型的网页导航方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤a，包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤c，包括：

4.根据权利要求3所述的方法，其特征在于，利用视觉目标检测算法，获得与所述第二GUI截图的兴趣区域信息，包括：

5.根据权利要求1所述的方法，其特征在于，在所述步骤c后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，在所述步骤c后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，在所述步骤a前，所述方法还包括：

8.一种基于视觉大语言模型的网页导航装置，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法的步骤。

10.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。

【技术特征摘要】

1.一种基于视觉大语言模型的网页导航方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤a，包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤c，包括：

4.根据权利要求3所述的方法，其特征在于，利用视觉目标检测算法，获得与所述第二gui截图的兴趣区域信息，包括：

5.根据权利要求1所述的方法，其特征在于，在所述步骤c后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，在所述步骤c后...

【专利技术属性】
技术研发人员：庄凤云，张润清，蔡敦波，钱岭，
申请(专利权)人：中移苏州软件技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人