大模型驱动的Web任务自动化执行方法及系统技术方案

技术编号：43935923 阅读：11 留言：0更新日期：2025-01-07 21:28

本发明专利技术公开了一种大模型驱动的Web任务自动化执行方法及系统，涉及人工智能领域。本发明专利技术通过大模型感知和解析Web页面内容，构建和维护状态‑动作图，存储和管理任务序列库，进行语义匹配和任务自动化执行。本发明专利技术解决了传统Web任务自动化中人工干预需求高、任务处理效率低的问题，达到了显著提高自动化水平、增强智能决策能力、完善知识记忆机制和高效执行的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，具体涉及一种大模型驱动的web任务自动化执行方法及系统。

技术介绍

1、web任务自动化是一项自动化技术，旨在基于软件系统对一些web任务实现自动化执行，通过模拟人的动作实现对web网页或应用的实际操作，能够极大地提升工作效率，有效减少人在重复或规则性强的任务中的劳动。

2、而大模型是指一类经过大规模数据预训练，并拥有庞大的参数量的神经网络模型。因为其具有远超传统人工智能模型的参数量，通常以十亿为单位计算，因而也被统称为大模型。大模型通过大数据量的预训练，使其内化了大量的人类世界知识，同时积累到了大量人类语义，成为迄今为止最像人的模型。基于大模型技术，人们进一步构建智能体(agent)，使其具备与环境交互的能力，从而成为真正的人的“代理”，能够代替人完成真实世界的任务。

3、传统的web任务自动化系统主要有基于工程化及基于人工智能方法的实现形式。其中，工程化实现方法主要包括演示编程技术和执行流设计技术。演示编程技术基于录制-重放思想，通过由人工演示web任务流程，并进行录制，实现任务脚本的生成，在需要的适合只需重放该脚本即可执行。而执行流技术则依靠用户以拖拉拽的低代码形式构建web任务的执行流图，并明确每一步动作如点击、输入等，以此构建可执行的执行流并执行。可见，工程化方法仍需大量的人力开销，且并不具备泛化性。

4、而基于传统人工智能的方法则主要利用人工智能模型实现对序列的理解和执行。例如，基于强化学习的技术通过大量的专家演示数据和奖励设计的训练，使得模型学到相关的

5、随着大模型的技术发展，为了进一步解决web任务自动化中存在的人力开销，提升系统的智能性、泛化性，人们开始构建基于大模型的web智能体，以大模型的决策能力为基础，通过为大模型增加感知、行动、记忆等能力，实现直接模拟人在进行web任务时的感知、规划、决策、行动的全部流程，从而实现了真正的全流程自动化，进一步提升了web任务的自动化程度，得到了广泛的关注。

6、然而，现有的相关技术却具有如下的局限：

7、首先，缺乏有效的针对web页面的感知和决策执行方法。web页面相比于其他应用具有更加庞大的元素数量和信息量，一个web页面的html拥有大量的元素以及冗余的信息表示，为web智能体对web内容的理解带来较大困难。此外，由于大模型的输出是自然语言描述，因此，如何将自然语言决策进行解析以正确匹配目标元素并执行正确的动作是需要面临的问题。

8、其次，缺乏有效的web任务知识的表示和引入方法。智能体的正确决策依赖充足的领域知识引入，比如医疗大模型需要充足的医疗知识。而web任务的领域知识就是web网站的操作知识。然而，目前缺少有效的知识表示和引入方式，使得web智能体在任务决策时的正确性难以保证。

9、此外，还缺乏有效的任务记忆管理机制。现有的web智能体受到大模型本身的理解和生成耗时影响，使得单步web操作执行时间较长，在缺乏有效任务记忆管理和调用机制的情况下，即使是重复任务也仍需重新开始，使得实际使用中耗时难以忍受。

10、因此，设计一种能够有效感知web页面内容，通过有效的知识引入方法提升web智能体规划正确性，并进一步通过任务记忆的管理和调用极大降低系统耗时的大模型驱动的web任务自动化方法和系统，从而进一步提升web任务自动化的自动化、智能化水平和效率，就显得十分重要。

技术实现思路

1、为了解决上述问题，本专利技术提供一种大模型驱动的web任务自动化执行方法及系统，省去了web任务自动化执行过程中的人力操作，提升了整体的智能化水平和执行效率。

2、本专利技术解决上述问题采用的技术方案如下：

3、一种大模型驱动的web任务自动化执行方法，包括以下步骤：

4、1)根据用户提出的web任务描述，在任务序列库中进行语义匹配，选择最相关的任务序列，并判断其是否满足任务要求；

5、2)若匹配的任务序列满足要求，则执行该任务序列；否则，将web任务描述与已构建的状态-动作图中的状态描述进行语义匹配，从图中选择最相关的状态节点组成路径，并根据路径描述信息生成新的任务序列，判断其是否满足任务要求；

6、3)若新的任务序列满足要求，则执行该任务序列；否则，获取当前web页面的状态信息，构建可访问性树，并获取当前web页面截图；然后，通过对当前web页面截图和可访问性树进行视觉信息与文本信息的对齐，生成当前web页面的描述信息；

7、4)将web任务描述和当前web页面的描述信息输入大模型进行感知，生成单步决策信息；根据单步决策信息解析得到单步web动作，逐步执行这些动作，并在任务执行完成后存储用户的任务。

8、进一步地，步骤1)中进行语义匹配的步骤包括：

9、使用语义向量化模型将用户提出的web任务描述转化为向量化表示；

10、使用语义向量化模型对任务序列库中的所有任务序列进行向量化处理，获得向量化表示；

11、使用语义相似度计算方法，对web任务描述的向量化表示与任务序列库中任务序列的向量化表示进行比较，从任务序列库中选择与用户任务描述最相似的任务序列。

12、进一步地，步骤1)中任务序列库存储并维护任务序列，步骤包括：

13、利用任务序列的状态和动作的语义描述拼接，生成任务的全流程描述；

14、将任务的全流程描述输入多模态大模型，生成任务的总体描述；

15、使用任务的总体描述作为语义索引，结合任务的全流程描述及其状态-动作序列，将任务序列进行向量化表示；

16、将生成的任务序列信息，包括总体描述、全流程描述和状态-动作序列，存入任务序列库中；

17、对任务序列库中的条目进行管理和更新，包括根据存入时间和使用频率删除长时间未使用的任务序列。

18、进一步地，步骤2)中状态-动作图的构建步骤包括：

19、基于web网站的不同状态和对应的动作执行关系，构建原始状态-动作图，图中的状态节点表示网页的不同状态，单向边表示在状态之间执行的动作；

20、根据状态节点存储的原始网页信息，计算状态节点间的相似度，对相似的状态节点进行合并；同时基于动作api和目标元素的相似度，对图中相似的动作进行合并；

21、对合并后的状态-动作图进行状态语义化表示和动作语义化表示，得到一个抽象的状态-动作图。

22、进一步地，步骤2)中将web任务描述本文档来自技高网...

【技术保护点】

1.一种大模型驱动的Web任务自动化执行方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤1)中进行语义匹配的步骤包括：

3.如权利要求1所述的方法，其特征在于，步骤1)中任务序列库存储并维护任务序列，步骤包括：

4.如权利要求1所述的方法，其特征在于，步骤2)中状态-动作图的构建步骤包括：

5.如权利要求1所述的方法，其特征在于，步骤2)中将Web任务描述与已构建的状态-动作图中的状态描述进行语义匹配的步骤包括：

6.如权利要求1所述的方法，其特征在于，步骤3)中构建可访问性树的步骤包括：

7.如权利要求1所述的方法，其特征在于，步骤3)中对当前Web页面截图和可访问性树进行视觉信息与文本信息的对齐的步骤包括：

8.如权利要求1所述的方法，其特征在于，步骤4)中大模型生成的单步决策信息包括：

9.一种大模型驱动的Web任务自动化执行系统，其特征在于，包括：

10.如权利要求9所述的系统，其特征在于，

【技术特征摘要】

1.一种大模型驱动的web任务自动化执行方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，步骤1)中进行语义匹配的步骤包括：

3.如权利要求1所述的方法，其特征在于，步骤1)中任务序列库存储并维护任务序列，步骤包括：

4.如权利要求1所述的方法，其特征在于，步骤2)中状态-动作图的构建步骤包括：

5.如权利要求1所述的方法，其特征在于，步骤2)中将web任务描述与已构建的状态-动作图中的状态描述进行...

【专利技术属性】
技术研发人员：吴国全，魏峻，陈伟，朱家鑫，周子涵，张翼飞，
申请(专利权)人：中国科学院软件研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人