一种面向大语言模型的GUI页面标记语言及系统技术方案

技术编号：44699359 阅读：8 留言：0更新日期：2025-03-19 20:50

本申请涉及一种面向大语言模型的GUI页面标记语言及系统，其特征在于，该系统包含：“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元，“模块/组件”的文本描述模块单元，以及模块/组件内“具体元素和元素间关系”的文本描述模块单元，共四个模块单元,四个模块单元的输出以自然语言形式拼接在一起，共同构成面向大语言模型的GUI页面标记语言；该技术方案通过对GUI页面信息进行计算，获取到了准确的元素位置信息，弥补了当前大模型/跨模态大模型无法准确获取页面元素位置的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种支撑件，具体涉及一种面向大语言模型的gui页面标记语言及系统，属于智能化控制。

技术介绍

1、软件的智能化自动执行在人机交互领域有广泛的应用，例如自动化测试场景、rpa(机器人流程自动化)、在线服务等。

2、现有技术存在的问题：

3、1、现有软件助手，例如siri，主要是通过系统后端访问和函数调用来实现自动化操作。这种方式有一个很大弊端，就是需要访问用户的隐私、敏感数据，可能会出现很严重的数据安全问题。也不满足软件的自动化测试等场景应用；

4、2、随着大模型技术的兴起，出现了很多关于软件自动执行的研究工作，例如腾讯发布的appagent，但是其成功率还远远不足以投入生产实践。其中的困境如下：

5、(一)目前的跨模态大语言模型缺乏准确输出页面元素坐标的能力，如果没有页面元素的准确坐标，执行端就没有办法做最后的执行，

6、(二)目前国内开源的跨模态，例如qwen-vl,glm4v相比较于大语言模型，推理能力会弱化。需要一种方法可以实现大语言模型对gui的理解，以便于实现更复杂的场景和任务。

7、3、现有的标记语言，如xpath、xml、html和json，通常较为冗长，直接输入到通用大模型，会消耗大量token，且通用大模型对其理解能力有限。此外，由于开发者的规范性问题，h5页面等，常常导致存在缺失关键的页面描述信息，导致大模型无法准确理解页面内容。比较之下，直接基于页面最终呈现的图像进行标记语言的转换，更接近于人类在操作手机时的信息输入方式，

技术实现思路

1、本专利技术正是针对现有技术中存在的技术问题，提供一种面向大语言模型的gui页面标记语言及系统，该技术方案通过对gui页面信息进行计算，获取到了准确的元素位置信息，弥补了当前大模型/跨模态大模型无法准确获取页面元素位置的问题。

2、为了实现上述目的，本专利技术的技术方案如下，一种面向大语言模型的gui页面标记语言及系统，该系统包含：“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元，“模块/组件”的文本描述模块单元，以及模块/组件内“具体元素和元素间关系”的文本描述模块单元，共四个模块单元,四个模块单元的输出以自然语言形式拼接在一起，共同构成面向大语言模型的gui页面标记语言。

3、其中，“模块/组件内具体元素和元素间关系”的文本描述模块单元，包含元素、元素的属性描述和元素间关系的描述其中，元素包含纯文本文字和通用图标含义的文本描述模块单元，记为lmmap，用<>符号在文本中标识，

4、其中，lmmap为从ocr识别获取到的原始文本做语义映射后得到的结果，映射遵从标识唯一性原则和语义可理解性原则，其元素表示与存储关系为，原始的text/icon元素在内存中被转化为两种结构体数据进行存储，一组由[id,lmmap]组成，其中lmmap是传给大模型(llm)的元素表示方式，一组由[id,boundingbox]组成，boundingbox用于后续传给执行端的元素表示方式，两组数据，通过id进行关联，其中，id是分配给元素的唯一标识码，bounddingbox是元素的坐标位置，其中元素属性描述用于描述元素的视觉特性和功能特性，用-拼接在元素后，例如，元素a-交互按钮(功能特性)，元素b-激活选项(视觉特性)等。

5、其中元素间关系描述，用于描述元素在功能上的关联关系，主要应用于表单类ui页面的描述，一组有关联的元素用[]符号标识，其中具有问答关系的元素记为qa关系对，问题元素记为q，答案元素记为a，例如：[<lmmap-q>,<lmmap-a>,<lmmap-按钮1>]，

6、“具体元素和元素间关系”的文本描述模块单元中，元素、元素的属性描述和元素间关系的描述的计算方法包含：基本元素识别、元素属性识别、和元素间关系识别三个步骤，其中基本元素识别指ui页面中的文本元素(text)识别和无文字图标(icon)识别，文本元素(text)可以采用ocr算法，无文字图标(icon)识别可以通过yolo模型训练后实现，其中元素属性识别包括：交互按钮识别、激活选项识别，

7、其中元素间关系识别包括：图层/前景识别、模块组件识别、模块内行顺序转换，qa输入选择对识别，

8、其中属性识别和关系识别可以由一个支持图片输入和文本输入的transformer网络实现，同时输入ui页面和ocr结果，输出元素间的依存关系和属性，

9、其中transformer模型的训练数据集构建方式为：首先按照软件类型进行分类，包括手机银行类app,购物商城类app，采集每类app若干个，截取图像，用标注工具，标注元素间的依存关系和属性类别，得到数据集。

10、“页面内容概括”的文本描述模块单元，用于概括当前页面的内容和特点，包括页面的标题信息，当前是首页、入口页、表单页等页面属性种类，可依据具体软件系统进行详细分类，

11、其中“页面内容概括”的文本描述模块单元，具体由一个提示词模版和一个经过训练的跨模态模型构成，其中跨模态模型由transfromer预训练模型和预训练的vit视觉编码器构成。

12、其中“是否为前景图层&前景种类”的文本描述模块单元，用于描述最上层页面图层的属性信息，包括弹窗类前景图层，子功能页面类前景图层。

13、其中“模块/组件”的文本描述模块单元，该模块单元由一个目标识别模型将页面按照模块或者组件进行划分，由模块/组件内的元素在不同的段落中的描述组成。

14、一种面向大语言模型的gui页面标记语言及系统的计算方法，

15、包含基本元素识别、元素属性识别、页面属性识别和元素间关系识别四个部分。

16、其中基本元素识别指ui页面中的文本元素(text)识别和无文字图标(icon)识别，可以采用ocr加目标检测算法实现，其中元素属性识别包括：交互按钮识别、激活选项识别，其中页面属性识别用于抽取页面的概括信息和特征，包括页面标题描述，页面种类，其中元素间关系识别包括：图层/前景识别、模块组件识别、模块内行顺序转换，qa输入选择对识别其中识别模型的选择是一个目标识别模型，或者是一个支持图片输入的跨模态模型，其中模型的训练数据集构建方式为：首先按照软件类型进行分类，例如手机银行类app,购物商城类app等。采集每类app若干个，截图标注得到数据集

17、相对于现有技术，本专利技术具有如下优点，通过对gui页面信息进行计算，获取到了准确的元素位置信息，弥补了当前大模型/跨模态大模型无法准确获取页面元素位置的问题。直接基于gui页面的信息抽取，比基于后端访问获取信息更安全、更通用，比基于xpath获取信息更准确，信息描述更高效。通过一种面向大语言模型的gui页面标记语言及系统，为大语言模型提供了完整、本文档来自技高网...

【技术保护点】

1.一种面向大语言模型的GUI页面标记语言及系统，其特征在于，该系统包含：“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元，

2.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统，其特征在于其中“模块/组件内具体元素和元素间关系”的文本描述模块单元，包含元素、元素的属性描述和元素间关系的描述

3.根据权利要求2一种面向大语言模型的GUI页面标记语言及系统，其特征在于“具体元素和元素间关系”的文本描述模块单元中，元素、元素的属性描述和元素间关系的描述的计算方法包含：基本元素识别、元素属性识别、和元素间关系识别三个步骤，

4.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统，其特征在于，“页面内容概括”的文本描述模块单元，用于概括当前页面的内容和特点，包括页面的标题信息，当前是首页、入口页、表单页等页面属性种类，可依据具体软件系统进行详细分类，

5.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统，其特征在于，其中“是否为前景图层&前景种类”的文本描述模块单

6.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统，其特征在于，其中“模块/组件”的文本描述模块单元，该模块单元由一个目标识别模型将页面按照模块或者组件进行划分，由模块/组件内的元素在不同的段落中的描述组成。

...

【技术特征摘要】

1.一种面向大语言模型的gui页面标记语言及系统，其特征在于，该系统包含：“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元，

2.根据权利要求1一种面向大语言模型的gui页面标记语言及系统，其特征在于其中“模块/组件内具体元素和元素间关系”的文本描述模块单元，包含元素、元素的属性描述和元素间关系的描述

3.根据权利要求2一种面向大语言模型的gui页面标记语言及系统，其特征在于“具体元素和元素间关系”的文本描述模块单元中，元素、元素的属性描述和元素间关系的描述的计算方法包含：基本元素识别、元素属性识别、和元素间关系识别三个步骤，

4.根据权利要求1一种面向大语言模型的gu...

【专利技术属性】
技术研发人员：詹伶俐，周红卫，
申请(专利权)人：江苏润和软件股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人