System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种面向大语言模型的GUI页面标记语言及系统技术方案_技高网

一种面向大语言模型的GUI页面标记语言及系统技术方案

技术编号:44699359 阅读:8 留言:0更新日期:2025-03-19 20:50
本申请涉及一种面向大语言模型的GUI页面标记语言及系统,其特征在于,该系统包含:“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元,“模块/组件”的文本描述模块单元,以及模块/组件内“具体元素和元素间关系”的文本描述模块单元,共四个模块单元,四个模块单元的输出以自然语言形式拼接在一起,共同构成面向大语言模型的GUI页面标记语言;该技术方案通过对GUI页面信息进行计算,获取到了准确的元素位置信息,弥补了当前大模型/跨模态大模型无法准确获取页面元素位置的问题。

【技术实现步骤摘要】

本专利技术涉及一种支撑件,具体涉及一种面向大语言模型的gui页面标记语言及系统,属于智能化控制。


技术介绍

1、软件的智能化自动执行在人机交互领域有广泛的应用,例如自动化测试场景、rpa(机器人流程自动化)、在线服务等。

2、现有技术存在的问题:

3、1、现有软件助手,例如siri,主要是通过系统后端访问和函数调用来实现自动化操作。这种方式有一个很大弊端,就是需要访问用户的隐私、敏感数据,可能会出现很严重的数据安全问题。也不满足软件的自动化测试等场景应用;

4、2、随着大模型技术的兴起,出现了很多关于软件自动执行的研究工作,例如腾讯发布的appagent,但是其成功率还远远不足以投入生产实践。其中的困境如下:

5、(一)目前的跨模态大语言模型缺乏准确输出页面元素坐标的能力,如果没有页面元素的准确坐标,执行端就没有办法做最后的执行,

6、(二)目前国内开源的跨模态,例如qwen-vl,glm4v相比较于大语言模型,推理能力会弱化。需要一种方法可以实现大语言模型对gui的理解,以便于实现更复杂的场景和任务。

7、3、现有的标记语言,如xpath、xml、html和json,通常较为冗长,直接输入到通用大模型,会消耗大量token,且通用大模型对其理解能力有限。此外,由于开发者的规范性问题,h5页面等,常常导致存在缺失关键的页面描述信息,导致大模型无法准确理解页面内容。比较之下,直接基于页面最终呈现的图像进行标记语言的转换,更接近于人类在操作手机时的信息输入方式,可以获取更完备准确的信息,输入给大模型。


技术实现思路

1、本专利技术正是针对现有技术中存在的技术问题,提供一种面向大语言模型的gui页面标记语言及系统,该技术方案通过对gui页面信息进行计算,获取到了准确的元素位置信息,弥补了当前大模型/跨模态大模型无法准确获取页面元素位置的问题。

2、为了实现上述目的,本专利技术的技术方案如下,一种面向大语言模型的gui页面标记语言及系统,该系统包含:“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元,“模块/组件”的文本描述模块单元,以及模块/组件内“具体元素和元素间关系”的文本描述模块单元,共四个模块单元,四个模块单元的输出以自然语言形式拼接在一起,共同构成面向大语言模型的gui页面标记语言。

3、其中,“模块/组件内具体元素和元素间关系”的文本描述模块单元,包含元素、元素的属性描述和元素间关系的描述其中,元素包含纯文本文字和通用图标含义的文本描述模块单元,记为lmmap,用<>符号在文本中标识,

4、其中,lmmap为从ocr识别获取到的原始文本做语义映射后得到的结果,映射遵从标识唯一性原则和语义可理解性原则,其元素表示与存储关系为,原始的text/icon元素在内存中被转化为两种结构体数据进行存储,一组由[id,lmmap]组成,其中lmmap是传给大模型(llm)的元素表示方式,一组由[id,boundingbox]组成,boundingbox用于后续传给执行端的元素表示方式,两组数据,通过id进行关联,其中,id是分配给元素的唯一标识码,bounddingbox是元素的坐标位置,其中元素属性描述用于描述元素的视觉特性和功能特性,用-拼接在元素后,例如,元素a-交互按钮(功能特性),元素b-激活选项(视觉特性)等。

5、其中元素间关系描述,用于描述元素在功能上的关联关系,主要应用于表单类ui页面的描述,一组有关联的元素用[]符号标识,其中具有问答关系的元素记为qa关系对,问题元素记为q,答案元素记为a,例如:[<lmmap-q>,<lmmap-a>,<lmmap-按钮1>],

6、“具体元素和元素间关系”的文本描述模块单元中,元素、元素的属性描述和元素间关系的描述的计算方法包含:基本元素识别、元素属性识别、和元素间关系识别三个步骤,其中基本元素识别指ui页面中的文本元素(text)识别和无文字图标(icon)识别,文本元素(text)可以采用ocr算法,无文字图标(icon)识别可以通过yolo模型训练后实现,其中元素属性识别包括:交互按钮识别、激活选项识别,

7、其中元素间关系识别包括:图层/前景识别、模块组件识别、模块内行顺序转换,qa输入选择对识别,

8、其中属性识别和关系识别可以由一个支持图片输入和文本输入的transformer网络实现,同时输入ui页面和ocr结果,输出元素间的依存关系和属性,

9、其中transformer模型的训练数据集构建方式为:首先按照软件类型进行分类,包括手机银行类app,购物商城类app,采集每类app若干个,截取图像,用标注工具,标注元素间的依存关系和属性类别,得到数据集。

10、“页面内容概括”的文本描述模块单元,用于概括当前页面的内容和特点,包括页面的标题信息,当前是首页、入口页、表单页等页面属性种类,可依据具体软件系统进行详细分类,

11、其中“页面内容概括”的文本描述模块单元,具体由一个提示词模版和一个经过训练的跨模态模型构成,其中跨模态模型由transfromer预训练模型和预训练的vit视觉编码器构成。

12、其中“是否为前景图层&前景种类”的文本描述模块单元,用于描述最上层页面图层的属性信息,包括弹窗类前景图层,子功能页面类前景图层。

13、其中“模块/组件”的文本描述模块单元,该模块单元由一个目标识别模型将页面按照模块或者组件进行划分,由模块/组件内的元素在不同的段落中的描述组成。

14、一种面向大语言模型的gui页面标记语言及系统的计算方法,

15、包含基本元素识别、元素属性识别、页面属性识别和元素间关系识别四个部分。

16、其中基本元素识别指ui页面中的文本元素(text)识别和无文字图标(icon)识别,可以采用ocr加目标检测算法实现,其中元素属性识别包括:交互按钮识别、激活选项识别,其中页面属性识别用于抽取页面的概括信息和特征,包括页面标题描述,页面种类,其中元素间关系识别包括:图层/前景识别、模块组件识别、模块内行顺序转换,qa输入选择对识别其中识别模型的选择是一个目标识别模型,或者是一个支持图片输入的跨模态模型,其中模型的训练数据集构建方式为:首先按照软件类型进行分类,例如手机银行类app,购物商城类app等。采集每类app若干个,截图标注得到数据集

17、相对于现有技术,本专利技术具有如下优点,通过对gui页面信息进行计算,获取到了准确的元素位置信息,弥补了当前大模型/跨模态大模型无法准确获取页面元素位置的问题。直接基于gui页面的信息抽取,比基于后端访问获取信息更安全、更通用,比基于xpath获取信息更准确,信息描述更高效。通过一种面向大语言模型的gui页面标记语言及系统,为大语言模型提供了完整、本文档来自技高网...

【技术保护点】

1.一种面向大语言模型的GUI页面标记语言及系统,其特征在于,该系统包含:“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元,

2.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统,其特征在于其中“模块/组件内具体元素和元素间关系”的文本描述模块单元,包含元素、元素的属性描述和元素间关系的描述

3.根据权利要求2一种面向大语言模型的GUI页面标记语言及系统,其特征在于“具体元素和元素间关系”的文本描述模块单元中,元素、元素的属性描述和元素间关系的描述的计算方法包含:基本元素识别、元素属性识别、和元素间关系识别三个步骤,

4.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统,其特征在于,“页面内容概括”的文本描述模块单元,用于概括当前页面的内容和特点,包括页面的标题信息,当前是首页、入口页、表单页等页面属性种类,可依据具体软件系统进行详细分类,

5.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统,其特征在于,其中“是否为前景图层&前景种类”的文本描述模块单元,用于描述最上层页面图层的属性信息,包括弹窗类前景图层,子功能页面类前景图层。

6.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统,其特征在于,其中“模块/组件”的文本描述模块单元,该模块单元由一个目标识别模型将页面按照模块或者组件进行划分,由模块/组件内的元素在不同的段落中的描述组成。

...

【技术特征摘要】

1.一种面向大语言模型的gui页面标记语言及系统,其特征在于,该系统包含:“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元,

2.根据权利要求1一种面向大语言模型的gui页面标记语言及系统,其特征在于其中“模块/组件内具体元素和元素间关系”的文本描述模块单元,包含元素、元素的属性描述和元素间关系的描述

3.根据权利要求2一种面向大语言模型的gui页面标记语言及系统,其特征在于“具体元素和元素间关系”的文本描述模块单元中,元素、元素的属性描述和元素间关系的描述的计算方法包含:基本元素识别、元素属性识别、和元素间关系识别三个步骤,

4.根据权利要求1一种面向大语言模型的gu...

【专利技术属性】
技术研发人员:詹伶俐周红卫
申请(专利权)人:江苏润和软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1