System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种支撑件,具体涉及一种面向大语言模型的gui页面标记语言及系统,属于智能化控制。
技术介绍
1、软件的智能化自动执行在人机交互领域有广泛的应用,例如自动化测试场景、rpa(机器人流程自动化)、在线服务等。
2、现有技术存在的问题:
3、1、现有软件助手,例如siri,主要是通过系统后端访问和函数调用来实现自动化操作。这种方式有一个很大弊端,就是需要访问用户的隐私、敏感数据,可能会出现很严重的数据安全问题。也不满足软件的自动化测试等场景应用;
4、2、随着大模型技术的兴起,出现了很多关于软件自动执行的研究工作,例如腾讯发布的appagent,但是其成功率还远远不足以投入生产实践。其中的困境如下:
5、(一)目前的跨模态大语言模型缺乏准确输出页面元素坐标的能力,如果没有页面元素的准确坐标,执行端就没有办法做最后的执行,
6、(二)目前国内开源的跨模态,例如qwen-vl,glm4v相比较于大语言模型,推理能力会弱化。需要一种方法可以实现大语言模型对gui的理解,以便于实现更复杂的场景和任务。
7、3、现有的标记语言,如xpath、xml、html和json,通常较为冗长,直接输入到通用大模型,会消耗大量token,且通用大模型对其理解能力有限。此外,由于开发者的规范性问题,h5页面等,常常导致存在缺失关键的页面描述信息,导致大模型无法准确理解页面内容。比较之下,直接基于页面最终呈现的图像进行标记语言的转换,更接近于人类在操作手机时的信息输入方式,
技术实现思路
1、本专利技术正是针对现有技术中存在的技术问题,提供一种面向大语言模型的gui页面标记语言及系统,该技术方案通过对gui页面信息进行计算,获取到了准确的元素位置信息,弥补了当前大模型/跨模态大模型无法准确获取页面元素位置的问题。
2、为了实现上述目的,本专利技术的技术方案如下,一种面向大语言模型的gui页面标记语言及系统,该系统包含:“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元,“模块/组件”的文本描述模块单元,以及模块/组件内“具体元素和元素间关系”的文本描述模块单元,共四个模块单元,四个模块单元的输出以自然语言形式拼接在一起,共同构成面向大语言模型的gui页面标记语言。
3、其中,“模块/组件内具体元素和元素间关系”的文本描述模块单元,包含元素、元素的属性描述和元素间关系的描述其中,元素包含纯文本文字和通用图标含义的文本描述模块单元,记为lmmap,用<>符号在文本中标识,
4、其中,lmmap为从ocr识别获取到的原始文本做语义映射后得到的结果,映射遵从标识唯一性原则和语义可理解性原则,其元素表示与存储关系为,原始的text/icon元素在内存中被转化为两种结构体数据进行存储,一组由[id,lmmap]组成,其中lmmap是传给大模型(llm)的元素表示方式,一组由[id,boundingbox]组成,boundingbox用于后续传给执行端的元素表示方式,两组数据,通过id进行关联,其中,id是分配给元素的唯一标识码,bounddingbox是元素的坐标位置,其中元素属性描述用于描述元素的视觉特性和功能特性,用-拼接在元素后,例如,元素a-交互按钮(功能特性),元素b-激活选项(视觉特性)等。
5、其中元素间关系描述,用于描述元素在功能上的关联关系,主要应用于表单类ui页面的描述,一组有关联的元素用[]符号标识,其中具有问答关系的元素记为qa关系对,问题元素记为q,答案元素记为a,例如:[<lmmap-q>,<lmmap-a>,<lmmap-按钮1>],
6、“具体元素和元素间关系”的文本描述模块单元中,元素、元素的属性描述和元素间关系的描述的计算方法包含:基本元素识别、元素属性识别、和元素间关系识别三个步骤,其中基本元素识别指ui页面中的文本元素(text)识别和无文字图标(icon)识别,文本元素(text)可以采用ocr算法,无文字图标(icon)识别可以通过yolo模型训练后实现,其中元素属性识别包括:交互按钮识别、激活选项识别,
7、其中元素间关系识别包括:图层/前景识别、模块组件识别、模块内行顺序转换,qa输入选择对识别,
8、其中属性识别和关系识别可以由一个支持图片输入和文本输入的transformer网络实现,同时输入ui页面和ocr结果,输出元素间的依存关系和属性,
9、其中transformer模型的训练数据集构建方式为:首先按照软件类型进行分类,包括手机银行类app,购物商城类app,采集每类app若干个,截取图像,用标注工具,标注元素间的依存关系和属性类别,得到数据集。
10、“页面内容概括”的文本描述模块单元,用于概括当前页面的内容和特点,包括页面的标题信息,当前是首页、入口页、表单页等页面属性种类,可依据具体软件系统进行详细分类,
11、其中“页面内容概括”的文本描述模块单元,具体由一个提示词模版和一个经过训练的跨模态模型构成,其中跨模态模型由transfromer预训练模型和预训练的vit视觉编码器构成。
12、其中“是否为前景图层&前景种类”的文本描述模块单元,用于描述最上层页面图层的属性信息,包括弹窗类前景图层,子功能页面类前景图层。
13、其中“模块/组件”的文本描述模块单元,该模块单元由一个目标识别模型将页面按照模块或者组件进行划分,由模块/组件内的元素在不同的段落中的描述组成。
14、一种面向大语言模型的gui页面标记语言及系统的计算方法,
15、包含基本元素识别、元素属性识别、页面属性识别和元素间关系识别四个部分。
16、其中基本元素识别指ui页面中的文本元素(text)识别和无文字图标(icon)识别,可以采用ocr加目标检测算法实现,其中元素属性识别包括:交互按钮识别、激活选项识别,其中页面属性识别用于抽取页面的概括信息和特征,包括页面标题描述,页面种类,其中元素间关系识别包括:图层/前景识别、模块组件识别、模块内行顺序转换,qa输入选择对识别其中识别模型的选择是一个目标识别模型,或者是一个支持图片输入的跨模态模型,其中模型的训练数据集构建方式为:首先按照软件类型进行分类,例如手机银行类app,购物商城类app等。采集每类app若干个,截图标注得到数据集
17、相对于现有技术,本专利技术具有如下优点,通过对gui页面信息进行计算,获取到了准确的元素位置信息,弥补了当前大模型/跨模态大模型无法准确获取页面元素位置的问题。直接基于gui页面的信息抽取,比基于后端访问获取信息更安全、更通用,比基于xpath获取信息更准确,信息描述更高效。通过一种面向大语言模型的gui页面标记语言及系统,为大语言模型提供了完整、本文档来自技高网...
【技术保护点】
1.一种面向大语言模型的GUI页面标记语言及系统,其特征在于,该系统包含:“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元,
2.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统,其特征在于其中“模块/组件内具体元素和元素间关系”的文本描述模块单元,包含元素、元素的属性描述和元素间关系的描述
3.根据权利要求2一种面向大语言模型的GUI页面标记语言及系统,其特征在于“具体元素和元素间关系”的文本描述模块单元中,元素、元素的属性描述和元素间关系的描述的计算方法包含:基本元素识别、元素属性识别、和元素间关系识别三个步骤,
4.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统,其特征在于,“页面内容概括”的文本描述模块单元,用于概括当前页面的内容和特点,包括页面的标题信息,当前是首页、入口页、表单页等页面属性种类,可依据具体软件系统进行详细分类,
5.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统,其特征在于,其中“是否为前景图层&前景种类”的文本描述模块单
6.根据权利要求1一种面向大语言模型的GUI页面标记语言及系统,其特征在于,其中“模块/组件”的文本描述模块单元,该模块单元由一个目标识别模型将页面按照模块或者组件进行划分,由模块/组件内的元素在不同的段落中的描述组成。
...【技术特征摘要】
1.一种面向大语言模型的gui页面标记语言及系统,其特征在于,该系统包含:“页面内容概括”的文本描述模块单元、“是否为前景图层&前景种类”的文本描述模块单元,
2.根据权利要求1一种面向大语言模型的gui页面标记语言及系统,其特征在于其中“模块/组件内具体元素和元素间关系”的文本描述模块单元,包含元素、元素的属性描述和元素间关系的描述
3.根据权利要求2一种面向大语言模型的gui页面标记语言及系统,其特征在于“具体元素和元素间关系”的文本描述模块单元中,元素、元素的属性描述和元素间关系的描述的计算方法包含:基本元素识别、元素属性识别、和元素间关系识别三个步骤,
4.根据权利要求1一种面向大语言模型的gu...
【专利技术属性】
技术研发人员:詹伶俐,周红卫,
申请(专利权)人:江苏润和软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。