一种用于定位界面上元素位置的方法、介质及电子设备技术

技术编号:36189569 阅读:16 留言:0更新日期:2022-12-31 21:01
本申请实施例提供一种用于定位界面上元素位置的方法、介质及电子设备,该方法包括:将待操作界面的图像输入目标检测模型,并通过所述目标检测模型获取所述待操作界面上的所有元素以及元素聚合结果,其中,所述元素聚合结果采用聚合框表征;至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树,以使机器人根据所述元素结构树完成针对所述待操作界面上元素的定位;其中,所述元素结构树包括位于底层的叶节点以及各级父节点,所述底层的叶节点为所述所有元素,所述元素结构树中的一个父节点对应一个聚合框。本申请的实施例采用端到端的检测出搭建结构树所需的所有内容,从而提升根据元素结构树定位界面上元素的效果。的效果。的效果。

【技术实现步骤摘要】
一种用于定位界面上元素位置的方法、介质及电子设备


[0001]本申请涉及机器人流程自动化RAP领域,具体而言本申请实施例涉及一种用于定位界面上元素位置的方法、介质及电子设备。

技术介绍

[0002]相关技术在机器人流程自动化RPA(Robotic Process Automation,RPA)的实施过程中,对于一个普通的界面(例如,网页或者app的界面),软件机器人在点击某一个按钮(作为界面上元素的一个示例)前,需要先精准的识别出这个按钮的位置和语义,这个技术的准确率依赖于目标元素检测模块、模板匹配模块和OCR(Optical Character Recognition,光学字符识别)模块等多个模块共同的准确率。
[0003]由于相关技术的多个模块(例如,目标检测模块、模板匹配模块和OCR模块)是串联工作的,因此每一个模块都依赖与上游模块的准确率,错误率将累乘,这导致了软件机器人在定位待操作界面上元素位置时低效的成功率,同时由于串联的模块个数过多,这也导致了软件机器人实施速度的下降,此外软件机器人对界面中某些元素的寻找,过度依赖于OCR给出的语义信息,因此对语言版本或者颜色形状变换具有较差的鲁棒性。

技术实现思路

[0004]本申请实施例的目的在于提供一种用于定位界面上元素位置的方法、介质及电子设备,本申请的一些实施例将采用“目标检测”的方法,端到端的检测出搭建结构树所需的所有内容,并利用简单的后处理,来实现界面的元素结构树搭建,从而提升根据元素结构树定位界面上元素的效果。
[0005]第一方面,本申请实施例提供一种用于定位界面上元素位置的方法,所述方法包括:将待操作界面的图像输入目标检测模型,并通过所述目标检测模型获取所述待操作界面上的所有元素以及元素聚合结果,其中,所述元素聚合结果采用聚合框表征;至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树,以使机器人根据所述元素结构树完成针对所述待操作界面上元素的定位;其中,所述元素结构树包括位于底层的叶节点以及各级父节点,所述底层的叶节点为所述所有元素,所述元素结构树中的一个父节点对应一个聚合框。
[0006]本申请的一些实施例采用一个目标检测模型可以实现以端到端的方式寻找元素之间的层级关系,步骤简洁提升了获取元素结构树速度,并提升了对界面上元素进行定位的速度和准确性。
[0007]在一些实施例中,所述通过所述目标检测模型识别所述待操作界面上的所有元素以及元素聚合结果,包括:通过所述目标检测模型得到所述图像上的所有框、所述所有框的类型以及所述所有框的属性信息,其中,所述所有框的类型包括元素检测框和聚合框,一个元素检测框内包括从所述界面上识别到的一个元素,一个聚合框内包括根据元素位置和逻辑关系聚合后的多个元素,所述属性信息包括相应框的大小和位置中的至少一个;将位于
所有所述元素检测框内的元素作为从所述待操作界面上识别的元素,并将位于所述聚合框内的多个元素作为一组可聚合的元素。
[0008]本申请的一些实施例通过训练得到的目标检测模型可以挖掘出待操作界面图像上的所有元素以及可聚合的元素集合,进而可以搭建出元素结构树,例如,将识别元素作为元素结构树包括的底层的叶节点,将可聚合的元素作为元素结构树上的一个父节点。
[0009]在一些实施例中,所述至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树,包括:根据所述聚合框的属性信息得到所述各级父节点;根据所述元素检测框的位置信息确定所述底层的叶节点所属的父节点。
[0010]本申请的一些实施例通过聚合框的属性确定元素结构树上的各级父节点,并通过元素检测框的位置确定底层各叶节点所属的父节点,提升得到的元素结构树的准确性。
[0011]在一些实施例中,所述属性信息包括各个聚合框的所述位置信息和框的大小信息。
[0012]本申请的一些实施例通过聚合框的位置和大小来确定与两个聚合框对应的两个父节点在元素结构树上是否具有从属关系,提升得到的元素结构树的准确性。
[0013]在一些实施例中,所述多个聚合框包括第一聚合框和第二聚合框,其中,所述根据所述聚合框的属性信息得到所述各级父节点,包括:若根据所述第一聚合框的属性信息和所述第二聚合框的属性信息确定在所述图像上所述第一聚合框包含所述第二聚合框,则确认在所述元素结构树中与所述第一聚合框对应的父节点的层级高于与所述第二聚合框对应的父节点的层级。
[0014]本申请的一些实施例通过聚合框的位置和大小来确定与两个聚合框对应的父节点的层级的相对高低,提升得到的元素结果树的准确性。
[0015]在一些实施例中,所述根据所述聚合框的属性信息得到所述各级父节点,包括:获取多个具有包含关系的聚合框;将所述多个具有包含关系的聚合框按照面积大小排序,得到一个队列;在所述队列中,与相邻的两个聚合框对应的两个父节点在所述元素结构树处于相邻层级。
[0016]本申请的一些实施例通过将聚合框按照大小关系进行排序来得到各级父节点,提升得到的元素结构树的准确性和效率。
[0017]第二方面,本申请的一些实施例提供一种训练检测模型的方法,所述方法包括:将任一元素在训练界面图像上所覆盖的区域标注一个元素检测框,并在标注有所述元素检测框的图像上标注至少一个聚合框,得到训练数据,其中,位于一个聚合框中的是可聚合的多个元素,所述多个元素是通过元素在相应训练界面上的位置分布和功能确定的;至少根据所述训练数据对检测模型进行训练得到目标检测模型。
[0018]本申请的一些实施例通过在训练图像上差异化标注元素所在位置和可聚合多个元素所在的位置来训练检测模型,使得训练结束后得到的目标检测模型具备识别两种框的能力,并具备识别各个框属于这两种框中的哪一类框的能力,进而可以根据目标检测模型输出的数据得到元素结构树,实现了端到端元素检测。
[0019]在一些实施例中,所述至少一个聚合框包括从小到大的第一聚合框、第二聚合框,
……
,第N

1聚合框以及第N聚合框,其中,所述在标注所述元素检测框的图像上标注至少一个聚合框,包括:在可聚合的m个元素所在的区域标注所述第一聚合框,在可聚合的n个
元素所在的区域标注所述第二聚合框,其中,所述n个元素包括所述m个元素,依次类推,直到在所述训练界面图像上所有元素所在的区域标注所述第N聚合框,其中,与所述第N聚合框对应的是树的根节点,所述第N聚合框包括所述第N

1聚合框,所述N的取值为大于1的整数。
[0020]本申请的一些实施例通过在图像上标注多个大小不同的聚合框作为训练数据,可以使得训练得到的模型具备识别输入图像上各种聚合框的功能。
[0021]在一些实施例中,所述至少根据所述训练数据对检测模型进行训练得到所述目标检测模型,包括:根据损失函数确认对所述检测模型的训练是否可束,其中,所述损失函数与所述元素检测框和所述聚合框的面积相关。
[0022]本申请的一些实施例通过在聚合函数中引入框本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于定位界面上元素位置的方法,其特征在于,所述方法包括:将待操作界面的图像输入目标检测模型,并通过所述目标检测模型获取所述待操作界面上的所有元素以及元素聚合结果,其中,所述元素聚合结果采用聚合框表征;至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树,以使机器人根据所述元素结构树完成针对所述待操作界面上元素的定位;其中,所述元素结构树包括位于底层的叶节点以及各级父节点,所述底层的叶节点为所述所有元素,所述元素结构树中的一个父节点对应一个聚合框。2.如权利要求1所述的方法,其特征在于,所述通过所述目标检测模型识别所述待操作界面上的所有元素以及元素聚合结果,包括:通过所述目标检测模型得到所述图像上的所有框、所述所有框的类型以及所有框的属性信息,其中,所述所有框的类型包括元素检测框和聚合框,一个元素检测框内包括从所述界面上识别到的一个元素,一个聚合框内包括根据元素位置和逻辑关系聚合后的多个元素,所述属性信息包括相应框的大小和位置中的至少一个;将位于所有所述元素检测框内的元素作为从所述待操作界面上识别的元素,并将位于所述聚合框内的多个元素作为一组可聚合的元素。3.如权利要求2所述的方法,其特征在于,所述至少根据所述聚合框的属性信息构建与所述待操作界面对应的元素结构树,包括:根据所述聚合框的属性信息得到所述各级父节点;根据所述元素检测框的位置信息确定所述底层的叶节点所属的父节点。4.如权利要求3所述的方法,其特征在于,所述属性信息包括各个聚合框的所述位置信息和框的大小信息。5.如权利要求3

4任一项所述的方法,其特征在于,所述多个聚合框包括第一聚合框和第二聚合框,其中,所述根据所述聚合框的属性信息得到所述各级父节点,包括:若根据所述第一聚合框的属性信息和所述第二聚合框的属性信息确定在所述图像上所述第一聚合框包含所述第二聚合框,则确认在所述元素结构树中与所述第一聚合框对应的父节点的层级高于与所述第二聚合框对应的父节点的层级。6.如权利要求3

4任一项所述的方法,其特征在于,所述根据所述聚合框的属性信息得到所述各级父节点,包括:获取多个具有包含关系的聚合框;将所述多个具有包含关系的聚合框按照面积大小排...

【专利技术属性】
技术研发人员:杭天欣高煜光张泉
申请(专利权)人:上海弘玑信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1