用于多任务用户界面建模的基于神经网络的多模态变换器制造技术

技术编号:35453640 阅读:20 留言:0更新日期:2022-11-03 12:09
一种方法包括经由计算设备接收由计算设备的图形用户界面提供的显示的截屏。该方法还包括由神经网络的图像

【技术实现步骤摘要】
用于多任务用户界面建模的基于神经网络的多模态变换器
[0001]对相关申请的交叉引用
[0002]本申请要求2021年7月14日提交的美国临时专利申请第63/221,677号的优先权,其全部内容通过引用结合于此。

技术介绍

[0003]神经网络可被训练来预测与图形用户界面相关的建模任务的各方面,例如内容、功能、布局等。现代图形用户界面为建模开启了丰富的问题空间,在建模中输入固有地是多模态的,并且由几种不同类型的数据组成。基于图形用户界面,有大量的建模任务可以直接增强终端用户体验并推进智能用户界面的开发。

技术实现思路

[0004]在一个方面,提供了一种计算机实现的方法。该方法包括经由计算设备接收由计算设备的图形用户界面提供的显示的截屏。该方法还包括由神经网络的图像

结构变换器通过融合基于截屏的第一嵌入和基于截屏中虚拟对象的布局的第二嵌入来生成表示。该方法还包括由神经网络并基于所生成的表示来预测与图形用户界面相关联的建模任务输出。该方法还包括由计算设备提供预测的建模任务输出。
[0005]在另一方面,提供了一种计算设备。该计算设备包括一个或多个处理器和数据存储装置。数据存储装置上存储有计算机可执行指令,当由一个或多个处理器执行时,这些指令使得计算设备执行功能。这些功能包括:经由计算设备接收由该计算设备的图形用户界面提供的显示的截屏;由神经网络的图像

结构变换器通过融合基于截屏的第一嵌入和基于截屏中虚拟对象的布局的第二嵌入来生成表示;由神经网络并基于所生成的表示来预测与图形用户界面相关联的建模任务输出;以及由计算设备提供预测的建模任务输出。
[0006]在另一方面,提供了一种计算机程序。该计算机程序包括指令,当由计算机执行时,这些指令使计算机执行功能。这些功能包括:经由计算设备接收由该计算设备的图形用户界面提供的显示的截屏;由神经网络的图像

结构变换器通过融合基于截屏的第一嵌入和基于截屏中虚拟对象的布局的第二嵌入来生成表示;由神经网络并基于所生成的表示来预测与图形用户界面相关联的建模任务输出;以及由计算设备提供预测的建模任务输出。
[0007]在另一方面,提供了一种制品。该制品包括其上存储有计算机可读指令的一个或多个计算机可读介质,当由计算设备的一个或多个处理器执行时,这些指令使得计算设备执行功能。这些功能包括:经由计算设备接收由该计算设备的图形用户界面提供的显示的截屏;由神经网络的图像

结构变换器通过融合基于截屏的第一嵌入和基于截屏中虚拟对象的布局的第二嵌入来生成表示;由神经网络并基于所生成的表示来预测与图形用户界面相关联的建模任务输出;以及由计算设备提供预测的建模任务输出。
[0008]在另一方面,提供了一种计算设备。该计算设备包括用于经由计算设备接收由该计算设备的图形用户界面提供的显示的截屏的装置;用于由神经网络的图像

结构变换器通过融合基于截屏的第一嵌入和基于截屏中虚拟对象的布局的第二嵌入来生成表示的装
置;用于通过神经网络并基于所生成的表示来预测与图形用户界面相关联的建模任务输出的装置;以及用于由计算设备提供预测的建模任务输出的装置。
[0009]前面的概述仅仅是说明性的,并不旨在以任何方式进行限制。除了上述说明性的方面、实施例和特征之外,通过参考附图和以下详细描述以及附图,进一步的方面、实施例和特征将变得显而易见。
附图说明
[0010]图1是示出根据示例实施例的示例神经网络的图。
[0011]图2A示出了根据示例实施例的UI对象检测任务的示例预测结果。
[0012]图2B示出了根据示例实施例的UI对象检测任务的附加示例预测结果。
[0013]图3示出了根据示例实施例的语言命令检测任务的示例。
[0014]图4示出了根据示例实施例的屏幕总结任务的示例。
[0015]图5示出了根据示例实施例的微件加文字任务的示例。
[0016]图6示出了根据示例实施例的可轻击性预测任务的示例。
[0017]图7是示出根据示例实施例的机器学习模型的训练和推理阶段的图。
[0018]图8描绘了根据示例实施例的分布式计算架构。
[0019]图9是根据示例实施例的计算设备的框图。
[0020]图10描绘了根据示例实施例的被布置为基于云的服务器系统的计算集群的网络。
[0021]图11是根据示例实施例的方法的流程图。
具体实施方式
[0022]本申请涉及基于变换器架构的神经网络,该神经网络可以接受多模态输入,并且可以同时完成图形用户界面的多个建模任务。任务可以包括例如UI对象检测、自然语言命令落地(grounding)、微件加文字(captioning)、屏幕总结(summariztion)和UI可轻击性(tappability)预测。该模型可被配置成处理三种类型的数据:图像、结构(例如,视图层次)和自然语言。
[0023]变换器的灵活架构使其成为解决各种问题的“瑞士军刀”。除了在处理应对同类输入或输出(如自然语言和视觉)的各个领域取得成功,变换器体系结构最近在处理涉及多模态输入、多任务输出或两者的问题方面显示出了有希望的结果。
[0024]这里描述的是对图形用户界面建模的任务,图形用户界面是支撑日常人类活动的几乎每个方面的重要媒介。现代图形用户界面为建模开启了丰富的问题空间,在建模中输入固有地是多模态的,由几种不同类型的数据组成。用户界面屏幕以视觉形式(即,屏幕截屏)和结构表示(即树状视图层级)两者存在。基于图形用户界面,有大量的将直接增强终端用户体验并推进智能用户界面的开发的建模任务。例如,现有的方法开发了模型和数据集,用于将语言命令落地到可执行的UI动作,为移动设备上的可访问性生成语言描述,以及理解用户界面的可用性,或者识别屏幕上的对象。以前的工作也开始学习用户界面屏幕的有效表示,这可以潜在地有利于下游任务。
[0025]描述了一种通用用户界面转换器(VUT),其可以处理三种类型的数据:图像、结构(视图层级)和语言,并且可以执行多种不同的任务,例如,UI对象检测、自然语言命令落地、
微件加文字、屏幕总结和UI可轻击性预测。
[0026]VUT可以同时执行不同的任务。通常,对不同任务使用不同模型会导致大量的计算资源,包括存储器资源、处理资源和/或电力资源。当任务必须在诸如移动电话的移动设备上执行时,这尤其具有挑战性。因此,使用一个模型执行所有不同的任务可以大大减少所需的计算资源量。
[0027]VUT是用于图形用户界面多任务建模的多模态模型,通过一个模型来完成广泛的任务,以增强移动用户体验。
[0028]VUT可以基于双塔变换器架构,一个用于图像结构,另一个用于语言,其中每个变换器用于编码和解码其自身的模态,具有跨塔(cross

tower)注意力(attention)。
[0029]图像结构转换器既可以用作编码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法,包括:经由计算设备接收由该计算设备的图形用户界面提供的显示的截屏;由神经网络的图像

结构变换器通过融合基于截屏的第一嵌入和基于截屏中虚拟对象的布局的第二嵌入来生成表示;由神经网络并基于所生成的表示来预测与图形用户界面相关联的建模任务输出;以及由计算设备提供预测的建模任务输出。2.根据权利要求1所述的计算机实现的方法,进一步包括:由神经网络预测截屏中虚拟对象的布局。3.根据权利要求1所述的计算机实现的方法,进一步包括:经由计算设备接收指示截屏中的虚拟对象的布局的视图层级;以及由神经网络并为截屏和视图层级中的每一个确定内容嵌入和位置嵌入,其中通过融合生成表示包括基于内容嵌入和位置嵌入生成表示。4.根据权利要求3所述的计算机实现的方法,其中所述截屏的位置嵌入和所述视图层级的位置嵌入是对应于整个截屏的全局嵌入。5.根据权利要求1所述的计算机实现的方法,其中所述图形用户界面的建模包括多任务建模,并且其中所述神经网络包括双变换器,其中所述图像

结构变换器预测图像

结构任务的建模任务输出,问题

答案变换器预测自然语言任务的建模任务输出,并且其中所述图像

结构变换器和问题

答案变换器被配置为具有跨塔注意力。6.根据权利要求1所述的计算机实现的方法,其中所述建模任务输出用于以下一项或多项:对象检测任务、自然语言命令落地任务、微件加文字任务、屏幕总结任务或可轻击性预测任务。7.根据权利要求1所述的计算机实现的方法,其中所述建模任务输出用于自然语言命令落地任务,并且所述方法还包括:由神经网络并基于该表示来预测图形用户界面中的目标虚拟对象;将目标虚拟对象与自然语言命令相关联;以及经由图形用户界面提供自然语言命令。8.根据权利要求1所述的计算机实现的方法,其中提供自然语言命令包括在目标虚拟对象处或附近显示自然语言命令。9.根据权利要求1所述的计算机实现的方法,其中提供自然语言命令包括响应于用户与目标虚拟对象的交互,将自然语言命令作为语音命令来提供。10.根据权利要求1所述的计算机实现的方法,其中所述建模任务输出用于对象检测任务,并且所述方法还包括:由神经网络检测指示截屏的布局层级的一种或多种类型的容器对象。11.根据权利要求10所述的计算机实现的方法,其中所述布局层级包括线性布局、框架布局或列表之一。12.根据权利要求1所述的计算机实现的方法,其中所述建模任务输出用于对象检测任务,并且所述方...

【专利技术属性】
技术研发人员:Y李G李X周M德哈尼AA格里岑科
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1