用于多任务用户界面建模的基于神经网络的多模态变换器制造技术

技术编号：35453640 阅读：20 留言：0更新日期：2022-11-03 12:09

一种方法包括经由计算设备接收由计算设备的图形用户界面提供的显示的截屏。该方法还包括由神经网络的图像

全部详细技术资料下载

【技术实现步骤摘要】
用于多任务用户界面建模的基于神经网络的多模态变换器
[0001]对相关申请的交叉引用
[0002]本申请要求2021年7月14日提交的美国临时专利申请第63/221,677号的优先权，其全部内容通过引用结合于此。

技术介绍

[0003]神经网络可被训练来预测与图形用户界面相关的建模任务的各方面，例如内容、功能、布局等。现代图形用户界面为建模开启了丰富的问题空间，在建模中输入固有地是多模态的，并且由几种不同类型的数据组成。基于图形用户界面，有大量的建模任务可以直接增强终端用户体验并推进智能用户界面的开发。

技术实现思路

[0004]在一个方面，提供了一种计算机实现的方法。该方法包括经由计算设备接收由计算设备的图形用户界面提供的显示的截屏。该方法还包括由神经网络的图像
‑
结构变换器通过融合基于截屏的第一嵌入和基于截屏中虚拟对象的布局的第二嵌入来生成表示。该方法还包括由神经网络并基于所生成的表示来预测与图形用户界面相关联的建模任务输出。该方法还包括由计算设备提供预测的建模任务输出。
[0005]在另一方面，提供了一种计算设备。该计算设备包括一个或多个处理器和数据存储装置。数据存储装置上存储有计算机可执行指令，当由一个或多个处理器执行时，这些指令使得计算设备执行功能。这些功能包括：经由计算设备接收由该计算设备的图形用户界面提供的显示的截屏；由神经网络的图像
‑
结构变换器通过融合基于截屏的第一嵌入和基于截屏中虚拟对象的布局的第二嵌入来生成表示；由神经网络并基于所生成的表示来预测...

【技术保护点】

【技术特征摘要】
1.一种计算机实现的方法，包括：经由计算设备接收由该计算设备的图形用户界面提供的显示的截屏；由神经网络的图像
‑
结构变换器通过融合基于截屏的第一嵌入和基于截屏中虚拟对象的布局的第二嵌入来生成表示；由神经网络并基于所生成的表示来预测与图形用户界面相关联的建模任务输出；以及由计算设备提供预测的建模任务输出。2.根据权利要求1所述的计算机实现的方法，进一步包括：由神经网络预测截屏中虚拟对象的布局。3.根据权利要求1所述的计算机实现的方法，进一步包括：经由计算设备接收指示截屏中的虚拟对象的布局的视图层级；以及由神经网络并为截屏和视图层级中的每一个确定内容嵌入和位置嵌入，其中通过融合生成表示包括基于内容嵌入和位置嵌入生成表示。4.根据权利要求3所述的计算机实现的方法，其中所述截屏的位置嵌入和所述视图层级的位置嵌入是对应于整个截屏的全局嵌入。5.根据权利要求1所述的计算机实现的方法，其中所述图形用户界面的建模包括多任务建模，并且其中所述神经网络包括双变换器，其中所述图像
‑
结构变换器预测图像
‑
结构任务的建模任务输出，问题
‑
答案变换器预测自然语言任务的建模任务输出，并且其中所述图像
‑
结构变换器和问题
‑
答案变换器被配置为具有跨塔注意力。6.根据权利要求1所述的计算机实现的方法，其中所述建模任务输出用于以下一项或多项：对象检测任务、自然语言命令落地任务、微件加文字任务、屏幕总结任务或可轻击性预测任务。7.根据权利要求1所述的计算机实现的方法，其中所述建模任务输出用于自然语言命令落地任务，并且所述方法还包括：由神经网络并基于该表示来预测图形用户界面中的目标虚拟对象；将目标虚拟对象与自然语言命令相关联；以及经由图形用户界面提供自然语言命令。8.根据权利要求1所述的计算机实现的方法，其中提供自然语言命令包括在目标虚拟对象处或附近显示自然语言命令。9.根据权利要求1所述的计算机实现的方法，其中提供自然语言命令包括响应于用户与目标虚拟对象的交互，将自然语言命令作为语音命令来提供。10.根据权利要求1所述的计算机实现的方法，其中所述建模任务输出用于对象检测任务，并且所述方法还包括：由神经网络检测指示截屏的布局层级的一种或多种类型的容器对象。11.根据权利要求10所述的计算机实现的方法，其中所述布局层级包括线性布局、框架布局或列表之一。12.根据权利要求1所述的计算机实现的方法，其中所述建模任务输出用于对象检测任务，并且所述方...

【专利技术属性】
技术研发人员：Y李，G李，X周，M德哈尼，AA格里岑科，
申请(专利权)人：谷歌有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人