本发明专利技术属于RPA元素拾取技术领域,具体涉及离线RPA元素拾取方法及系统。方法包括:S1,降低深度学习模型计算量,完成模型轻量化;对轻量化后的深度学习模型进行加密,得到加密模型文件;将加密模型文件编译为模型程序二进制文件;S2,RPA软件通过命令启动模型程序二进制文件,模型程序启动;S3,对深度学习模型解密并启动通信接口;S4,RPA软件调用解密后的深度学习模型,完成离线元素融合拾取过程。本发明专利技术具有能高效、稳定、安全的实现RPA软件元素拾取的全场景覆盖和全环境兼容的特点。全场景覆盖和全环境兼容的特点。全场景覆盖和全环境兼容的特点。
【技术实现步骤摘要】
离线RPA元素拾取方法及系统
[0001]本专利技术属于RPA元素拾取
,具体涉及离线RPA元素拾取方法及系统。
技术介绍
[0002]RPA(机器人流程自动化,Robotic Process Automation)是一种当前快速发展的计算机软件自动化技术。元素拾取是RPA的重要组成功能,包括元素检测与识别。
[0003]RPA流程设计器中目前普遍拥有多种元素拾取技术,比较通用的元素拾取方式有普通元素拾取方式、基于传统图像技术的CV拾取方式、基于深度学习目标检测技术的拾取方式、基于多种拾取技术融合的方式。
[0004]普通元素拾取是基于操作系统提供的指令或通过解析HTML文本进行元素精准定位。其中基于操作系统指令的元素拾取方式是利用操作系统对软件界面的呈现特性,将软件界面区分为不同大小的区块,然后利用各个区块的层级和包含关系构建出一个具有层级关系的树状结构。当用户拾取按钮、文字、输入框等元素时,RPA流程设计器记录下被用户拾取的元素的树状层级结构的路径,流程执行的时候通过再次解析软件的区块层级关系并构建出相同的树状结构并从中查找出与拾取时记录的相同路径即可实现元素的精准定位。
[0005]基于解析HTML文本对元素精准定位的拾取方式是通过解析网页文本内容。根据网页呈现页面需要将内容以可扩展标记语言(又称XML)格式编写,RPA利用该特性将HTML文本解析为与操作系统指令解析类似的树状层级关系,并利用其路径进行精准定位。普通元素拾取整体流程如图1所示。
[0006]然而由于普通元素拾取是利用操作系统指令或利用HTML文本解析得到软件元素层级、位置和内容等信息,当出现远程桌面、操作系统指令未能覆盖到的软件、Flash页面等情况时普通元素拾取便无法实现操作元素的精确定位。比如当网页HTML文本中镶嵌了一个Flash页面时,通过解析HTML文本获得元素的方式只能获取到Flash页面的最外层边框的位置信息,无法获得Flash页面内部的按钮、文字和图像等需要操作的元素信息。并且通过普通元素拾取的方式无法得知获取到的元素是否为最小可操作目标。
[0007]基于目标检测的拾取方式是利用深度学习模型定位一张图片上希望被检测出的目标元素并获取该元素的位置、大小、类型等信息,并将这些信息作为查找元素的依据。在现有融合拾取方式中,RPA软件截取目标软件在操作系统中呈现的界面图片并作为目标检测的输入图片,根据深度学习神经网络检测出图片中的按钮、文字、输入框等内容,并获取到这些内容在图片上的相对坐标,通过件界面的坐标和图片坐标的叠加计算便可获得这些元素在界面上所呈现的位置,RPA软件即可对这些位置进行任意的操作组合。目前业界均将用来目标检测的算法模型部署在云端服务器之上,RPA软件通过网络将位于用户电脑上的目标软件截图上传至云端服务器上,服务器上的目标检测模型计算出结果后通过网络返回给RPA软件,然后基于普通元素拾取所获得的元素信息与目标检测模型获得的元素信息进行拼接和组合得到最终融合拾取的元素信息。基于这种方式的元素拾取方式的流程如图2所示。
[0008]现有融合拾取均采用云端服务器部署需要消耗大量计算量的深度学习模型,然后通过网络在RPA软件中调用部署在云端服务器的深度学习模型接口以获得目标检测结果,最后通过将普通元素拾取结果与目标检测结果进行组合获取的融合拾取元素。这种方式需要将用户本地软件界面信息通过网络传递到云端服务器,当用户对信息安全等级要求较高时用户便无法使用融合拾取方案。另外由于融合拾取方案需要将RPA软件获取到的软件截图通过网络发送至云端服务器,当用户网络不稳定时或云端服务器网络拥堵时RPA软件获得目标检测结果需要的时间不稳定且影响因素较多。
[0009]深度学习模型是通过学习样本数据中内在规律和特征形成固定的神经网络参数。因为深度学习模型的训练和推理需要消耗大量的计算机资源,因此深度学习模型训练和推理往往需要在计算能力强大的GPU服务器上运行。随着深度学习模型的广泛应用一些深度学习模型需要内嵌在客户端内的进行推理。以往部署在GPU服务器上运行的模式便无法满足当前业务需求,因此需要在普通个人计算机上运行深度学习模型。
[0010]然而由于深度模型部署到客户端运行需要对各类操作系统指令集进行兼容,业界较为通用的方式是使用一些成熟的第三方推理库,如ONNXRuntime、OpenVINO、TensorRT。由于第三方推理库所需要的模型文件可通过多种方式进行反向解密获得深度学习模型的网络结构和参数,因此其模型的的安全性无法保障。由于使用RPA软件的计算机往往是没有GPU显卡的个人电脑,因此需要将算法模型的计算迁移至中央处理器上进行计算,其计算速度相较于使用云端服务器利用GPU进行加速的方式具有较大差异。由于CPU是非独占使用的方式这会导致深度学习模型在运行过程中出现资源不足、计算终止等这将导致整个模型无法提供任务推理能力。因此若希望在客户端使用深度学习模型需要解决算法模型安全性问题、模型推理速度慢和计算稳定性等问题。
[0011]因此,设计一种能高效、稳定、安全的实现RPA软件元素拾取的全场景覆盖和全环境兼容的离线RPA元素拾取方法及系统,就显得十分重要。
[0012]例如,申请号为CN202110944521.2的中国专利文献描述的一种RPA元素智能融合拾取的方法与系统,通过将基于深度神经网络的CV元素拾取技术和传统元素拾取技术相结合,并在RPA软件后台根据用户所要操作的软件界面的不同,为用户自动选择更精准、更合适的元素拾取方式(当然也支持用户手动进行拾取方式切换),同时在操作过程中能够实现拾取方式的自动、无感切换。另外,在各个元素实现定位的基础上,提供界面元素的内容解析能力,实现元素的类别、属性、位置、层次等的有序输出,从而支持更多样化的元素操作能力。虽然通过上述功能,可以为用户提供更流畅的使用体验,提高RPA软件可用性和支持范围;并减少用户使用成本,降低用户编辑开发RPA流程的时间,但是其缺点在于,模型的计算量都比较大,单次推理的浮点数运算次数都在亿级以上,运行速度慢。
技术实现思路
[0013]本专利技术是为了克服现有技术中,现有元素拾取方式存在内网环境下无法使用融合拾取、安全性差、运行不稳定、推理速度慢和通信低效的问题,提供了一种能高效、稳定、安全的实现RPA软件元素拾取的全场景覆盖和全环境兼容的离线RPA元素拾取方法及系统。
[0014]为了达到上述专利技术目的,本专利技术采用以下技术方案:离线RPA元素拾取方法,包括如下步骤;
S1,降低深度学习模型计算量,完成模型轻量化;对轻量化后的深度学习模型进行加密,得到加密模型文件;将加密模型文件编译为模型程序二进制文件;S2,RPA软件通过命令启动模型程序二进制文件,模型程序启动;S3,对深度学习模型解密并启动通信接口;S4,RPA软件调用解密后的深度学习模型,完成离线元素融合拾取过程。
[0015]作为优选,步骤S2还包括如下步骤;S21,模型程序启动后,开启辅助进程,用于作为加载深度学习模型和对本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.离线RPA元素拾取方法,其特征在于,包括如下步骤;S1,降低深度学习模型计算量,完成模型轻量化;对轻量化后的深度学习模型进行加密,得到加密模型文件;将加密模型文件编译为模型程序二进制文件;S2,RPA软件通过命令启动模型程序二进制文件,模型程序启动;S3,对深度学习模型解密并启动通信接口;S4,RPA软件调用解密后的深度学习模型,完成离线元素融合拾取过程。2.根据权利要求1所述的离线RPA元素拾取方法,其特征在于,步骤S2还包括如下步骤;S21,模型程序启动后,开启辅助进程,用于作为加载深度学习模型和对深度学习模型状态监测的核心。3.根据权利要求2所述的离线RPA元素拾取方法,其特征在于,步骤S3包括如下步骤:S31,所述辅助进程读取加密的模型程序二进制文件的字节流数据,并通过公钥对加密的模型程序二进制文件进行解密;S32,待模型程序二进制文件解密到内存后,通过第三方推理库将深度学习模型运行;S33,当模型程序启动完成后,所述辅助进程注册通信接口。4.根据权利要求1所述的离线RPA元素拾取方法,其特征在于,步骤S4包括如下步骤:S41,用户点击RPA软件内的元素拾取按钮后,RPA软件将同时进行普通元素拾取和智能元素拾取;S42,普通元素拾取:RPA软件判断用户当前鼠标所在软件类型;若软件是浏览器,则通过对网页文本进行解析获得元素的位置和层级结构信息;若软件是普通软件,则RPA软件将利用操作系统指令获取软件的元素位置和层级结构信息;S43,智能元素拾取:RPA软件截取用户鼠标所在软件的界面截图,并对界面截图进行签名加密;利用签名加密后的数据,调用通信模块返回结果;S44,当通信模块返回结果后,RPA软件将普通元素拾取结果和智能元素拾取结果...
【专利技术属性】
技术研发人员:吴银,孙林君,张军燕,
申请(专利权)人:杭州实在智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。