当前位置: 首页 > 专利查询>尤帕斯公司专利>正文

机器人过程自动化中的强化学习制造技术

技术编号:33627993 阅读:16 留言:0更新日期:2022-06-02 01:18
强化学习可以被使用以训练由机器人实现的针对机器人过程自动化(RPA)的机器学习(ML)模型。策略网络可以被采用,其通过提供特定的输入来学习实现确定的输出。换句话说,策略网络告知系统它是否越来越接近获胜状态。策略网络可以由机器人自动地或者在人类的定期协助下被改进,以便达到获胜状态,或者达到更优的获胜状态。机器人也可以创造其他的利用强化学习的机器人。习的机器人。习的机器人。

【技术实现步骤摘要】
【国外来华专利技术】机器人过程自动化中的强化学习
[0001]相关申请的交叉引用
[0002]本申请要求2019年12月9日提交的申请号为16/707,858的美国非临时专利申请和2019年10月15日提交的申请号为62/915,358的美国临时专利申请的权益。这些较早提交的申请的主题通过引用其整体而并入本文。


[0003]本专利技术总体上涉及机器人过程自动化(RPA),更具体地涉及RPA中的强化学习。

技术介绍

[0004]大多数目前的机器学习算法利用历史数据作为学习的基础。然而,在强化学习中,既要利用现有知识,又要探索未知事物,两者的使用之间要达到平衡。在探索中,由当前知识引导的随机动作被采用以试图接近目标函数(即,“获胜”状态)。换句话说,当未达到获胜状态时,这种算法实现探索功能。这种技术已经被用来教计算机玩“突围”和“围棋”游戏。
[0005]强化学习不在RPA的环境中被使用。此外,传统的强化学习技术需要大量的计算能力和大量的时间,这使得它们不适用于许多应用。因此,改进的强化学习解决方案可能是有益的。

技术实现思路

[0006]本专利技术的某些实施例可以针对当前RPA技术尚未被完全标识、理解或者解决的本领域中的问题和需求提供解决方案。例如,本专利技术的一些实施例涉及RPA中的强化学习。
[0007]在一个实施例中,一种使用强化学习来训练针对RPA的ML模型的计算机实现的方法包括:通过使用ML模型对训练数据运行模拟来训练ML模型。ML模型具有奖励函数。当ML模型没有实现由奖励函数基于一个或多个标准定义的收敛时,计算机实现的方法包括:请求人类协助,监测由人类在计算系统上采取的动作,以及基于由人类采取的动作,修改ML模型的策略网络、奖励函数或两者。
[0008]在另一实施例中,一种使用强化学习来训练针对RPA的ML模型的计算机实现的方法包括:使用ML模型对训练数据运行模拟。ML模型具有奖励函数。当ML模型没有实现由奖励函数基于一个或多个标准定义的收敛时,计算机实现的方法包括:监测由人类在计算系统上采取的动作,以及基于由人类采取的动作,修改ML模型的策略网络、奖励函数或两者。计算机实现的方法包括重复以下步骤直到收敛被实现:使用ML模型对训练数据运行模拟,监测由人类在计算系统上采取的动作,以及修改策略网络、奖励函数或两者。
[0009]在另一实施例中,一种使用强化学习来训练针对RPA的ML模型的计算机实现的方法包括:使用策略网络训练ML模型。ML模型具有奖励函数。计算机实现的方法还包括:部署经训练的ML模型。经训练的ML模型的部署包括:修改由RPA机器人实现的RPA工作流中的一个或多个活动,以调用经训练的ML模型。计算机实现的方法还包括由RPA机器人在运行时调用经训练的ML模型。
附图说明
[0010]为了便于理解本专利技术某些实施例的优点,将参考附图中所示的具体实施例,对上文简要描述的本专利技术进行更详细的描述。虽然应当理解,这些附图仅描绘了本专利技术的典型实施例,因此不被认为是对其范围的限制,但是将通过使用附图以附加的特征和细节来描述和解释本专利技术,在附图中:
[0011]图1是图示根据本专利技术实施例的RPA系统的架构图。
[0012]图2是图示根据本专利技术实施例的已部署的RPA系统的架构图。
[0013]图3是图示根据本专利技术实施例的设计方、活动和驱动器之间关系的架构图。
[0014]图4是图示根据本专利技术实施例的RPA系统的架构图。
[0015]图5是图示根据本专利技术实施例的被配置为在RPA中实现强化学习的计算系统的架构图。
[0016]图6是图示根据本专利技术实施例的在RPA中实现强化学习的过程的流程图。
具体实施方式
[0017]一些实施例涉及RPA中的强化学习。在强化学习中,存在探索阶段。过程挖掘可以提供系统的各种状态(例如,通过在计算系统上部署监听器并且收集与用户、机器人或两者在那些计算系统上采取的动作有关的信息,诸如点击按钮、打开/关闭应用程序、输入文本等)。通过指定开始状态(例如,电子邮件地址集合)和结束状态(例如,在中被正确输入的结束了的所有电子邮件地址),系统可以尝试使用奖励函数从开始状态到结束状态随机地找到解决方案,奖励函数探索中间转变和具有短期奖励和长期奖励的步骤,以指导状态空间的搜索。例如,对于交易,可以要求系统保持随机交易,直到赚钱。
[0018]然而,系统需要一些指导来实现该目标。如果在某些标准(例如,一定次数的尝试、预定的时间量等)上没有达成解决方案,系统可以请求人工指导。这个过程可以被重复,直到找到解决方案。
[0019]一些实施例采用调整(tweak)和定义奖励函数的策略网络。在一些实施例中,这可以通过系统观察人类采取的动作来实现。如果人类通过在计算系统上采取动作来更正操作,无论是否知道他或她正在与机器人交互,策略网络都可以从该动作中学习并且将其并入奖励函数中。这有助于机器人更接近奖励功能目标。换句话说,策略网络告知机器人它是否越来越接近获胜状态。如本文中所使用的,获胜状态可能与游戏无关。相反,任何合适的期望结果,包括但不限于正确识别图像中的面部或者人类情感、处理文档、以期望的方式控制车辆,或者任何其他合适的期望结果,而不脱离本专利技术的范围。
[0020]为了更接近获胜状态,机器人可以分析基本(underlying)分布。如果结果落在相同的范围内(例如,在半个标准偏差内、一个标准偏差内等),这提供了关于机器人性能的信息。分析可以是查找函数、统计分布等。例如,如果机器人无法登录机器人可以观察人类登录。换句话说,机器人可以监测由人类做出的应用编程接口(API)调用(例如,人类点击用户名字段、输入用户名、点击密码字段、输入密码、并且点击提交按钮)。
[0021]一些实施例不执行完全随机的探索,而是通过策略网络来确定策略应该是什么。这可以极大地减少实现获胜状态所需的模拟数量,这使得经由强化学习被训练的机器学习
(ML)模型能够被更快地开发和部署,使用更少的计算硬件资源被训练,或者两者兼有。实际上,在一些实施例中,强化学习可以在用户自己的计算系统上执行,诸如台式计算机、膝上型计算机、智能电话等,这在传统上通常是不可能的。
[0022]例如,在与用户界面交互的上下文中,机器人可以在屏幕上随机点击,以确定可点击的内容。强化学习则可以被使用以推进期望的自动化。例如,如果给定电子邮件地址的电子表格和期望的电子邮件文本,强化学习可以被使用以发现哪个可点击的按钮打开电子邮件应用,发现应该在电子邮件中的哪里输入不同的文本,以及发现点击哪个按钮来发送电子邮件。在本示例中,策略网络可以被使用以首先确定发送电子邮件是否可能或者需要。一旦做出该确定,策略网络则可以确定来自电子表格的电子邮件地址和电子邮件正文是否可以在发送之前被复制到电子邮件中。
[0023]对于复杂的用例,最初确定奖励函数应当是困难的或者不可能的。例如,考虑这样一种情况,试图使用来自摄像机的视频供应(feed)来推断人类正在做什么。例如,如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用强化学习来训练针对机器人过程自动化(RPA)的机器学习(ML)模型的计算机实现的方法,包括:通过使用所述ML模型对训练数据运行模拟来训练所述ML模型,所述ML模型具有奖励函数;以及当所述ML模型没有实现由所述奖励函数基于一个或多个标准定义的收敛时:请求人类协助,监测由人类在计算系统上采取的动作,以及基于由所述人类采取的所述动作,修改所述ML模型的策略网络、所述奖励函数或两者。2.根据权利要求1所述的计算机实现的方法,其中由RPA机器人执行:所述ML模型的所述训练、请求人类协助、监测由所述人类在所述计算系统上采取的所述动作,以及修改所述策略网络、所述奖励函数或两者。3.根据权利要求1所述的计算机实现的方法,还包括:重复以下步骤直到收敛被实现:使用所述ML模型对所述训练数据运行模拟,请求人类协助,监测由所述人类在所述计算系统上采取的所述动作,以及修改所述策略网络、所述奖励函数或两者。4.根据权利要求3所述的计算机实现的方法,其中在收敛被实现后,所述方法还包括:部署所述ML模型;以及由RPA机器人在运行时调用所述ML模型。5.根据权利要求4所述的计算机实现的方法,其中所述ML模型的部署包括修改由所述RPA机器人实现的RPA工作流中的一个或多个活动,以调用经训练的所述ML模型。6.根据权利要求4所述的计算机实现的方法,还包括:由所述RPA机器人检测所述ML模型的性能下降超过预定的性能阈值;以及重新训练所述ML模型直到收敛被实现。7.根据权利要求6所述的计算机实现的方法,其中所述预定性能阈值包括检测精度或者无需用户动作收敛即可被实现的频率。8.根据权利要求1所述的计算机实现的方法,其中所述一个或多个标准包括预定数量的尝试、预定时间量、或者其组合。9.根据权利要求1所述的计算机实现的方法,其中监测由所述人类采取的所述动作包括监测基于由所述人类采取的所述动作所引起的应用编程接口(API)调用。10.一种使用强化学习来训练针对机器人过程自动化(RPA)的机器学习(ML)模型的计算机实现的方法,包括:使用所述ML模型对训练数据运行模拟,所述ML模型具有奖励函数;以及当所述ML模型没有实现由所述奖励函数基于一个或多个标准定义的收敛时:监测由人类在计算系统上采取的动作,以及基于由所述人类采取的所述动作,修改所述ML模型的策略网络、所...

【专利技术属性】
技术研发人员:P
申请(专利权)人:尤帕斯公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1