机器人过程自动化中的强化学习制造技术

技术编号：33627993 阅读：16 留言：0更新日期：2022-06-02 01:18

强化学习可以被使用以训练由机器人实现的针对机器人过程自动化(RPA)的机器学习(ML)模型。策略网络可以被采用，其通过提供特定的输入来学习实现确定的输出。换句话说，策略网络告知系统它是否越来越接近获胜状态。策略网络可以由机器人自动地或者在人类的定期协助下被改进，以便达到获胜状态，或者达到更优的获胜状态。机器人也可以创造其他的利用强化学习的机器人。习的机器人。习的机器人。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】机器人过程自动化中的强化学习
[0001]相关申请的交叉引用
[0002]本申请要求2019年12月9日提交的申请号为16/707,858的美国非临时专利申请和2019年10月15日提交的申请号为62/915,358的美国临时专利申请的权益。这些较早提交的申请的主题通过引用其整体而并入本文。

[0003]本专利技术总体上涉及机器人过程自动化(RPA)，更具体地涉及RPA中的强化学习。

技术介绍

[0004]大多数目前的机器学习算法利用历史数据作为学习的基础。然而，在强化学习中，既要利用现有知识，又要探索未知事物，两者的使用之间要达到平衡。在探索中，由当前知识引导的随机动作被采用以试图接近目标函数(即，“获胜”状态)。换句话说，当未达到获胜状态时，这种算法实现探索功能。这种技术已经被用来教计算机玩“突围”和“围棋”游戏。
[0005]强化学习不在RPA的环境中被使用。此外，传统的强化学习技术需要大量的计算能力和大量的时间，这使得它们不适用于许多应用。因此，改进的强化学习解决方案可能是有益的。

技术实现思路

[0006]本专利技术的某些实施例可以针对当前RPA技术尚未被完全标识、理解或者解决的本领域中的问题和需求提供解决方案。例如，本专利技术的一些实施例涉及RPA中的强化学习。
[0007]在一个实施例中，一种使用强化学习来训练针对RPA的ML模型的计算机实现的方法包括：通过使用ML模型对训练数据运行模拟来训练ML模型。ML模型具有奖励函数。当ML模型没有实现由奖励函数基于...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用强化学习来训练针对机器人过程自动化(RPA)的机器学习(ML)模型的计算机实现的方法，包括：通过使用所述ML模型对训练数据运行模拟来训练所述ML模型，所述ML模型具有奖励函数；以及当所述ML模型没有实现由所述奖励函数基于一个或多个标准定义的收敛时：请求人类协助，监测由人类在计算系统上采取的动作，以及基于由所述人类采取的所述动作，修改所述ML模型的策略网络、所述奖励函数或两者。2.根据权利要求1所述的计算机实现的方法，其中由RPA机器人执行：所述ML模型的所述训练、请求人类协助、监测由所述人类在所述计算系统上采取的所述动作，以及修改所述策略网络、所述奖励函数或两者。3.根据权利要求1所述的计算机实现的方法，还包括：重复以下步骤直到收敛被实现：使用所述ML模型对所述训练数据运行模拟，请求人类协助，监测由所述人类在所述计算系统上采取的所述动作，以及修改所述策略网络、所述奖励函数或两者。4.根据权利要求3所述的计算机实现的方法，其中在收敛被实现后，所述方法还包括：部署所述ML模型；以及由RPA机器人在运行时调用所述ML模型。5.根据权利要求4所述的计算机实现的方法，其中所述ML模型的部署包括修改由所述RPA机器人实现的RPA工作流中的一个或多个活动，以调用经训练的所述ML模型。6.根据权利要求4所述的计算机实现的方法，还包括：由所述RPA机器人检测所述ML模型的性能下降超过预定的性能阈值；以及重新训练所述ML模型直到收敛被实现。7.根据权利要求6所述的计算机实现的方法，其中所述预定性能阈值包括检测精度或者无需用户动作收敛即可被实现的频率。8.根据权利要求1所述的计算机实现的方法，其中所述一个或多个标准包括预定数量的尝试、预定时间量、或者其组合。9.根据权利要求1所述的计算机实现的方法，其中监测由所述人类采取的所述动作包括监测基于由所述人类采取的所述动作所引起的应用编程接口(API)调用。10.一种使用强化学习来训练针对机器人过程自动化(RPA)的机器学习(ML)模型的计算机实现的方法，包括：使用所述ML模型对训练数据运行模拟，所述ML模型具有奖励函数；以及当所述ML模型没有实现由所述奖励函数基于一个或多个标准定义的收敛时：监测由人类在计算系统上采取的动作，以及基于由所述人类采取的所述动作，修改所述ML模型的策略网络、所...

【专利技术属性】
技术研发人员：P，
申请(专利权)人：尤帕斯公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人