智能体的控制方法、装置、智能体及计算机可读存储介质制造方法及图纸

技术编号:33130915 阅读:13 留言:0更新日期:2022-04-17 00:47
本申请提供了一种智能体的控制方法、装置、智能体及计算机可读存储介质,所述方法包括:在智能体的行驶过程中,实时获取智能体的真实位姿数据;将真实位姿数据输入策略模型,得到真实动作数据;策略模型的训练过程如下:将智能体的当前时刻的模拟位姿数据输入预设模型,得到当前时刻的模拟动作数据;将当前时刻的模拟动作数据输入环境模型,得到下一时刻的模拟位姿数据;基于下一时刻的模拟位姿数据与目标位姿数据,获取代价函数;以最小化所述代价函数作为策略优化目标,对预设模型进行强化学习训练,得到策略模型。策略模型可以高效地部署到智能体上,当智能体的位姿发生变化时,可以实现对智能体的稳定性控制,控制效果较佳。较佳。较佳。

【技术实现步骤摘要】
智能体的控制方法、装置、智能体及计算机可读存储介质


[0001]本申请涉及车辆自动驾驶
,尤其涉及智能体的控制方法、装置、智能体及计算机可读存储介质。

技术介绍

[0002]智能体(Intelligent Agent,IA),是一种自主的实体。智能体能够通过传感器感知周围的环境,并可以通过执行器来执行操作。常见的智能体一般是机器人或自动驾驶车辆。
[0003]现有的汽车控制系统常采用PID控制算法。PID(Proportional Integral Deriv ative)控制是最早发展起来的控制策略之一,由于其算法简单、鲁棒性好和可靠性高,被广泛应用于工业过程控制,尤其适用于可建立精确数学模型的确定性控制系统。但是PID的参数在某些复杂系统中并不容易调试,这也是工业控制中使用PID方法的一大阻碍。尤其对于结构复杂的自动驾驶车辆,PID控制算法需要重新调试控制参数,部署调试耗时长,效率低,并且,当车辆位姿发生变化例如掉头时,PID控制算法会使得车头抖动或者车辆走S形,无法实现稳定性控制,难以满足实际应用中的需求。
[0004]基于PID控制算法存在的问题,很有必要设计一种智能体的控制方法作为替代,以满足实际应用中的需求。

技术实现思路

[0005]本申请的目的在于提供智能体的控制方法、装置、智能体及计算机可读存储介质,使得策略模型可以高效地部署到智能体上,当智能体的位姿发生变化时,可以实现对智能体的稳定性控制,控制效果较佳。
[0006]本申请的目的采用以下技术方案实现:
[0007]第一方面,本申请提供了一种智能体的控制方法,所述方法包括:在所述智能体的行驶过程中,实时获取所述智能体的真实位姿数据;
[0008]将所述智能体的真实位姿数据输入策略模型,得到所述智能体的真实动作数据,以控制所述智能体的行驶过程;
[0009]其中,所述策略模型的训练过程如下:
[0010]针对训练集中的每个训练数据,将所述智能体的当前时刻的模拟位姿数据输入预设模型,得到所述智能体的当前时刻的模拟动作数据,所述预设模型是预设的强化学习模型,每个所述训练数据包括所述智能体的当前时刻的模拟位姿数据以及所述智能体的下一时刻的目标位姿数据;
[0011]将所述智能体的当前时刻的模拟动作数据输入环境模型,得到所述智能体的下一时刻的模拟位姿数据;
[0012]基于所述训练集中所有所述训练数据对应的所述智能体的下一时刻的模拟位姿数据与目标位姿数据,获取所述预设模型的代价函数;
[0013]以最小化所述代价函数作为策略优化目标,对所述预设模型进行强化学习训练,得到所述策略模型。
[0014]该技术方案的有益效果在于:当有多个智能体需要部署策略模型时,由于每个智能体的内在参数(智能体的自身参数)不同,因此基于每个智能体训练得到的环境模型不同,进而基于每个智能体的环境模型训练得到的策略模型不同,也就是说,针对不同的智能体,能够训练得到不同的策略模型,意味着策略模型的部署可以响应于智能体的差异,相比于PID算法,不需要人工调试控制参数,因此适应范围广,可以实现高效地批量部署。
[0015]在一些可选的实施例中,在对所述预设模型进行强化学习训练的过程中,采用高斯回归方法更新所述预设模型的奖励函数和/或值函数。
[0016]该技术方案的有益效果在于:高斯回归方法可以在使用较少数据进行模型拟合的同时,克服由模型不确定性带来的误差。
[0017]在一些可选的实施例中,在对所述预设模型进行强化学习训练的过程中,采用确定性策略更新所述预设模型的模型参数。
[0018]该技术方案的有益效果在于:确定性策略需要的训练数据较少,计算效率高。
[0019]在一些可选的实施例中,在对所述预设模型进行强化学习训练的过程中,采用BFGS算法更新所述预设模型的模型参数。
[0020]该技术方案的有益效果在于:BFGS算法可以自校正,数值稳定性较强。
[0021]在一些可选的实施例中,所述环境模型包括概率动力学模型和估计模型;
[0022]所述概率动力学模型用于以所述智能体的当前时刻的模拟动作数据作为输入,输出所述智能体的下一时刻的模拟位姿数据对应的多个候选数据以及每个所述候选数据对应的概率;
[0023]所述估计模型用于以多个所述候选数据以及每个所述候选数据对应的概率作为输入,从多个所述候选数据中确定其中一个候选数据作为所述智能体的下一时刻的模拟位姿数据并输出。
[0024]该技术方案的有益效果在于:环境模型可以利用概率动力学模型预测得到智能体的下一时刻的模拟位姿数据对应的概率分布,利用估计模型确定智能体的下一时刻的模拟位姿数据,由此可以克服模型的不确定性及误差问题。
[0025]在一些可选的实施例中,所述概率动力学模型是采用高斯回归方法建立的。
[0026]该技术方案的有益效果在于:高斯回归方法可以在使用较少数据进行模型拟合的同时,克服由模型不确定性带来的误差。
[0027]在一些可选的实施例中,所述估计模型用于采用最大似然估计方法从多个所述候选数据中确定其中一个候选数据作为所述智能体的下一时刻的模拟位姿数据。
[0028]该技术方案的有益效果在于:最大似然估计方法确定的结果不会过高或过低,原理简单且易于实现。
[0029]在一些可选的实施例中,所述环境模型的训练过程如下:
[0030]获取所述智能体的历史时刻的真实动作数据和所述智能体的历史时刻的下一时刻的真实位姿数据;
[0031]将所述智能体的历史时刻的真实动作数据输入到所述环境模型中,得到所述智能体的历史时刻的下一时刻的模拟位姿数据;
[0032]基于所述智能体的历史时刻的下一时刻的模拟位姿数据与所述智能体的历史时刻的下一时刻的真实位姿数据,更新所述环境模型的模型参数。
[0033]该技术方案的有益效果在于:通过对环境模型进行训练,可以使得环境模型预测智能体位姿的效果更为准确,进而使得强化学习训练得到的策略模型的控制精度更高。
[0034]在一些可选的实施例中,所述智能体包括清扫车、巡检车、配送车、消毒车、车型引导机器人、车型陪伴机器人和车型安防机器人中的一个或多个。
[0035]该技术方案的有益效果在于:智能体可以是车型机器人或者自动驾驶车辆,将控制方法应用于智能体,可以使智能体根据真实动作数据行驶,实现精确控制。
[0036]第二方面,本申请提供了一种智能体的控制装置,应用于智能体,所述装置包括:
[0037]位姿获取模块,用于在所述智能体的行驶过程中,实时获取所述智能体的真实位姿数据;
[0038]动作获取模块,用于将所述智能体的真实位姿数据输入策略模型,得到所述智能体的真实动作数据,以控制所述智能体的行驶过程;
[0039]其中,所述策略模型的训练过程如下:
[0040]针对训练集中的每个训练数据,将所述智能体的当前时刻的模拟位姿数据输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能体的控制方法,其特征在于,应用于智能体,所述方法包括:在所述智能体的行驶过程中,实时获取所述智能体的真实位姿数据;将所述智能体的真实位姿数据输入策略模型,得到所述智能体的真实动作数据,以控制所述智能体的行驶过程;其中,所述策略模型的训练过程如下:针对训练集中的每个训练数据,将所述智能体的当前时刻的模拟位姿数据输入预设模型,得到所述智能体的当前时刻的模拟动作数据,所述预设模型是预设的强化学习模型,每个所述训练数据包括所述智能体的当前时刻的模拟位姿数据以及所述智能体的下一时刻的目标位姿数据;将所述智能体的当前时刻的模拟动作数据输入环境模型,得到所述智能体的下一时刻的模拟位姿数据;基于所述训练集中所有所述训练数据对应的所述智能体的下一时刻的模拟位姿数据与目标位姿数据,获取所述预设模型的代价函数;以最小化所述代价函数作为策略优化目标,对所述预设模型进行强化学习训练,得到所述策略模型。2.根据权利要求1所述的智能体的控制方法,其特征在于,在对所述预设模型进行强化学习训练的过程中,采用高斯回归方法更新所述预设模型的奖励函数和/或值函数。3.根据权利要求1或2任一项所述的智能体的控制方法,其特征在于,在对所述预设模型进行强化学习训练的过程中,采用确定性策略更新所述预设模型的模型参数。4.根据权利要求1或2任一项所述的智能体的控制方法,其特征在于,在对所述预设模型进行强化学习训练的过程中,采用BFGS算法更新所述预设模型的模型参数。5.根据权利要求1所述的智能体的控制方法,其特征在于,所述环境模型包括概率动力学模型和估计模型;所述概率动力学模型用于以所述智能体的当前时刻的模拟动作数据作为输入,输出所述智能体的下一时刻的模拟位姿数据对应的多个候选数据以及每个所述候选数据对应的概率;所述估计模型用于以多个所述候选数据以及每个所述候选数据对应的概率作为输入,从多个所述候选数据中确定其中一个候选数据作为所述智能体的下一时刻的模拟位姿数据并输出。6.根据权利要求5所述的智能体的控制方法,其特征在于,所述概率动力学模型是采用高斯回归方法建立的。7.根据权利要求5所述的智能体的控制方法,其特征在于,所述估计模型用于采用最大似然估计方...

【专利技术属性】
技术研发人员:陈海波王全胜
申请(专利权)人:深兰人工智能深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1