【技术实现步骤摘要】
基于量子计算的模型训练方法、数据处理方法和装置
[0001]本申请涉及人工智能
,尤其涉及一种基于量子计算的模型训练方法
、
数据处理方法和装置
。
技术介绍
[0002]强化学习,用于描述和解决智能体
(agent)
在与环境的交互过程中,通过学习策略以达成回报最大化或实现特定目标的问题
。
在强化学习中,没有预先展示的数据集,智能体通常会面对一个最初未知的“环境”(
比如迷宫
)
,它必须通过在该环境中选择各种动作来收集数据
(
例如,在游戏中选择两个道具中的哪个道具
)
并观察结果
。
[0003]因此面对未知的“环境”,智能体如何才能快速地作出奖励最高的动作,并且在面对大量待训练的参数,找到一种减少参数的方法,从而准确
、
快速地做出决策是急需要解决的问题
。
技术实现思路
[0004]本申请提供了一种基于量子计算的模型训练方法
、
数据处理方法和装置,该方法可以提高模型训练的效率和降低模型训练的计算量
。
[0005]第一方面,本申请实施例提供了一种基于量子计算的模型训练方法,所述方法应用于包括初始世界模型和初始网络模型的智能体中,所述初始网络模型包括初始策略模型和初始
Q
网络模型,所述初始世界模型和所述初始网络模型是由量子电路构成的量子神经网络模型,所述方法包括:利用第一数据集合对所述 ...
【技术保护点】
【技术特征摘要】
1.
一种基于量子计算的模型训练方法,其特征在于,所述方法应用于包括初始世界模型和初始网络模型的智能体中,所述初始网络模型包括初始策略模型和初始评价模型,所述初始世界模型和所述初始网络模型是由量子电路构成的量子神经网络模型,所述方法包括:利用第一数据集合对所述初始世界模型执行第一训练,获得目标世界模型,其中,所述第一数据集合包括由第一状态
、
第一动作
、
第一奖励和第二状态构成的至少一个第一轨迹数据;所述第一奖励是在环境处于所述第一状态的情况下,对所述环境施加所述第一动作后,所述环境迁移到所述第二状态时所述环境针对所述迁移的反馈;所述第二状态是在所述环境处于所述第一状态的情况下,施加所述第一动作后,所述环境迁移到的状态;将第二数据集合输入至所述目标世界模型,获得第三数据集合,其中,所述第二数据集合包括由状态和动作构成的多个数据对,所述第三数据集合包括所述多个数据对对应的多个轨迹数据,所述第三数据集合中的每个轨迹数据包括对应的数据对的状态
、
动作
、
预测奖励和预测状态,所述预测奖励是所述目标世界模型确定的在所述环境处于所述状态的情况下,对所述环境施加所述动作后,所述环境迁移到所述预测状态时所述环境针对所述迁移的反馈;所述预测状态是所述目标世界模型确定的在所述环境处于所述状态的情况下,施加所述动作后,所述环境迁移到的状态;根据目标数据集合,利用最大熵强化学习
SAC
算法对所述初始网络模型执行第二训练,获得目标网络模型,其中,所述目标数据集合包括所述第三数据集合中的部分轨迹数据,所述初始策略模型用于根据策略将环境的状态映射到动作,所述初始评价模型用于评价所述初始策略模型输出的动作
。2.
根据权利要求1所述的方法,其特征在于,所述利用第一数据集合对所述初始世界模型执行第一训练,获得目标世界模型,包括:将所述第一数据集合中的所述第一轨迹数据输入至所述初始世界模型,获得所述策略模型确定的第一预测状态作和第一预测奖励;根据所述第一预测状态和所述第二状态的之间的差异,以及,所述第一预测奖励和所述第一奖励之间的差异对所述初始世界模型的模型参数进行调整;直到满足预设的迭代条件,停止对所述初始世界模型的模型参数的调整,获得所述目标世界模型
。3.
根据权利要求1或2所述的方法,其特征在于,在所述根据目标数据集合,利用最大熵强化学习
SAC
算法对所述初始网络模型执行第二训练,获得目标网络模型之前,所述方法还包括:将所述第三数据集合中的多个轨迹数据映射至初始量子求和树中,获得目标量子求和树,其中,所述目标量子求和树的多个叶子节点存储所述多个轨迹数据对应的多个
td
‑
error
值,每个轨迹数据对应的
td
‑
error
值是根据所述每个轨迹数据确定的,所述目标量子求和树中的任意一个中间节点存储的数据是根据所述任意一个中间节点的两个子节点存储的数据确定的,所述目标量子求和树对应的多个角度信息和所述目标量子求和树包括的多个子节点
‑
父节点对关联,每个角度信息是根据对应的子节点
‑
父节点对所关联的子节点中存储的数据和所述子节点的父节点中存储的数据的比值确定的;基于所述目标量子求和树,生成量子编码电路,其中,所述量子编码电路是多比特的量
子电路,所述量子编码电路包括的多个泡利旋转
RX
门和所述多个角度信息一一对应,每个泡利旋转
RX
门对应的角度信息作为所述每个泡利旋转
RX
门的参数;基于第一预设采样数量,对所述量子编码电路输出的结果进行采样处理,并将所述量子编码电路输出的结果确定所述第三数据集合中的部分轨迹数据
。4.
根据权利要求3所述的方法,其特征在于,所述目标量子求和树是包括2n
个叶子节点的二叉树,其中,所述目标量子求和树对应的2n
‑1个角度信息和所述目标量子求和树包括的2n
‑1个子节点
‑
父节点对关联,
n
为大于零的整数;所述量子编码电路是
n
比特的量子电路,其中,所述量子编码电路包括的2n
‑1个泡利旋转
RX
门和所述2n
‑1个角度信息一一对应
。5.
根据权利要求1至4任一项所述的方法,其特征在于,所述初始世界模型是由量子逻辑门和量子比特构成的量子神经网络模型,其中,所述量子逻辑门包括参数化泡利旋转门与受控门,所述参数化泡利旋转门包括泡利旋转
RX
门
、
泡利旋转
RY
门和泡利旋转
RZ
门,任意前后相邻的两个量子比特之间设置有所述受控门
。6.
根据权利要求1至5任一项所述的方法,其特征在于,所述初始评价模型是由第二输入层
、
第二变分层和第二观测层构成的量子神经网络模型,其中,所述第二输入层用于将所述目标数据集合中的每个轨迹数据中的状态,动作和奖励编码进量子电路中,获得第二量子特征;所述第二变分层用于根据所述第二量子特征和第二网络参数确定第二期望值;所述第二期望值用于表示所述初始评价模型确定的所述目标数据集合中的每个轨迹数据中的状态对应的动作的评价结果,所述第二观测层用于输出所述第二期望值所表示的所述目标数据集合中的每个轨迹数据中的状态对应的动作的评价结果;所述初始策略模型是由第一输入层
、
第一变分层和第一观测层构成的量子神经网络模型,其中,所述第一输入层用于将所述目标数据集合中的每个轨迹数据中的状态奖励编码进量子电路,获得第一量子特征;所述第一变分层用于根据所述第一量子特征和第一网络参数确定第一期望值;所述第一期望值用于表示所述初始策略模型确定的所述目标数据集合中的每个轨迹数据中的状态对应的动作,所述第一观测层用于输出所述第一期望值所表示的所述目标数据集合中的每个轨迹数据中的状态对应的动作
。7.
根据权利要求1至6任一项所述的方法,其特征在于,所述根据目标数据集合,利用最大熵强化学习
SAC
算法对所述初始网络模型执行第二训练,获得目标网络模型,包括:将所述目标数据集合中的每个轨迹数据中的状态输入至所述初始网络模型,获得所述初始策略模型确定的所述目标数据集合中...
【专利技术属性】
技术研发人员:黄超,贺颖,于非,曾培根,
申请(专利权)人:人工智能与数字经济广东省实验室深圳,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。