一种基于因果多输出的强化学习神经网络及其构建方法技术

技术编号：28943491 阅读：28 留言：0更新日期：2021-06-18 21:52

本发明专利技术涉及一种基于因果多输出的强化学习神经网络，其包括神经网络，该神经网络具有输入端和输出端，该输入端用于输入初始输入状态信息，输出端用于输出最终结果；所述神经网络内设有N套级联的AC模型，每一套AC模型具有输入端和输出端；两相邻的AC模型的输出端输出的结果之间存在因果关系。本发明专利技术采用了多套的AC模型，将具备因果关系的多输出模型，拆分为序列模型，把上一个AC模型的输出，与输入状态继续合并，作为下一个AC模型的输入。每套AC模型相互独立，各自关注自己需要处理的输出并向下一套AC模型进行传递，最终完成全局最优解，以此提高神经网络输出的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于因果多输出的强化学习神经网络及其构建方法
本专利技术涉及强化学习
，具体涉及一种基于因果多输出的强化学习神经网络及其构建方法。
技术介绍
强化学习的中心思想，就是让AI在环境里学习。每个行动会对应各自的奖励，AI通过分析数据来学习，怎样的情况下应该做怎样的事情。目前，强化学习多采用Actor+Critic的形式（以下简称为AC模型），Actor负责输出行为，而Critic对Actor输出的行为打分，根据打分结果反向传播，指导Actor对输出进行优化。而实际中遇到的问题，有可能不是单输出的问题，可能需要多输出，即让AI同时给出多种不同维度的行为。例如输入一个用户的年龄、性别等数据，分析出用户可能的职业、所在的行业等等。例如，如图1所示，在某个游戏状态下，需要AI输出一个指令，该指令中同时包括了下一步的“动作”和“对象”。而AI的神经网络在训练过程中，A、B这两个输出可能会被随机采样（为了训练过程中更好地探索最优解），从而导致A+B不符合预期的结果。例如，AI可以选择攻击和加血这两个动作，对方和自己这两个对象。预期AI输出“对对方攻击”、“对自己加血”这两种有效指令，然而强化学习的神经网络在训练时必须要有一定概率的随机采样，从而导致AI输出了“对自己攻击”、“对对方加血”这种错误指令。在做AI的Reward时，业内的做法是统一对这种错误指令扣分，实际情况A、B之中可能有一方正确，另一方是由于概率采样导致了指令不匹配，如果没有有效的方案将二者作出区分，AI的训练收敛将非常缓慢，甚至导致训练结果错误。<...

【技术保护点】
1.一种基于因果多输出的强化学习神经网络，其特征在于：所述神经网络具有输入端和输出端，该输入端用于输入初始输入状态信息，输出端用于输出最终结果；/n所述神经网络内设有N套级联的AC模型，每一套AC模型具有输入端和输出端；两相邻的AC模型的输出端输出的结果之间存在因果关系；/nN套AC模型中，第一套AC模型的输入端连接神经网络的输入端，用于输入初始输入状态信息；第二套至第N套AC模型的输入端则连接前一套AC模型的输出端以及连接神经网络的输入端，用于输入前一套AC模型的输出结果和初始的输入状态信息；第二套至第N套AC模型根据前一套AC模型的输出结果和初始的输入状态信息进行处理，并输出结果；同时，N套AC模型的输出端均连接神经网络的输出端，以输出最终结果。/n

【技术特征摘要】
1.一种基于因果多输出的强化学习神经网络，其特征在于：所述神经网络具有输入端和输出端，该输入端用于输入初始输入状态信息，输出端用于输出最终结果；
所述神经网络内设有N套级联的AC模型，每一套AC模型具有输入端和输出端；两相邻的AC模型的输出端输出的结果之间存在因果关系；
N套AC模型中，第一套AC模型的输入端连接神经网络的输入端，用于输入初始输入状态信息；第二套至第N套AC模型的输入端则连接前一套AC模型的输出端以及连接神经网络的输入端，用于输入前一套AC模型的输出结果和初始的输入状态信息；第二套至第N套AC模型根据前一套AC模型的输出结果和初始的输入状态信息进行处理，并输出结果；同时，N套AC模型的输出端均连接神经网络的输出端，以输出最终结果。

2.一种基于因果多输出的强化学习神经网络的构建方法，其特征在于：包括
将具有因果关系的N套AC模型按照其输出结果之间的因果关系级联在一起，形成神经网络；
具体地，将N套AC模型的输入端连接在一起形成神经网络的输...

【专利技术属性】
技术研发人员：陈晨，洪锦寿，祝贺，
申请(专利权)人：厦门吉比特网络技术股份有限公司，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人