一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法技术

技术编号：21771803 阅读：28 留言：0更新日期：2019-08-03 21:35

本发明专利技术公开了一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，包括：输入一个状态、行为和环境的即时反馈值集合，即S、A和R的搜索集；从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1；将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点，根据蒙特卡罗树搜索方法分别获得5个获胜概率w2；结合五个ADP获胜概率w1及其相应的MCTS获胜概率w2，预测最终获胜概率，进而选择具有最大值的动作位置。本发明专利技术结合了浅层神经网络和蒙特卡罗模拟，使用ADP训练神经网络对抗自身，在训练后，神经网络可以获得任何可能情况的获胜概率，从而使游戏的最终预测结果更准确。

A Search Method Based on Adaptive Dynamic Programming and Monte Carlo Tree Search

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法
本专利技术涉及一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，属于机器博弈、计算机搜索

技术介绍
人工智能的发展十分的迅速，科技发达的今天，我们的生活离不开人工智能的东西，计算机博弈为人工智能的一个分支，很多实际问题可以在博弈的研究中得到解决，并且使计算机智力更加靠近人类的智慧。现在，许多国家把人工智能作为重点项目列为各国的高科技发展计划，投入庞大的人力和资金。博弈的过程相当于对弈或者说是斗智的过程这是自然界中的一个普遍的特征，它不仅仅存在于下棋当中而且存在于政治、经济、军事或者说生物竞争当中。近年来，网络下棋游戏层出不穷，从此棋类玩法不在限制于实物，而五子棋的电子游戏也越来越多，也就是现在新出的名词“计算机博弈”。自适应动态规划(ADP)是最优控制领域新兴起的一种近似最优方法，是当前国际最优化领域的研究热点。在人工智能领域，强化学习、人工神经网络、模糊系统、演化计算等方法的发展和丰富，提出了很多求解非线性系统优化问题的解决思路和具体技术方法。而ADP以传统的最优控制为理论基础，融合人工智能的先进方法，提出了解决大规模复杂非线性系统优化控制问题的解决方法。随着人工智能技术的快速发展，蒙特卡洛树搜索作为一种人工智能问题中做出最优决策的方法受到越来越多的关注。蒙特卡洛树搜索是在完美信息博弈场景中进行决策的一种通用技术，除游戏之外，它还在很多现实世界的应用中有着广阔前景。鉴于此，本专利技术提出一种博弈搜索方法，该方法结合了蒙特卡罗树搜索与自适应动态规划，解决了原始蒙特卡罗树搜索不准确的问题。专利技术内...

【技术保护点】
1.一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，其特征在于，包括以下步骤：步骤1)输入一个状态、行为和状态的即时反馈值集合，即搜索集X、U和R；步骤2)从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1；步骤3)将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点，根据蒙特卡罗树搜索方法分别获得5个获胜概率w2；步骤4)结合从自适应动态规划训练的神经网络中获得的五个获胜概率w1及其相应的蒙特卡洛树搜索的获胜概率w2，预测最终获胜概率，进而选择具有最大值的动作位置。

【技术特征摘要】
1.一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，其特征在于，包括以下步骤：步骤1)输入一个状态、行为和状态的即时反馈值集合，即搜索集X、U和R；步骤2)从自适应动态规划训练的神经网络中获得五个候选移动位置及其获胜概率w1；步骤3)将五个候选移动位置及其当前环境情况视为蒙特卡罗树搜索的根节点，根据蒙特卡罗树搜索方法分别获得5个获胜概率w2；步骤4)结合从自适应动态规划训练的神经网络中获得的五个获胜概率w1及其相应的蒙特卡洛树搜索的获胜概率w2，预测最终获胜概率，进而选择具有最大值的动作位置。2.根据权利要求1所述的一种基于自适应动态规划与蒙特卡罗树搜索的搜索方法，其特征在于，所述步骤2的具体步骤如下：步骤2.1)当前状态x(t)被反馈到动作选择，动作选择产生控制动作u(t)，在动作u(t)情况下，选择下一步过渡状态x(t+1)送到效用函数r，产生一个反馈值r(x(t+1))，评估网络通过反馈值r(x(t+1))来估计成本函数V，其中x(t)∈X，u(t)∈U，r(x(t+1))∈R，t表示数据的节点；步骤2.2)反馈值r(x(t+1))、评估函数v(t)和评估函数v(t+1)用于更新评估网络的权重使成本函数V满足Bellman方程；步骤2.3)自适应动态规划训练的神经网络的最终输出v(t)是候选移动位置的获胜概率，关系如下：其中，wji(t)是第j个输入节点和第i个隐藏节点之间的权重，xj(t)是输入层的第j个输入，n是输入节点的总数，hi(t)是第i个隐藏节点的输入，gi(t)是第i个隐藏节点的输出，wi(t)是隐藏节点和输出节点之间的权重，m是隐藏节点的总数，p(t)是输出节点之间的输入...

【专利技术属性】
技术研发人员：陈志，董阳，岳文静，汪皓平，狄小娟，袁广进，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人