System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及强化学习,更具体地说,它涉及一种基于ai大模型的辅助决策方法及系统。
技术介绍
1、在虚拟环境下的军事训练中,采用强化学习训练的智能体来作为对抗方辅助指挥官进行训练,强化学习需要通过不断地迭代更新智能体的参数来对智能体进行优化,为了让智能体能够快速适应指挥官的策略变化并持续创新,需要对智能体进行在线学习和调整,在指挥官训练过程中,智能体需要同时进行推理和学习,智能体的训练与游戏的运行都需要依赖服务器的网络带宽和处理能力,军事训练进程中的对抗烈度是不一样的,智能体在接收到设定数量的行为奖励之后就会启动一轮训练,对抗烈度更高的时间段环境反馈的给智能体行为的奖励的频率更高,所以智能体更新的频率更高,同时的军事训练的虚拟环境运行所需的数据处理量也更多,在这段时间产生数据处理量的突增,如果冗余配置服务器的处理能力来保证最大数据处理量,则会在其他时间段浪费服务器的处理能力。需要对伴随游戏进程波动的游戏运行数据处理任务和智能体训练的数据处理任务进行合理分配,降低对服务器处理能力的需求。
技术实现思路
1、本专利技术提供一种基于ai大模型的辅助决策方法及系统,在智能体在线训练方面增加了一个神经网络,可以让智能体通过神经网络动态地调节训练启动的时间和选取的经验数,从而让智能体做到更加智能的降低服务器的任务处理峰值,同时也保证了智能体一定的对抗强度解决了冗余配置服务器的处理能力来保证最大数据处理量,则会在其他时间段浪费服务器的处理能力的问题。
2、本专利技术提供了一种基于ai
3、步骤100,采集训练数据,编码为观测向量;
4、训练数据包括当前天气数据、作战训练地图数据、敌方信息、己方信息、服务器信息;
5、天气数据:温度,湿度,能见度;
6、作战训练地图数据:地形图、作战区域划分图、阵地标记图;
7、敌方信息:敌人数量、移动速度、位置、随身装备;
8、己方信息:己方的兵种类、位置、数量、随身装备;
9、服务器信息:服务器资源利用率;
10、服务器资源利用率是cpu利用率、内存利用率、磁盘i/o利用率和网络带宽利用率的加权和。
11、步骤200,将当前采集获得的观测向量输入到dqn(deep q network)模型中,输出第一动作空间中所有第一动作对应的q值,使用第一动作选择策略从所有第一动作中选择一个第一动作解码并执行;
12、在本专利技术的一个实施例中,第一动作空间的一个第一动作表示为:
13、;
14、其中,、和分别表示第1、2、n个作战单位需要移动的目标战场区域;
15、作战行为、和分别表示第1、2、n个作战单位需要执行的作战行动;
16、在本专利技术的一个实施例中,战场区域是训练战场所划分的区域,作战行动包括行军、撤退、攻击、阵地防御等。
17、在本专利技术的一个实施例中,第一动作选择策略包括:
18、根据-贪婪策略选择第一动作:
19、设定初始值为0.1;
20、生成一个随机数r∈[0,1],如果r<,则随机选择一个第一动作,否则,选择q值最大的一个第一动作。
21、步骤300,定义t时刻为当前的时刻,t时刻采取的第一动作为,执行第一动作之后的t+1时刻采集的观测向量,执行第一动作获得的奖励,组合成高维向量exp存放到经验回放池中;
22、,表示t时刻采集的观测向量;
23、的计算公式为:
24、
25、其中、、、分别表示第一、二、三、四奖励值,初始值均为0,执行第一动作后累加击杀敌方士兵的数量,累加己方阵亡的士兵的数量,累加己方占领的阵地数量,累加己方失守的阵地数量,表示敌方士兵总数,表示己方士兵总数,表示训练开始时的敌方阵地总数,表示训练开始时的己方阵地总数,、、、分别表示第一、二、三、四倾向系数,四个倾向系数的和为1,缺省值分别为0.2、0.2、0.3、0.3;
26、步骤400,将t-n时刻至t时刻的观测向量输入到训练好的第一神经网络中,输出训练启动的时刻和训练采集的经验数,当到达训练启动的时刻时,从经验回放池中采集对应的经验数对dqn模型进行训练。
27、作为本专利技术的进一步优化方案,dqn模型包括q网络和网络,q网络与网络相同;
28、在本专利技术的一个实施例中,q网络的计算公式如下:
29、
30、
31、其中z表示隐向量,和均表示可训练的权重参数,和均表示可训练的偏置参数,表示第一输出向量,第一输出向量的第i个分量的值表示第i个第一动作的q值,表示sigmoid函数。
32、在本专利技术的一个实施例中,dqn模型采用循环神经网络。
33、在本专利技术的一个实施例中,dqn模型的训练步骤包括:
34、步骤101,从经验池中随机获取一个经验;
35、
36、表示下目标网络输出的最大的q值;
37、根据和求损失值loss,更新q网络;
38、
39、表示状态和第一动作下q网络的输出q值,表示状态和第一动作下目标网络的输出q值;
40、是折扣因子,是一个介于0和1之间的值,用于平衡即时奖励和未来奖励的权重,缺省值为0.6;
41、步骤102,每隔固定的网络更新次数,更新目标网络,使其参数与当前的q网络的参数相同;
42、间隔的固定的网络更新次数的缺省值为10。
43、步骤103,直至采集的经验数等于本次训练采集的经验数,终止步骤。
44、在本专利技术的一个实施例中,第一神经网络的计算公式如下:
45、
46、
47、
48、
49、
50、
51、其中,和分别表示输入的第l个观测向量(t-n时刻的观测向量是第一个观测向量),n≥l≥1,、、和均表示可训练的权重参数,、、和均表示可训练的偏置参数,表示点积,表示第个第一中间特征,表示第个第二中间特征,表示第个第三中间特征,和分别表示第l-1个和第个输出特征,表示第二输出向量,第二输出向量的第i个分量的值表示第i个第二动作的q值,tanh表示tanh函数,表示sigmoid函数。
52、本专利技术的有益效果在于:
53、本专利技术通过提供一种基于ai大模型的辅助决策方法及系统中的智能体在线训练机制,可以有效的降低服务器处理任务资源需求的峰值的同时,保证在游戏过程中智能体可以保持一定的对抗强度。
本文档来自技高网...【技术保护点】
1.一种基于AI大模型的辅助决策方法,其特征在于,智能体的在线训练包括以下步骤:
2.根据权利要求1所述的一种基于AI大模型的辅助决策方法,其特征在于,步骤100中训练数据包括当前天气数据、作战训练地图数据、敌方信息、己方信息、服务器信息;
3.根据权利要求2所述的一种基于AI大模型的辅助决策方法,其特征在于,服务器资源利用率是CPU利用率、内存利用率、磁盘I/O利用率和网络带宽利用率的加权和。
4.根据权利要求1所述的一种基于AI大模型的辅助决策方法,其特征在于,步骤200中第一动作空间的一个第一动作表示为:
5.根据权利要求1所述的一种基于AI大模型的辅助决策方法,其特征在于,步骤200中第一动作选择策略包括:
6.根据权利要求1所述的一种基于AI大模型的辅助决策方法,其特征在于,步骤300中的计算公式为:
7.根据权利要求1所述的一种基于AI大模型的辅助决策方法,其特征在于,步骤400中DQN模型包括Q网络,Q网络的计算公式如下:
8.根据权利要求1所述的一种基于AI大模型的辅助决策方法,其
9.根据权利要求1所述的一种基于AI大模型的辅助决策方法,其特征在于,步骤400中第一神经网络的计算公式如下:
10.一种基于AI大模型的辅助决策系统,其特征在于,其用于执行如权利要求1-9任一所述的基于AI大模型的辅助决策方法。
...【技术特征摘要】
1.一种基于ai大模型的辅助决策方法,其特征在于,智能体的在线训练包括以下步骤:
2.根据权利要求1所述的一种基于ai大模型的辅助决策方法,其特征在于,步骤100中训练数据包括当前天气数据、作战训练地图数据、敌方信息、己方信息、服务器信息;
3.根据权利要求2所述的一种基于ai大模型的辅助决策方法,其特征在于,服务器资源利用率是cpu利用率、内存利用率、磁盘i/o利用率和网络带宽利用率的加权和。
4.根据权利要求1所述的一种基于ai大模型的辅助决策方法,其特征在于,步骤200中第一动作空间的一个第一动作表示为:
5.根据权利要求1所述的一种基于ai大模型的辅助决策方法,其特征在于,步骤200中第...
【专利技术属性】
技术研发人员:钱智毅,洪万福,徐佳吉,张宏伟,
申请(专利权)人:厦门渊亭信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。