一种航天器在轨博弈智能生成开发平台,包括太空博弈场景环境开发组件、动力学模型组件、网络模型生成组件和可视化与效能评估组件,太空博弈场景环境开发组件生成环境模型,与网络模型生成组件交互,完成学习训练;动力学模型组件能够根据博弈任务和学习训练的需要,在决策层或执行层对真实场景进行模拟;网络模型生成组件对神经网络中神经元之间连接的权值进行调整,生成最优化的网络模型;可视化与效能评估组件对博弈过程进行可视化,供用户对任务的执行效能进行直观评价。本发明专利技术通过统一的接口建立标准化的任务场景与标准化的学习算法之间的桥梁,为新场景、新任务下航天器智能控制的研究提供一个标准化的开发平台,提升了研制效率。提升了研制效率。提升了研制效率。
【技术实现步骤摘要】
一种航天器在轨博弈智能生成开发平台及应用方法
[0001]本专利技术涉及一种航天器在轨博弈智能生成开发平台及应用方法,属于航天器轨道控制
技术介绍
[0002]太空任务日益复杂,航天器在轨执行任务从原来面向单一场景、特定任务,逐渐过渡到面向多个且未知的场景,执行更加复杂的任务。因此,提升航天器在未知场景下自主地执行复杂任务的需求越来越迫切。现阶段航天器智能控制的研制模式都是针对特定对象特定任务,进行工程代码的开发。在开发过程中存在大量重复性工作。因此航天器智能控制的研究亟需一个规范化、模块化的平台,通过统一的接口建立标准化的任务场景与标准化的学习算法之间的桥梁,为新场景、新任务下航天器智能控制的研究提供一个标准化的开发平台,以提升研制效率。
技术实现思路
[0003]本专利技术解决的技术问题是:克服现有技术的不足,提供一种航天器在轨博弈智能生成开发平台及应用方法。
[0004]本专利技术解决上述技术问题是通过如下技术方案予以实现的:
[0005]一种航天器在轨博弈智能生成开发平台,包括太空博弈场景环境开发组件、动力学模型组件、网络模型生成组件和可视化与效能评估组件,其中:
[0006]太空博弈场景环境开发组件:建立属性模板,通过对属性模板不同物理量的设置,生成一系列场景实例库,每种实例库对应不同的任务需求;从场景实例库选定场景实例生成环境模型,在环境迭代模块中与网络模型生成组件交互,完成学习训练;
[0007]动力学模型组件:包括用于描述太空博弈场景中个体绝对运动规律和相对运动规律的各类模型,能够根据博弈任务和学习训练的需要,在决策层或执行层对真实场景进行模拟;
[0008]网络模型生成组件:利用与环境交互获得的数据,对神经网络中神经元之间连接的权值进行调整,进而生成最优化的网络模型;
[0009]可视化与效能评估组件:模拟太空场景,对博弈过程进行可视化,供用户对任务的执行效能进行直观评价。
[0010]优选的,太空博弈场景环境开发组件包括属性模板、场景实例库、环境迭代模块;
[0011]属性模板包括世界属性模板、实体属性模板、智能体属性模板、标志体属性模板、边界属性模板;
[0012]场景实例库生成与应用场景相关的环境模型,不同的应用场景根据不同的任务需求设计,所有应用场景都遵循统一的属性模板;
[0013]环境迭代模块实现环境模型与网络模型生成组件的迭代交互,完成学习训练。
[0014]优选的,环境模型与网络模型生成组件在环境迭代规则下进行迭代交互,环境模
型传递给网络模型生成组件状态观测参数及奖励参数,网络模型生成组件传递给环境模型动作策略。
[0015]优选的,在每一次迭代交互中,环境模型对每一个智能体执行网络模型生成组件传递而来的动作策略,进而将动作映射为智能体的受力,在智能体动力学模型基础上完成解算,更新智能体的状态观测参数和奖励参数;所有智能体完成上述计算过程后,环境模型统一将更新后的智能体状态观测参数、奖励参数传递给网络模型生成组件,网络模型生成组件生成新的环境模型动作策略传递给环境模型,进入下一次迭代交互。
[0016]优选的,所述动力学模型组件中的模型包括用于预训练的模型和用于二次训练的模型。
[0017]优选的,网络模型生成组件包括类人博弈的核心算法库、神经网络模型库、训练方法库、参数配置模块;
[0018]核心算法库包含单体强化学习算法以及多智能体强化学习算法;
[0019]神经网络模型库包括为复杂决策问题构建的多种神经网络;
[0020]训练方法库包括多种训练模式;
[0021]参数配置模块对选定的学习算法的超参数进行调节,以获得最适用于当前任务的学习算法。
[0022]优选的,所述超参数包括学习率、并行环境数、网络层数。
[0023]优选的,所述可视化与效能评估组件中,加载用户数据或通过网络通信获得数据,驱动场景中各航天器运动。
[0024]一种航天器在轨博弈智能生成开发平台的应用方法,包括如下步骤:
[0025](1)根据任务的特点,在网络模型生成组件中确定学习算法和神经网络模型结构、训练过程中的超参数、奖励机制、训练模式;
[0026](2)建立动力学模型,并加载预训练模型;
[0027](3)利用太空博弈场景环境开发组件,从场景实例库选定场景实例生成环境模型,在环境迭代模块中与网络模型生成组件交互,进行学习训练;
[0028](4)训练一段时间后,查看训练过程曲线,直至获得训练收敛曲线,学习训练完成,获得最优化的神经网络模型,进入步骤(6);若收敛情况不理想,则进入步骤(5);
[0029](5)修改网络模型生成组件中学习算法,再重复步骤(2)
‑
(4);
[0030](6)利用最优化的神经网络模型进行航天器在轨博弈模拟,将博弈过程数据记录在文件中;
[0031](7)调用可视化与效能评估组件,加载生成的某一局博弈数据文件,对博弈过程进行可视化呈现,供用户对任务的执行效能进行直观评价。
[0032]优选的,所述步骤(6)中,利用最优化的神经网络模型进行网络前向计算,得到航天器的控制量,驱动仿真环境随时间推进,直至博弈结束。
[0033]本专利技术与现有技术相比的优点在于:
[0034]1)本专利技术场景开发、算法开发、模型开发都是独立的模块,可以同步进行开发;
[0035]2)本专利技术通过通用接口实现了多种强化学习算法的兼容;
[0036]3)本专利技术场景开发、模型开发与算法开发通过代码实现隔离,即训练新的博弈场景无需对模型以及强化学习算法进行修改。
[0037]4)本专利技术通过封装各独立的子模块,使得修改某一模块时无需对其他模块进行修改,进而达到对多类博弈场景、多种学习算法以及多套模型的广泛适应性。
附图说明
[0038]图1为太空博弈智能生成开发平台组成图;
[0039]图2为太空博弈场景属性模板结构图;
[0040]图3为动力学模型组件组成图;
[0041]图4为智能算法组件组成图;
具体实施方式
[0042]面向太空博弈场景的智能生成开发平台如图1所示。包括太空博弈场景环境开发组件、动力学模型组件、网络模型生成组件和可视化与效能评估组件。其中,动力学模型组件服务于太空博弈场景环境开发组件,用于设置场景环境的物理世界力学属性;网络模型生成组件与太空博弈场景环境开发组件进行交互,网络模型生成组件输出策略网络(action)及价值函数(value)到场景环境开发组件,场景环境开发组件输出智能体下一时刻状态(state)到算法组件,循环迭代学习训练,最终得到最优的策略网络。可视化与效能评估组件对训练过程中的各项参数进行实时显示制图,同时在训练结束后对特定场景进行三维可视化呈现。
[0043](1)太空博弈场景环境开发组件
[0044]面向多种太空博弈任本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种航天器在轨博弈智能生成开发平台,其特征在于:包括太空博弈场景环境开发组件、动力学模型组件、网络模型生成组件和可视化与效能评估组件,其中:太空博弈场景环境开发组件:建立属性模板,通过对属性模板不同物理量的设置,生成一系列场景实例库,每种实例库对应不同的任务需求;从场景实例库选定场景实例生成环境模型,在环境迭代模块中与网络模型生成组件交互,完成学习训练;动力学模型组件:包括用于描述太空博弈场景中个体绝对运动规律和相对运动规律的各类模型,能够根据博弈任务和学习训练的需要,在决策层或执行层对真实场景进行模拟;网络模型生成组件:利用与环境交互获得的数据,对神经网络中神经元之间连接的权值进行调整,进而生成最优化的网络模型;可视化与效能评估组件:模拟太空场景,对博弈过程进行可视化,供用户对任务的执行效能进行直观评价。2.根据权利要求1所述的一种航天器在轨博弈智能生成开发平台,其特征在于:太空博弈场景环境开发组件包括属性模板、场景实例库、环境迭代模块;属性模板包括世界属性模板、实体属性模板、智能体属性模板、标志体属性模板、边界属性模板;场景实例库生成与应用场景相关的环境模型,不同的应用场景根据不同的任务需求设计,所有应用场景都遵循统一的属性模板;环境迭代模块实现环境模型与网络模型生成组件的迭代交互,完成学习训练。3.根据权利要求2所述的一种航天器在轨博弈智能生成开发平台,其特征在于:环境模型与网络模型生成组件在环境迭代规则下进行迭代交互,环境模型传递给网络模型生成组件状态观测参数及奖励参数,网络模型生成组件传递给环境模型动作策略。4.根据权利要求3所述的一种航天器在轨博弈智能生成开发平台,其特征在于:在每一次迭代交互中,环境模型对每一个智能体执行网络模型生成组件传递而来的动作策略,进而将动作映射为智能体的受力,在智能体动力学模型基础上完成解算,更新智能体的状态观测参数和奖励参数;所有智能体完成上述计算过程后,环境模型统一将更新后的智能体状态观测参数、奖励参数传递给网络模型生成组件,网络模型生成组件生成新的环境模型动作策略传递给环境模型,进入下一次迭代交互。5.根据权利要求1所述的...
【专利技术属性】
技术研发人员:袁利,黄煌,马亮,刘磊,汤亮,张聪,耿远卓,王英杰,
申请(专利权)人:北京控制工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。