一种基于近端策略优化的RIS控制方法、系统、设备及介质技术方案

技术编号:37068682 阅读:15 留言:0更新日期:2023-03-29 19:46
本发明专利技术属于通信技术领域,其目的在于提供一种基于近端策略优化的RIS控制方法、系统、设备及介质。其中的方法包括:构建决策模型和评估模型,并对其进行训练;获取指定RIS在指定环境下与基站和目标区域内用户终端之间的实地交互信息;根据当前实地交互信息,基于近端策略优化算法对训练后决策模型和训练后评估模型进行更新,得到更新后决策模型和更新后评估模型;将实地交互信息输入更新后决策模型,得到RIS在指定环境下的更新后码本;基于更新后码本控制RIS进行部署,再根据更新后评估模型对当前指定环境进行测试,并在测试通过后完成RIS码本的部署。本发明专利技术可以适用于大规模、多阵列单元的RIS码本优化问题,求解时间短,同时泛化性强。化性强。化性强。

【技术实现步骤摘要】
一种基于近端策略优化的RIS控制方法、系统、设备及介质


[0001]本专利技术属于通信
,具体涉及一种基于近端策略优化的RIS控制方法、系统、设备及介质。

技术介绍

[0002]RIS(Reconfigurable Intelligent Surface,可重构智能超表面)作为一种无源天线设备,已成为6G技术中最为重要的一种基础设备,在应用过程中,可以通过在平面上集成大量低成本的无源反射元件,智能地重新配置无线传播环境,从而显著提高无线通信网络的性能。具体而言,可通过控制并调整RIS入射信号的幅度和相位,控制RIS出射信号,以实现定向信号增强的作用,并形成精细的三维无源波束,使RIS可应用于成像、探测、信号覆盖等多种任务上。
[0003]由于RIS具有阵列单元数多、每个单元控制变化数少的特征,按照反射电磁波相位状态数量,RIS的状态数量可以分为1bit和多比特,以状态数量为1bit的阵列单元矩阵为50*50的RIS板为例,其需要50*50大小的矩阵来储存其控制码本(码本也可称之为阵元状态信息),其中码本的每位数字取0或1,码本大小影响RIS目标区域的信号强度。因此如何设置码本大小,获取最优码本,并基于该最优码本对RIS进行部署,以使目标区域信号最强,是RIS应用过程中最为关键的流程。
[0004]为获取RIS最优码本,需要对RIS码本进行优化处理。现有技术中,通常采用相位补偿算法、遍历算法等对RIS码本进行优化求解。但是,在使用现有技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0005]以遍历算法为例,该算法要求必须获得目标空间的信号强度,通过遍历和迭代的方法求得最优码本,由于遍历需要对每一列和每一行阵列单元的码本进行迭代优化,因此当RIS的阵列单元数少的时候,算法非常有效且能够保证结果的有效性,但随着RIS阵列单元数增加、码本空间维度高时,该算法所需时间成倍增加,同时,由于算法本身的贪心性质,容易陷入局部最优,造成不优化,甚至负优化的问题。
[0006]而相位补偿算法,虽然一定程度上可以得到近似最优的策略,但是由于需要获得RIS目标角度信息,而RIS目标角度信息在实践中很难测量并获取,导致实践中无法使用相位补偿算法对RIS码本进行优化处理,同时该方法也存在求解时间过长的问题。
[0007]此外,由于信号本身受环境因素影响严重,RIS部署的环境特征不同,也会导致存在求解的泛化性差等问题。

技术实现思路

[0008]本专利技术旨在至少在一定程度上解决上述技术问题,本专利技术提供了一种基于近端策略优化的RIS控制方法、系统、设备及介质。
[0009]为了实现上述目的,本专利技术采用以下技术方案:
[0010]第一方面,提供了一种基于近端策略优化的RIS控制方法,包括:
[0011]构建用于生成RIS码本的决策模型和用于对RIS所在环境进行测试的评估模型,并对所述决策模型和所述评估模型进行训练,得到训练后决策模型和训练后评估模型;
[0012]获取指定RIS在指定环境下与基站和目标区域内用户终端之间的实地交互信息;
[0013]根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,得到更新后决策模型和更新后评估模型;
[0014]将所述实地交互信息输入所述更新后决策模型,得到所述RIS在指定环境下的更新后码本;
[0015]基于所述更新后码本控制所述RIS进行部署,再根据所述更新后评估模型对当前指定环境进行测试,并在测试通过后完成RIS码本的部署。
[0016]本专利技术可以适用于大规模、多阵列单元的RIS码本优化问题,求解时间短,同时泛化性强。具体地,本专利技术在实施过程中,决策模型和评估模型均为神经网络模型,通过构建决策模型和评估模型,更多的时间会消耗在训练阶段,而在具体实践的环境中,只需要等待推理时间就可以得到最优策略,即最优码本,因此推理时间和RIS本身的阵列单元数无关,只与决策模型和评估模型的大小有关,极大地降低了决策的响应时间。同时,本专利技术可以利用神经网络模型具有可再训练的特性,利用预训练模型进行知识迁移,很容易地适应新的环境和不同规模的RIS,以提升算法本身的泛化性。此外,本专利技术基于近端策略优化算法对模型进行更新,在此过程中,近端策略优化算法可以和环境进行交互采集大量数据,提升模型本身的准确程度,因此在部署了对应模型的实际环境中,也可以自适应的调节策略,而非固定的采取某个单一性策略,降低了后期迭代更新的代价,一定程度上缓解了使用环境的变化问题,弥补了过去优化算法中因素单一、无法对复杂环境做出最优决策的缺陷。
[0017]在一个可能的设计中,所述决策模型和评估模型均基于多层卷积神经网络建模得到。
[0018]在一个可能的设计中,对所述决策模型和所述评估模型进行训练,包括:
[0019]构建布置有RIS的场景模型;
[0020]基于所述决策模型获取所述场景模型中RIS与预设基站和目标区域内预设用户终端之间的测试交互信息;
[0021]根据所述测试交互信息,利用近端策略优化算法对所述决策模型和评估模型进行训练,得到训练后决策模型和训练后评估模型。
[0022]在一个可能的设计中,获取指定RIS在指定环境下与基站和目标区域内用户终端之间的实地交互信息,包括:
[0023]获取所述指定环境的初始环境状态信息s;
[0024]将所述初始环境状态信息s输入所述训练后决策模型,得到所述指定环境中RIS的码本a;
[0025]基于所述码本a控制所述RIS进行部署,得到所述RIS在执行所述码本a后所述指定环境的码本执行后环境状态信息s'以及所述指定环境中目标区域的信号增益r;
[0026]将所述初始环境状态信息s、所述码本a、所述码本执行后环境状态信息s'和所述信号增益r保存为四元组<s,a,s',r>;
[0027]重新获取所述指定环境的初始环境状态信息,直到得到多个四元组,再将多个四元组记为实地交互信息<S,A,S',R>。
[0028]在一个可能的设计中,根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,包括:
[0029]获取所述实地交互信息<S,A,S',R>中的多组连续交互信息{s0,a0,r
o
,s1,a1,r1,

,s
t
,a
t
,r
t
};
[0030]根据所述多组连续交互信息,得到用于评价码本相对环境状态信息的价值分数的优势值;
[0031]利用预设的损失函数分别对所述训练后决策模型和所述训练后评估模型进行更新,以便得到更新后决策模型和更新后评估模型。
[0032]在一个可能的设计中,所述优势值为:
[0033][0034]式中,表示所述实地交互信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于近端策略优化的RIS控制方法,其特征在于:包括:构建用于生成RIS码本的决策模型和用于对RIS所在环境进行测试的评估模型,并对所述决策模型和所述评估模型进行训练,得到训练后决策模型和训练后评估模型;获取指定RIS在指定环境下与基站和目标区域内用户终端之间的实地交互信息;根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,得到更新后决策模型和更新后评估模型;将所述实地交互信息输入所述更新后决策模型,得到所述RIS在指定环境下的更新后码本;基于所述更新后码本控制所述RIS进行部署,再根据所述更新后评估模型对当前指定环境进行测试,并在测试通过后完成RIS码本的部署。2.根据权利要求1所述的一种基于近端策略优化的RIS控制方法,其特征在于:所述决策模型和评估模型均基于多层卷积神经网络建模得到。3.根据权利要求1所述的一种基于近端策略优化的RIS控制方法,其特征在于:对所述决策模型和所述评估模型进行训练,包括:构建布置有RIS的场景模型;基于所述决策模型获取所述场景模型中RIS与预设基站和目标区域内预设用户终端之间的测试交互信息;根据所述测试交互信息,利用近端策略优化算法对所述决策模型和评估模型进行训练,得到训练后决策模型和训练后评估模型。4.根据权利要求1所述的一种基于近端策略优化的RIS控制方法,其特征在于:获取指定RIS在指定环境下与基站和目标区域内用户终端之间的实地交互信息,包括:获取所述指定环境的初始环境状态信息s;将所述初始环境状态信息s输入所述训练后决策模型,得到所述指定环境中RIS的码本a;基于所述码本a控制所述RIS进行部署,得到所述RIS在执行所述码本a后所述指定环境的码本执行后环境状态信息s'以及所述指定环境中目标区域的信号增益r;将所述初始环境状态信息s、所述码本a、所述码本执行后环境状态信息s'和所述信号增益r保存为四元组<s,a,s',r>;重新获取所述指定环境的初始环境状态信息,直到得到多个四元组,再将多个四元组记为实地交互信息<S,A,S',R>。5.根据权利要求1所述的一种基于近端策略优化的RIS控制方法,其特征在于:根据当前实地交互信息,基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新,包括:获取所述实地交互信息<S,A,S',R>中的多组连续交互信息{s0,a0,r
o
,s1,a1,r1,

,s
t
,a
t
,r
t
};根据所述多组连续交互信息,得到用于评价码本相对环境状态信息的价值分数的优势值;利用预设的损失函数分别...

【专利技术属性】
技术研发人员:邱才明冯湛搏朱椿
申请(专利权)人:华工未来科技江苏有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1