一种基于近端策略优化的RIS控制方法、系统、设备及介质技术方案

技术编号：37068682 阅读：22 留言：0更新日期：2023-03-29 19:46

本发明专利技术属于通信技术领域，其目的在于提供一种基于近端策略优化的RIS控制方法、系统、设备及介质。其中的方法包括：构建决策模型和评估模型，并对其进行训练；获取指定RIS在指定环境下与基站和目标区域内用户终端之间的实地交互信息；根据当前实地交互信息，基于近端策略优化算法对训练后决策模型和训练后评估模型进行更新，得到更新后决策模型和更新后评估模型；将实地交互信息输入更新后决策模型，得到RIS在指定环境下的更新后码本；基于更新后码本控制RIS进行部署，再根据更新后评估模型对当前指定环境进行测试，并在测试通过后完成RIS码本的部署。本发明专利技术可以适用于大规模、多阵列单元的RIS码本优化问题，求解时间短，同时泛化性强。化性强。化性强。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于近端策略优化的RIS控制方法、系统、设备及介质

[0001]本专利技术属于通信
，具体涉及一种基于近端策略优化的RIS控制方法、系统、设备及介质。

技术介绍

[0002]RIS(Reconfigurable Intelligent Surface，可重构智能超表面)作为一种无源天线设备，已成为6G技术中最为重要的一种基础设备，在应用过程中，可以通过在平面上集成大量低成本的无源反射元件，智能地重新配置无线传播环境，从而显著提高无线通信网络的性能。具体而言，可通过控制并调整RIS入射信号的幅度和相位，控制RIS出射信号，以实现定向信号增强的作用，并形成精细的三维无源波束，使RIS可应用于成像、探测、信号覆盖等多种任务上。
[0003]由于RIS具有阵列单元数多、每个单元控制变化数少的特征，按照反射电磁波相位状态数量，RIS的状态数量可以分为1bit和多比特，以状态数量为1bit的阵列单元矩阵为50*50的RIS板为例，其需要50*50大小的矩阵来储存其控制码本(码本也可称之为阵元状态信息)，其中码本的每位数字取0或1，码本大小影响RIS目标区域的信号强度。因此如何设置码本大小，获取最优码本，并基于该最优码本对RIS进行部署，以使目标区域信号最强，是RIS应用过程中最为关键的流程。
[0004]为获取RIS最优码本，需要对RIS码本进行优化处理。现有技术中，通常采用相位补偿算法、遍历算法等对RIS码本进行优化求解。但是，在使用现有技术过程中，专利技术人发现现有技术中至少存在如下问题：
...

【技术保护点】

【技术特征摘要】
1.一种基于近端策略优化的RIS控制方法，其特征在于：包括：构建用于生成RIS码本的决策模型和用于对RIS所在环境进行测试的评估模型，并对所述决策模型和所述评估模型进行训练，得到训练后决策模型和训练后评估模型；获取指定RIS在指定环境下与基站和目标区域内用户终端之间的实地交互信息；根据当前实地交互信息，基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新，得到更新后决策模型和更新后评估模型；将所述实地交互信息输入所述更新后决策模型，得到所述RIS在指定环境下的更新后码本；基于所述更新后码本控制所述RIS进行部署，再根据所述更新后评估模型对当前指定环境进行测试，并在测试通过后完成RIS码本的部署。2.根据权利要求1所述的一种基于近端策略优化的RIS控制方法，其特征在于：所述决策模型和评估模型均基于多层卷积神经网络建模得到。3.根据权利要求1所述的一种基于近端策略优化的RIS控制方法，其特征在于：对所述决策模型和所述评估模型进行训练，包括：构建布置有RIS的场景模型；基于所述决策模型获取所述场景模型中RIS与预设基站和目标区域内预设用户终端之间的测试交互信息；根据所述测试交互信息，利用近端策略优化算法对所述决策模型和评估模型进行训练，得到训练后决策模型和训练后评估模型。4.根据权利要求1所述的一种基于近端策略优化的RIS控制方法，其特征在于：获取指定RIS在指定环境下与基站和目标区域内用户终端之间的实地交互信息，包括：获取所述指定环境的初始环境状态信息s；将所述初始环境状态信息s输入所述训练后决策模型，得到所述指定环境中RIS的码本a；基于所述码本a控制所述RIS进行部署，得到所述RIS在执行所述码本a后所述指定环境的码本执行后环境状态信息s'以及所述指定环境中目标区域的信号增益r；将所述初始环境状态信息s、所述码本a、所述码本执行后环境状态信息s'和所述信号增益r保存为四元组<s,a,s',r>；重新获取所述指定环境的初始环境状态信息，直到得到多个四元组，再将多个四元组记为实地交互信息<S,A,S',R>。5.根据权利要求1所述的一种基于近端策略优化的RIS控制方法，其特征在于：根据当前实地交互信息，基于近端策略优化算法对所述训练后决策模型和所述训练后评估模型进行更新，包括：获取所述实地交互信息<S,A,S',R>中的多组连续交互信息{s0,a0,r
o
,s1,a1,r1,
…
,s
t
,a
t
,r
t
}；根据所述多组连续交互信息，得到用于评价码本相对环境状态信息的价值分数的优势值；利用预设的损失函数分别...

【专利技术属性】
技术研发人员：邱才明，冯湛搏，朱椿，
申请(专利权)人：华工未来科技江苏有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人