一种基于连续动作强化学习的激光相干合成控制算法制造技术

技术编号：42882398 阅读：5 留言：0更新日期：2024-09-30 15:05

本发明专利技术涉及激光相干合成技术领域，公开了一种基于连续动作强化学习的激光相干合成控制算法。该方法解决了传统相位控制方法硬件要求高、基于深度学习的相位控制方法鲁棒性低及强化学习方法训练时间长的难题。其步骤包括：将多束激光相干合成后的衍射图样输入至强化学习系统，通过Policy网络根据执行动作和奖励进行参数更新。当Policy网络训练收敛后，将光电探测器获取的衍射图输入网络，网络输出校正动作，选择最优动作并转换为校正信号传送至相位控制器，控制器调整光束相位实现高相干合成输出。本方法高效、具高鲁棒性、实时性和适应复杂环境变化的能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及激光相干合成，具体涉及一种基于连续动作强化学习的激光相干合成控制算法。

技术介绍

1、激光相干合成技术通过调整多束激光的相位，使其达到同步，以实现高功率、高光束质量输出。激光的产生依赖于受激辐射的光放大，需要满足两个条件，即受激辐射的产生和放大，能够实现这一过程的设备称为激光器。激光器种类多样，其中光纤激光器应用较为广泛。随着激光在医疗、军事和工业加工等领域的广泛应用，人们的目标逐渐转向获得高功率、高光束质量和高亮度的激光输出。尽管当前的二极管泵浦激光放大器技术已经相当成熟，但由于光学元件能量阈值和激光器散热等物理限制，单台光纤激光器的输出功率受到限制。因此，要实现数十万瓦级的激光输出，需要通过激光相干合成技术，将多路激光合成为一束高功率激光。而相位控制技术则是实现多路激光相干合成的关键因素。

2、通常情况下，主动相位控制技术通过探测器提供的远场合成光斑信息，结合多种处理手段，对光束相位进行调节，以便将多个单元光束聚焦到特定目标表面。目前在光纤激光相干合成系统中，传统的主动相位控制方法包括外差法、抖动法和随机并行梯度下降算法(spgd)，这些方法都能有效地校正各路光束的相位。然而，这些传统方法也存在一些难以克服的缺点：硬件系统要求高，且随着子波束数量的增加，控制带宽会显著减小。此外，尽管基于深度学习的相位控制方法在理想情况下可以通过单步迭代快速补偿光束间的相位差，但也存在明显的不足：训练一个良好的相位校正网络需要预先制作大量的标签。虽然在仿真系统中生成标签相对容易，但研究的最终目的是在实际系统中应用，这

技术实现思路

1、本专利技术的目的在于克服现有技术的不足，提供一种基于强化学习的激光相干合成的相位控制方法，该方法可以实时地修正相干合成系统中的相位，可以解决传统算法中对硬件刷新速度要求高以及离散动作强化学习系统中相位修正速度慢的问题，该方法中的神经网络可以实时修正系统中的相位的同时大大减少对硬件刷新速度的要求。

2、本专利技术解决上述技术问题的技术方案是：

3、一种基于连续动作强化学习的激光相干合成控制算法，包括以下步骤：

4、(s1)、将激光器的输出经过分束器分出m束后，分别送入m个相位调制器中对相位进行调制；

5、(s2)、对m束光进行相位调控后，光束被准直器扩束准直，然后输出至聚焦透镜进行m束光的聚焦；

6、(s3)、聚焦后的光束先通过偏振片，再通过显微物镜，最终输出至半透半反棱镜。一部分光透射至光电探测器ccd上，生成m束激光相干合成后的衍射图像a，另一部分光反射至光电探测器pd上以获取光强值；

7、(s4)、通过给相位控制器输入一组预先设计的固定相位扰动，再经过光学系统后得到一张添加了固定相位扰动的衍射图像b，将控制器复原至未添加扰动的状态。将衍射图像a和衍射图像b在通道维度上进行堆叠，然后送入已经训练好的policy网络，policy网络输出相位修正动作，将该修正动作送入控制器，矫正m束光的相位，实现高功率的激光相干合成输出；

8、优选的，在步骤(s4)中，固定相位扰动经过挑选，使得在保证可以打破相位简并的同时使得pib下降最小：具体实现是通过使得相邻光束的相位扰动值不相同，并且沿中心对称轴对应的光束相位扰动值相同。

9、优选的，在步骤(s4)中，固定的相位扰动直接由控制器硬件施加：具体实现是通过在控制器中写入对应程序，在送入相位修正动作后控制器触发相机和pd采集衍射图像和光强值，然后控制器自动添加固定相位扰动并触发相机和复原，最后控制器将堆叠后的衍射图像以及光强值送入网络并等待下一个相位修正动作，重复该过程。

10、优选的，在步骤(s4)中，policy网络可以在fpga上实现，以减少时延和推理耗时，增加系统的控制频率：具体实现是在fpga上实现policy网络对应的网络结构，在policy网络训练完成后，将policy网络权重直接下发到fpga中，然后在运行过程中将控制器的输出直接输入到fpga中，fpga进行运算后直接将计算出的相位修正动作输出到控制器。

11、优选的，在步骤(s4)中，训练好的policy网络的获取包括以下步骤：

12、(s4-1)、搭建一个神经网络policy网络，一个神经网络q值网络。policy网络的输入为在通道维度上堆叠的两张衍射图像，输出为一组相位修正动作的分布；q值网络的输入为在通道维度上堆叠的两张衍射图像以及对应的相位修正动作，输出为当前状态以及修正动作的优势值。

13、(s4-2)、m束光经过光学系统后得到了一张衍射图像，然后在控制器上实施一个固定相位扰动，经过光学系统后得到另一张衍射图像，复原控制器。将两张衍射图像在通道维度上进行堆叠，并将其输入到policy网络中，policy网络输出动作的概率分布，算法从该概率分布中采样到具体的相位修正动作，将该校正动作送入控制器上对m束光的相位进行校正，通过光学系统得到对应的衍射图样，并从光电探测器pd中获取光强值以进行奖励值的计算，然后将输入的堆叠衍射图、相位校正后的堆叠衍射图、相位校正动作以及计算所得的奖励值加入回放缓冲区中。

14、(s4-3)、在每次推理后，算法从回放缓冲区中随机采样n个校正前的堆叠衍射图像、相位校正后的堆叠衍射图像、相位校正动作以及奖励值。将相位校正前的堆叠衍射图像与相位校正动作送入q值网络，计算出当前的优势值，同时将相位修正后的堆叠衍射图像送入policy网络，计算出下一步的相位修正动作，将修正后的堆叠图像与修正动作送入q值网络，计算出下一步的优势值，将这两个值结合，与奖励值一起计算出q值网络的损失值，并使用反向传播算法优化q值网络；将堆叠衍射图像送入policy网络，生成修正动作后将其与堆叠衍射图像送入q值网络，对q值网络的输出进行梯度上升以优化policy网络。

15、优选的，在步骤(s4-1)中，policy网络是由两层全连接层以及激活函数组建而成的网络。首先将输入的图片压成一维的向量，然后依次经过两层全连接层以及对应的激活函数层：第一次经过激活函数为relu的激活函数层，第二次分别经过激活函数为tanh的激活函数层以及经过relu的激活函数层。

16、优选的，在步骤(s4-1)中policy网络输出的动作分布为分布的均值和方差参数，然后在分布上进行重参数化采样：具体实现是policy网络输出分布的均值和方差，然后从一个单位高斯分布进行采样，将采样值乘以标准差后加上均值，就等价于从指定均值和方差的高斯分布中进行采样，同时输出和损失函数仍然可导。

17、优选的，在步骤(本文档来自技高网...

【技术保护点】

1.一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(S4)中，固定的相位扰动施加方式为中心光束相位不变，其余外围光束两两之间扰动幅度不同，沿中心对称的光束扰动值相同。

3.根据权利要求1所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(S4)中，Policy网络输出修正动作后，控制器先实施修正动作，然后CCD进行图像采集，采集到衍射强度图A，随即在当前相位上施加固定相位扰动，CCD采集到衍射强度图B后将固定相位扰动复位，计算机将衍射图像A、B在通道维度上叠加后输入到Policy网络，以产生修正动作。

4.根据权利要求1所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(S4)中，训练好的Policy网络的获取包括以下步骤：

5.根据权利要求1所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，所述的Policy网络和Q值网络的结构包括两层全连接层及其对应的

6.根据权利要求4所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(S4-3)中，Policy网络输出的动作分布为分布的均值和方差参数，然后在分布上进行重参数化采样，即从单位高斯分布采样后乘以标准差并加上均值，从而从指定均值和方差的高斯分布中进行采样。

7.根据权利要求4所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(S4-2)中，所述的奖励值计算表达式如下：

8.根据权利要求4所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(S4-3)中，所述的Q值网络的损失函数公式为：

9.根据权利要求4所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(S4-3)中，所述的Policy网络的损失函数公式为：

10.根据权利要求4所述的一种基于强化学习的激光相干合成控制方法，其特征在于，在步骤(S4-3)中，所述的回放缓冲区是一个固定大小且可以随机访问的队列，队列元素数量达到上限时添加元素会自动丢弃最早加入队列的元素。

11.根据权利要求4所述的一种基于强化学习的激光相干合成控制方法，其特征在于，在步骤(S4-3)中，所述的在回放缓冲区进行随机采样是指生成N个不大于队列元素数量的随机正整数作为下标随机访问队列元素，然后将访问到的元素作为随机采样的结果。

...

【技术特征摘要】

1.一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(s4)中，固定的相位扰动施加方式为中心光束相位不变，其余外围光束两两之间扰动幅度不同，沿中心对称的光束扰动值相同。

3.根据权利要求1所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(s4)中，policy网络输出修正动作后，控制器先实施修正动作，然后ccd进行图像采集，采集到衍射强度图a，随即在当前相位上施加固定相位扰动，ccd采集到衍射强度图b后将固定相位扰动复位，计算机将衍射图像a、b在通道维度上叠加后输入到policy网络，以产生修正动作。

4.根据权利要求1所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，在步骤(s4)中，训练好的policy网络的获取包括以下步骤：

5.根据权利要求1所述的一种基于连续动作强化学习的激光相干合成控制算法，其特征在于，所述的policy网络和q值网络的结构包括两层全连接层及其对应的激活函数层：第一层激活函数为relu，第二层激活函数为tanh和relu。

6.根据权利要求4所述的一种基于连续动作强化学习的激光相干合成控制...

【专利技术属性】
技术研发人员：邸江磊，高浚哲，江文隽，豆嘉真，钟丽云，秦玉文，
申请(专利权)人：广东工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人