本申请实施例公开了一种基于强化学习模型的线性互补对偶LCD码生成方法及相关装置。LCD码的生成矩阵分成两部分构成,分别为k×k维的单位矩阵和k×(n‑k)维的第一矩阵。该方法包括确定待构造的LCD的码长n和维数k,进而根据码长n和维数k初始化强化学习模型,得到目标强化学习模型;然后将单位矩阵和初始化后的第一矩阵进行拼接,得到初始化状态矩阵;以及将初始化状态矩阵输入至目标强化学习模型;最后,根据目标强化学习模型输出的目标第一矩阵生成目标线性互补对偶码。采用本申请实施例,可以克服已有码的性能、码长、维数等参数对构造LCD码的影响,提供更加灵活的码长和维数的LCD码构造方式。
【技术实现步骤摘要】
本专利技术涉及机器学习,尤其涉及一种基于强化学习模型的线性互补对偶码生成方法及相关装置。
技术介绍
1、数据通信的迅速发展使得对数据可靠传输的需求变得日益迫切,纠错码技术应运而生。线性互补对偶(linear complementary dual,lcd)码从理论上被证明是可以提供一种双用户二进制加法信道的最优编码。通过利用线性码与其对偶码的hull维谱证明了lcd码满足渐近gilbert-varshamov界。在实际应用中,lcd码被用于抵御侧信道和故障注入攻击。此外,它们的正交性使其在构建量子纠错码方面具有价值。通过建立局部可恢复码和lcd码之间的联系,还可以对分布式数据存储单个节点出错提供解决方案。在密钥分发和密钥恢复阶段也能利用lcd码的特性提出一个基于lcd码的优秀秘密分享方案。
2、尽管lcd码具有良好的理论性质和实际意义,但其构造仍然主要依赖于编码理论。基于编码理论的一部分方法是基于已有的码来生成,这限制了已有码的性能、码长、维数等参数对构造lcd码的影响;其次,基于编码理论的构造方法通常需要码长和维数满足特定条件,缺乏灵活性,不适用于所有的码长和维数。
技术实现思路
1、本申请实施例提供一种基于强化学习模型的线性互补对偶码生成方法及相关装置,可以克服已有码的性能、码长、维数等参数对构造lcd码的影响,提供更加灵活的码长和维数的lcd码构造方式。
2、本申请实施例第一方面提供了一种基于强化学习模型的线性互补对偶码生成方法,所述方法包括:
<
p>3、确定待构造的线性互补对偶码的码长n和维数k,线性互补对偶码的生成矩阵由k×k维的单位矩阵和k×(n-k)维的第一矩阵拼接得到;4、根据所述码长n和维数k初始化强化学习模型,得到目标强化学习模型;
5、将所述单位矩阵和初始化后的所述第一矩阵进行拼接,得到初始化状态矩阵;以及将初始化状态矩阵输入至所述目标强化学习模型;
6、根据所述目标强化学习模型输出的目标第一矩阵生成目标线性互补对偶码。
7、可选的,所述根据所述码长n和维数k初始化强化学习模型,得到目标强化学习模型,包括:
8、根据所述码长n和维数k确定强化学习模型的输入层神经网络节点数、输出层神经网络节点数,得到目标强化学习模型,所述输入层神经网络节点数为k×n,所述输出层神经网络节点数为k×(n-k)。
9、可选的,强化学习模型包括智能体模块,所述将初始化状态矩阵输入至所述目标强化学习模型,包括:
10、将初始化状态矩阵作为待更新状态矩阵,以及将所述待更新状态矩阵和待更新奖励输入至所述智能体模块;
11、根据所述待更新状态矩阵和待更新奖励更新所述智能体中的参数;
12、根据更新参数后的所述智能体模块输出的待更新动作矩阵和线性互补对偶码中元素所属的有限域的阶数确定待更新第一矩阵;
13、在迭代预设次数之后,将得到的待更新第一矩阵确定为目标第一矩阵。
14、可选的,所述根据所述智能体模块输出的待更新动作矩阵和线性互补对偶码中元素所属的有限域的阶数确定待更新第一矩阵,包括:
15、若线性互补对偶码中元素所属的有限域的阶数为2,则将所述智能体模块输出的待更新动作矩阵中元素大于或等于0.5的取值为1,小于0.5的取值为0,得到待更新第一矩阵;
16、若线性互补对偶码中元素所属的有限域的阶数为3,则将所述智能体模块输出的待更新动作矩阵中元素与10的乘积向下取整,以及将向下取整得到的数值与3求模,得到待更新第一矩阵。
17、可选的,强化学习模型还包括译码器和随机网络蒸馏模块,所述方法还包括:
18、将所述待更新第一矩阵和所述单位矩阵拼接,得到待更新状态矩阵;
19、将所述待更新状态矩阵分别输入所述译码器和随机网络蒸馏模块;
20、根据所述译码器输出的误组率和所述随机网络蒸馏模块输出的内在动机确定待更新奖励,执行所述将所述待更新状态矩阵和待更新奖励输入至所述智能体模块的步骤。
21、可选的,所述根据所述译码器输出的误组率和所述随机网络蒸馏模块输出的内在动机确定奖励,包括:
22、若所述状态向量为线性互补对偶码的生成矩阵,则根据第一公式确定第一因子;若所述状态向量不为线性互补对偶码的生成矩阵,则确定所述第一因子等于-1;所述第一公式为a=1-bler×λ,其中,a为第一因子,bler为所述译码器输出的误组率,λ为预设常数;
23、根据第二公式确定奖励,所述第二公式为reward=a+intrinsic_motivation/10,其中,reward为奖励,intrinsic_motivation为所述随机网络蒸馏模块输出的内在动机。
24、可选的,所述方法还包括:
25、根据所述随机网络蒸馏模块输出的内在动机确定损失函数;
26、根据所述损失函数更新所述预测网络中的参数,其中,所述损失函数等于所述内在动机。
27、本申请实施例第二方面提供了一种基于强化学习模型的线性互补对偶码生成装置,所述装置包括:
28、数据输入单元,用于确定待构造的线性互补对偶码的码长n和维数k,线性互补对偶码的生成矩阵由k×k维的单位矩阵和k×(n-k)维的第一矩阵拼接得到;
29、模型生成单元,用于根据所述码长n和维数k初始化强化学习模型,得到目标强化学习模型;
30、模型运行单元,用于将所述单位矩阵和初始化后的所述第一矩阵进行拼接,得到初始化状态矩阵;以及将初始化状态矩阵输入至所述目标强化学习模型;
31、数据输出单元,用于根据所述目标强化学习模型输出的目标第一矩阵生成目标线性互补对偶码。
32、本申请实施例第三方面提供了一种电子设备,包括:处理器和存储器;
33、处理器和存储器相连,其中,存储器用于存储计算机程序,处理器用于调用计算机程序,以执行如本申请实施例中第一方面中的方法。
34、本申请实施例第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行如本申请实施例中第一方面中的方法。
35、线性互补对偶码的生成矩阵分成两部分构成,分别为k×k维的单位矩阵和k×(n-k)维的第一矩阵。可以看出,本申请实施例通过确定待构造的lcd的码长n和维数k,进而根据码长n和维数k初始化强化学习模型,得到目标强化学习模型;然后将单位矩阵和初始化后的第一矩阵进行拼接,得到初始化状态矩阵;以及将初始化状态矩阵输入至目标强化学习模型;最后,根据目标强化学习模型输出的目标第一矩阵生成目标线性互补对偶码。
36、相较于已有的编码理论,本申请实施例并不是在已有码的生成矩阵的基础上构造,因此,已有码的性能、码长、维数等参数并不会对构造的lcd码产生影响;同时,本申请是采用强化学习本文档来自技高网
...
【技术保护点】
1.一种基于强化学习模型的线性互补对偶码生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述码长n和维数k初始化强化学习模型,得到目标强化学习模型,包括:
3.根据权利要求2所述的方法,其特征在于,强化学习模型包括智能体模块,所述将初始化状态矩阵输入至所述目标强化学习模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述智能体模块输出的待更新动作矩阵和线性互补对偶码中元素所属的有限域的阶数确定待更新第一矩阵,包括:
5.根据权利要求4所述的方法,其特征在于,强化学习模型还包括译码器和随机网络蒸馏模块,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述根据所述译码器输出的误组率和所述随机网络蒸馏模块输出的内在动机确定奖励,包括:
7.根据权利要求5或6所述的方法,其特征在于,所述随机网络蒸馏模块包括目标网络和预测网络,所述方法还包括:
8.一种基于强化学习模型的线性互补对偶码生成装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:处理器和存储器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-7任一项所述的方法。
...
【技术特征摘要】
1.一种基于强化学习模型的线性互补对偶码生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述根据所述码长n和维数k初始化强化学习模型,得到目标强化学习模型,包括:
3.根据权利要求2所述的方法,其特征在于,强化学习模型包括智能体模块,所述将初始化状态矩阵输入至所述目标强化学习模型,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述智能体模块输出的待更新动作矩阵和线性互补对偶码中元素所属的有限域的阶数确定待更新第一矩阵,包括:
5.根据权利要求4所述的方法,其特征在于,强化学习模型还包括译码器和随机网络蒸馏模块,所述方法...
【专利技术属性】
技术研发人员:吴严生,马金,杨尚东,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。