一种强化学习的训练方法及相关装置制造方法及图纸

技术编号：40579990 阅读：9 留言：0更新日期：2024-03-06 17:22

本申请提供了一种强化学习的训练方法及相关装置，该方法包括：根据多个站点的动作，确定第一回报值，第一回报值为多个站点中第一站点的回报值，第一回报值用于第一站点进行强化学习训练；向第一站点发送第一回报值。可以看出，通过根据多个站点的动作确定回报值，使得回报值的计算可以结合用户间的相互影响，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。本申请可应用于EHT，或Wi‑Fi7，或Wi‑Fi 8等WLAN系统。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机技术、通信，尤其涉及一种强化学习的训练方法及相关装置。

技术介绍

1、强化学习是用于实现序列决策的通用方法，智能体(agent)以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的回报(reward)值指导行为，目标是使智能体获得最大的回报值。目前，往往需要利用动作、环境状态和回报值进行强化学习训练。但是，在现有方案中，得到的回报值精准性低，进而导致在利用动作、环境状态和回报值进行强化学习训练后在实际应用时效果不好。

技术实现思路

1、本申请提供了一种强化学习的训练方法及相关装置，可以提高回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

2、第一方面，提供一种强化学习的训练方法，该方法包括：根据多个站点的动作，确定第一回报值，第一回报值为多个站点中第一站点的回报值，第一回报值用于第一站点进行强化学习训练；向第一站点发送第一回报值。可以看出，通过根据多个站点的动作确定回报值，使得回报值的计算可以结合用户间的相互影响，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

3、可选的，一个站点的动作包括以下至少一项：站点发起信道接入、站点进行信道选择、站点进行功率控制、站点进行速率自适应。

4、应理解的，第一站点可以为多个站点中的任意一个站点。这意味着，针对多个站点中的任意一个站点，接入点均是根据多个站点的动作确定该站点的回报值。示例性的，接入点根据站点

5、可选的，多个站点中不同站点的动作可以完全相同、部分相同或完全不同，在此不做限定。示例性的，站点#1的动作为发起信道接入，站点#2的动作为发起信道接入，站点#3的动作为发起信道接入。因此三个站点的动作完全相同。又示例性的，站点#1的动作为发起信道接入，站点#2的动作为发起信道接入，站点#3的动作为进行功率控制。因此三个站点的动作部分相同。又示例性的，站点#1的动作为发起信道接入，站点#2的动作为进行速率自适应，站点#3的动作为进行功率控制。因此三个站点的动作完全不同。

6、强化学习(reinforcement learning，rl)用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是马尔可夫决策过程(markov decision process，mdp)。mdp是一种分析决策问题的数学模型。强化学习是智能体以“试错”的方式进行学习，通过动作(action)与环境进行交互获得的奖励(reward)指导行为，目标是使智能体获得最大的奖励。应理解的，在本申请中，智能体可以理解为一种ai模型，包括大量的参数和计算公式(或计算规则)。奖励又可以称为回报值、评价等。

7、强化学习可以由环境提供的强化信号(即奖励)对动作的好坏作一种评价，而不是告诉强化学习系统如何去产生正确的动作。由于外部环境提供的信息很少，智能体必须靠自身的经历进行学习。通过这种方式，智能体在行动-评价(即奖励)的环境中获得知识，改进行动方案以适应环境。常见的强化学习算法有深度q学习(deep q-learning，dqn)、近端策略优化(proximal policy optimization，ppo)等。

8、可选的，结合第一方面，根据多个站点的动作，确定第一回报值，包括：根据多个站点的动作和多个站点的动作对应的时间，确定第一回报值。可以看出，通过根据多个站点的动作和多个站点的动作对应的时间确定回报值，使得回报值的计算可以结合用户间的相互影响，还可以结合不同站点的动作对应的时间，丰富了确定回报值的相关信息，提高了回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

9、可选的，结合第一方面，多个站点的动作对应的时间相同。可以看出，因为多个站点的动作对应的时间相同，所以接入点在根据多个站点的动作和多个站点的动作对应的时间确定回报值时，可以提高回报值的准确性，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

10、可选的，结合第一方面，第一回报值为第一时间对应的回报值，第一时间为第一站点的动作对应的时间。可以看出，因为回报值为某个时间对应的回报值，所以使得站点可以获知该时间对应的动作和环境状态，进而使得站点在利用回报值进行强化学习训练后可以提升实际应用效果。

11、可选的，结合第一方面，向所述第一站点发送所述第一回报值，包括：向第一站点发送广播帧，广播帧包括第一回报值。可以看出，因为第一回报值由广播帧携带，所以可以使得其他站点也收到广播帧。

12、其中，广播帧例如可以为信标帧或触发(trigger)帧等。

13、可选的，结合第一方面，多个站点还包括第二站点，该方法还包括：若第一站点和第二站点同时发送报文并导致传输失败，则确定第二站点的回报值，第二站点的回报值与第一回报值相同；向第二站点发送广播帧。可以看出，在不同站点的回报值相同的情况下，通过发送广播帧，使得不同站点都可以获取到回报值，节省了开销。

14、可选的，结合第一方面，向第一站点发送第一回报值，包括：向第一站点发送第一报文的响应帧；其中，第一报文的响应帧包括第一回报值，第一回报值与第二报文对应，第二报文在第一报文之后接收。可以看出，第二报文对应的回报值可以在第一报文的响应帧中携带，因为第二报文在第一报文之后接收，所以实现了延迟发送第二报文对应的回报值，这为回报值的计算提供了更多的时间。

15、其中，第一回报值与第二报文对应可以理解为：第一回报值与第二报文中第一站点的动作对应。第一站点的动作对应的时间为接入点接收第二报文的时间。

16、在本申请中，响应帧例如可以为确认(acknowledgment，ack)帧、清除发送(cleartosend，cts)帧或块确认(block ack，ba)等。

17、可选的，结合第一方面，第一报文的响应帧还包括第二报文的标识信息或第二报文的时间戳。可以看出，由于第一报文的响应帧还包括第二报文的标识信息或第二报文的时间戳，使得第一站点可以获知第一回报值具体是哪个报文对应的回报值。

18、在一可能的实施方式中，第二报文的标识信息例如可以为第二报文的索引值。在另一可能的实施方式中，第二报文的标识信息例如可以为第一报文的索引值与第二报文的索引值之间的差值。如，第一报文的索引值为10，第二报文的索引值为4，第二报文的标识信息可以为4或6。

19、可选的，结合第一方面，第二报文的时间戳为第二报文的接收时间；或，第二报文的时间戳为第一报文的接收时间与第二报文的接收时间的差值。

20、可选的，结合本文档来自技高网...

【技术保护点】

1.一种强化学习的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，一个站点的动作包括以下至少一项：所述站点发起信道接入、所述站点进行信道选择、所述站点进行功率控制、所述站点进行速率自适应。

3.根据权利要求1或2所述的方法，其特征在于，所述根据多个站点的动作，确定第一回报值，包括：

4.根据权利要求3所述的方法，其特征在于，所述多个站点的动作对应的时间相同。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述第一回报值为第一时间对应的回报值，所述第一时间为所述第一站点的动作对应的时间。

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述向所述第一站点发送所述第一回报值，包括：

7.根据权利要求6所述的方法，其特征在于，所述多个站点还包括第二站点，所述方法还包括：

8.根据权利要求1-5任意一项所述的方法，其特征在于，所述向所述第一站点发送所述第一回报值，包括：

9.根据权利要求8所述的方法，其特征在于，所述第一报文的响应帧还包括所述第二报

10.根据权利要求9所述的方法，其特征在于，

11.根据权利要求1-10任意一项所述的方法，其特征在于，

12.一种通信装置，其特征在于，所述装置包括处理模块和收发模块，

13.根据权利要求12所述的装置，其特征在于，一个站点的动作包括以下至少一项：所述站点发起信道接入、所述站点进行信道选择、所述站点进行功率控制、所述站点进行速率自适应。

14.根据权利要求12或13所述的装置，其特征在于，在根据多个站点的动作，确定第一回报值时，所述处理模块，用于根据所述多个站点的动作和所述多个站点的动作对应的时间，确定所述第一回报值。

15.根据权利要求14所述的装置，其特征在于，所述多个站点的动作对应的时间相同。

16.根据权利要求14所述的装置，其特征在于，所述第一回报值为第一时间对应的回报值，所述第一时间为所述第一站点的动作对应的时间。

17.根据权利要求12-16任意一项所述的装置，其特征在于，在向所述第一站点发送所述第一回报值时，所述收发模块，用于向所述第一站点发送广播帧，所述广播帧包括所述第一回报值。

18.根据权利要求17所述的装置，其特征在于，

19.根据权利要求12-16任意一项所述的装置，其特征在于，在向所述第一站点发送所述第一回报值时，所述收发模块，用于向所述第一站点发送第一报文的响应帧；

20.根据权利要求19所述的装置，其特征在于，所述第一报文的响应帧还包括所述第二报文的标识信息或所述第二报文的时间戳。

21.根据权利要求19所述的装置，其特征在于，

22.根据权利要求12-21任意一项所述的装置，其特征在于，

23.一种芯片，其特征在于，所述芯片包括至少一个处理器和接口，所述处理器用于读取并执行存储器中存储的指令，当所述指令被运行时，使得所述芯片执行如权利要求1-11任一项所述的方法。

24.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被计算机执行时，使所述计算机执行如权利要求1-11任一项所述的方法。

...

【技术特征摘要】