基于改进的Q-learning的时隙分配算法制造技术

技术编号：40549001 阅读：14 留言：0更新日期：2024-03-05 19:07

本发明专利技术公开了基于改进的Q‑learning的时隙分配算法，属于无线射频技术领域，其特征在于，包括以下步骤：a、初始化状态空间S和动作空间A；b、执行动作：在当前状态s下，若对应的Q值都为0，则随机选择动作；否则选择Q表中最大值所对应的动作，并重新分配当前系统时隙个数；c、记录奖励值函数；d、根据当前状态s选择动作并执行，观察新状态和奖励，更新Q值，并更新当前状态s；当系统的学习次数超过预设次数N时，终止学习过程，通过学习得到的最优策略，将新的时隙分配给每个标签。本发明专利技术针对高密度标签环境下的读取问题，能够实现时隙资源的最佳分配，有效降低频率碰撞率，进而提高系统的吞吐量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及到无线射频，尤其涉及基于改进的q-learning的时隙分配算法。

技术介绍

1、在物流领域中，物品的追踪和读取识别是非常重要的，这可以帮助企业提高物流效率和减少物品的丢失。目前，许多企业使用条形码或二维码来追踪和管理物品，但存在一些问题，如需要人工扫描、易损坏及易伪造。同时，由于物流领域的复杂性，rfid系统的应用面临着一些挑战，如吞吐率、标签读取效率和时隙大小的分配。在rfid系统中，吞吐率和时隙之间存在密切的关系。吞吐率是指系统在单位时间内成功传输数据的数量或速率，通常以数据传输率或标签读取数量表示。时隙是指在一段时间内划分的固定时间间隔，用于标签与阅读器之间的通信。时隙的大小和分配方式对系统的吞吐率有直接的影响。较小的时隙可以提供更高的时间分辨率，允许更频繁地进行标签和阅读器之间的通信。这样可以增加标签读取的频率，提高吞吐率。然而，如果时隙太小，可能会导致碰撞和干扰增加，降低整体的系统性能。在rfid系统中，rfid阅读器需要使用时隙分配策略来控制标签的访问，以避免标签之间的冲突和干扰。

2、传统的rfid阅读器时隙分配策略主要包括随机时隙分配、固定时隙分配、动态时隙分配和混合时隙分配。

3、随机时隙分配：阅读器随机分配时隙给标签，标签在分配到的时隙内发送数据。这种策略简单易实现，但存在标签之间的冲突和重传。

4、固定时隙分配：阅读器按照固定的时隙分配给标签，标签在分配到的时隙内发送数据。这种策略可以避免标签之间的冲突和重传，但可能浪费时隙资源。

5、动态时隙

6、混合时隙分配：将固定时隙分配和动态时隙分配相结合，既可以避免浪费时隙资源，又可以充分利用时隙资源。

7、其中，动态时隙分配又包括利用反馈机制动态调整时隙分配和利用算法动态调整时隙分配。

8、利用反馈机制动态调整时隙分配：阅读器与标签之间进行通信，阅读器可以根据标签的反馈信息进行时隙分配的动态调整。如：当某个标签发现自己的数据包在某一时隙与其他标签的数据包冲突时，可以向阅读器发送反馈信息，阅读器可以根据这些反馈信息来调整时隙的分配。

9、利用算法动态调整时隙分配：阅读器可以根据某种算法来动态调整时隙分配。如：基于分布式算法的时隙分配和基于演化算法的时隙分配。

10、动态时隙分配算法可以根据标签之间的冲突信息，来动态调整时隙分配，以减少标签之间的冲突和重传。但是在移动环境中，某些场景下可能会存在大量的标签密集在一个区域内。这会增加碰撞和干扰的概率，并给标签的读取带来挑战，因此，需要采取合适的手段来处理高密度标签环境下的读取问题。

11、公开号为cn110309686a，公开日为2019年10月08日的中国专利文献公开了一种基于等区域划分的rfid防碰撞算法，其特征在于：包括一种等区域分组结构及一种最优时隙数优化算法，等区域分组结构将阅读器识别范围内的标签进行均等区域划分来建立一种新型的分组结构，根据标签数量的多少将阅读器识别范围划分为1到n个组；最优时隙数优化算法通过对dfsac-ii算法进行改进得到动态预测权值后使每轮剩余标签数目的估计更加准确，并根据标签数目调整最优时隙数进而对标签进行高效快速的识别。

12、该专利文献公开的基于等区域划分的rfid防碰撞算法，虽然能够对标签进行高效快速的识别。但是，针对高密度标签环境下的读取问题，仍然存在时隙资源分配不合理，不能有效降低频率碰撞率，影响系统的吞吐量。

技术实现思路

1、本专利技术为了克服上述现有技术的缺陷，提供基于改进的q-learning的时隙分配算法，本专利技术针对高密度标签环境下的读取问题，能够实现时隙资源的最佳分配，有效降低频率碰撞率，进而提高系统的吞吐量。

2、本专利技术通过下述技术方案实现：

3、基于改进的q-learning的时隙分配算法，其特征在于，包括以下步骤：

4、a、初始化：根据rfid系统中阅读器、天线和初始标签个数，初始化状态空间s和动作空间a；

5、b、执行动作：在当前状态s下，若对应的q值都为0，则随机选择动作；否则选择q表中最大值所对应的动作，并重新分配当前系统时隙个数；

6、c、记录奖励值函数：奖励值函数r(s，a)评价动作产生后的效果，执行步骤b中的动作之后，记录奖赏值r和下一个状态s′；

7、d、当系统学习次数未达到预设次数n之前，执行以下循环：根据当前状态s选择动作并执行，观察新状态和奖励，更新q值，并更新当前状态s；当系统的学习次数超过预设次数n时，终止学习过程，通过学习得到的最优策略，将新的时隙分配给每个标签。

8、所述步骤a中，初始化状态空间s和动作空间a是指初始化q表中所有的q(s，a)＝0，其中s∈s，a∈a。

9、所述步骤a中，状态空间s包括多天线读取到的标签信号强度值以及范围内的标签个数。

10、所述步骤b中，当前状态s由x∈[1，2，3]和a(x)确定，其中，x表示阅读器编号，a(x)表示信号的读取率。

11、所述步骤c中，奖励值函数r(s，a)通过式1计算；

12、r(s，a)＝a1*t1(s，a)+a2*t2(s，a)+a3*t3(s，a) 式1

13、式中，a1为动作一，t1(s，a)为存在于1号天线范围内的标签信号强度，a2为动作二，t2(s，a)为存在于2号天线范围内的标签信号强度，a3为动作三，t3(s，a)为存在于3号天线范围内的标签信号强度。

14、所述步骤d中，更新q值是指通过式2对q值进行更新；

15、qt+1(s，a)＝qt(s，a)+α{[r(s，a)+γmaxa，∈aqt(s′，a，)]-qt(s，a)} 式2式中，qt+1(s，a)为更新后状态动作对应的q值，s为当前状态，a为当前动作，s′为下一个状态，a′为下一个状态执行的动作，qt(s，a)为当前状态动作下的q值，α为学习效率，γ为折扣系数，qt(s′，a′)为下一个状态动作下的q值。

16、本专利技术所述q-learning即q学习，是指一种与模型无关的强化学习算法，直接优化一个可迭代计算的q函数。

17、本专利技术的有益效果主要表现在以下方面：

18、1、本专利技术，a、初始化：根据rfid系统中阅读器、天线和初始标签个数，初始化状态空间s和动作空间a；b、执行动作：在当前状态s下，若对应的q值都为0，则随机选择动作；否则选择q表中最大值所对应的动作，并重新分配当前系统时隙个数；c、记录奖励值函数：奖励值函数r(s，a)评价动作产生后的效果，执行步骤b中的动作之后，记录奖赏值r和下一个状态s′；d、当系统学习次数未达到预设次数n之前，执行以下循环：根据当前状态s选择动作并执行，观察新状态和奖励，更新q值，并更新当前状本文档来自技高网...

【技术保护点】

1.基于改进的Q-learning的时隙分配算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进的Q-learning的时隙分配算法，其特征在于：所述步骤a中，初始化状态空间S和动作空间A是指初始化Q表中所有的Q(s，a)＝0，其中s∈S，a∈A。

3.根据权利要求1所述的基于改进的Q-learning的时隙分配算法，其特征在于：所述步骤a中，状态空间S包括多天线读取到的标签信号强度值以及范围内的标签个数。

4.根据权利要求1所述的基于改进的Q-learning的时隙分配算法，其特征在于：所述步骤b中，当前状态s由x∈[1，2，3]和A(x)确定，其中，x表示阅读器编号，A(x)表示信号的读取率。

5.根据权利要求1所述的基于改进的Q-learning的时隙分配算法，其特征在于：所述步骤c中，奖励值函数R(s，a)通过式1计算；

6.根据权利要求5所述的基于改进的Q-learning的时隙分配算法，其特征在于：所述步骤d中，更新Q值是指通过式2对Q值进行更新；

【技术特征摘要】

1.基于改进的q-learning的时隙分配算法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于改进的q-learning的时隙分配算法，其特征在于：所述步骤a中，初始化状态空间s和动作空间a是指初始化q表中所有的q(s，a)＝0，其中s∈s，a∈a。

3.根据权利要求1所述的基于改进的q-learning的时隙分配算法，其特征在于：所述步骤a中，状态空间s包括多天线读取到的标签信号强度值以及范围内的标签个数。

4.根据权利...

【专利技术属性】
技术研发人员：熊心宁，毛刚，汪文勇，杨挺，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人