基于门控循环与多头注意力机制的缓存替换方法及系统技术方案

技术编号：42493265 阅读：5 留言：0更新日期：2024-08-21 13:10

本发明专利技术涉及计算机缓存技术领域，提供了一种基于门控循环与多头注意力机制的缓存替换方法及系统。该方法包括，将获取的当前访问的缓存行地址和程序计数器，转换为嵌入向量；基于嵌入向量以及前一时间步的隐藏状态，采用门控循环单元，得到当前时间步的隐藏状态，作为下一时间步门控循环单元的输入之一；将拼接的若干时间步的隐藏状态和缓存行地址输入多头注意力机制，得到上下文向量；将上下文向量输入全连接层，输出每个缓存行被替换的概率。本发明专利技术将机器学习应用于缓存优化，以满足不断变化的数据处理需求，提高缓存系统的性能和智能程度，更好地应对日益复杂和多边的数据需求，实现更高效的缓存系统。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机缓存，尤其涉及一种基于门控循环与多头注意力机制的缓存替换方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、缓存（cache）是一种高速数据存储层，其主要目的是提供快速的数据访问并减少访问后端数据库或远程数据源的需要。缓存可以显著提高应用程序的响应速度和整体性能，尤其是在处理大量的读取操作和重复的数据请求时。

3、缓存策略是用于管理缓存中数据的一系列策略和机制，目的是最大化缓存命中率，从而提高系统性能。传统的缓存策略虽然在许多场景中被广泛应用，但它们存在一些共通的缺陷和不足点。首先，这些策略往往无法很好地适应数据访问模式的动态变化，因为它们基于简单的规则做出决策，没有能力从历史访问数据中学习和预测未来的访问模式。其次，它们在处理大规模数据时效率不高，特别是在需要考虑数据的多维特征时，如访问频率、时序性等。此外，这些策略往往忽略了数据内容的相关性，无法根据数据内容的相似性做出智能的缓存决策。最后，固定的缓存替换策略在面对复杂的应用场景时缺乏灵活性，难以达到最优的缓存效果。

技术实现思路

1、为了解决上述
技术介绍
中存在的技术问题，本专利技术提供一种基于门控循环与多头注意力机制的缓存替换方法及系统，本专利技术将机器学习应用于缓存优化，以满足不断变化的数据处理需求，提高缓存系统的性能和智能程度，更好地应对日益复杂和多边的数据需求，实现更高效的缓存系统。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、本专利技术的第一个方面提供一种基于门控循环与多头注意力机制的缓存替换方法。

4、基于门控循环与多头注意力机制的缓存替换方法，包括：

5、将获取的当前访问的缓存行地址和程序计数器，转换为嵌入向量；

6、基于嵌入向量以及前一时间步的隐藏状态，采用门控循环单元，得到当前时间步的隐藏状态，作为下一时间步门控循环单元的输入之一；

7、将拼接的若干时间步的隐藏状态和缓存行地址输入多头注意力机制，得到上下文向量；

8、将上下文向量输入全连接层，输出每个缓存行被替换的概率。

9、进一步地，所述门控循环单元逐个时间步处理嵌入向量，并更新门控循环单元的内部状态以捕获序列模式和上下文信息。

10、进一步地，采用所述多头注意力机制的过程包括，将缓存行地址的嵌入向量作为查询的输入，将拼接的若干时间步的隐藏状态作为键和值的输入，引入时间步之间的相对位置编码，计算若干个注意力头的输出；将所有注意力头的输出拼接起来，并进行线性变换，得到每个缓存行的上下文向量。

11、更进一步地，所述时间步之间的相对位置编码为，前一时间步长与后一时间步长的差值。

12、进一步地，在输出每个缓存行被替换的概率之后还包括：选择概率最高的缓存行进行替换。

13、进一步地，在门控循环、多头注意力机制和全连接层训练的过程中，设计损失函数，用于衡量全连接层输出的结果与使用belady策略计算的最优决策之间的差异，以损失函数最小为目标，优化门控循环、多头注意力机制和全连接层的网络参数。

14、本专利技术的第二个方面提供一种基于门控循环与多头注意力机制的缓存替换系统。

15、基于门控循环与多头注意力机制的缓存替换系统，包括：

16、嵌入模块，其被配置为：将获取的当前访问的缓存行地址和程序计数器，转换为嵌入向量；

17、门控循环单元模块，其被配置为：基于嵌入向量以及前一时间步的隐藏状态，采用门控循环单元，得到当前时间步的隐藏状态，作为下一时间步门控循环单元的输入之一；

18、多头注意力机制模块，其被配置为：将拼接的若干时间步的隐藏状态和缓存行地址输入多头注意力机制，得到上下文向量；

19、全连接和输出模块，其被配置为：将上下文向量输入全连接层，将上下文向量转换为用于作出决策的形式，使用softmax函数来计算每个缓存行被替换的概率。

20、进一步地，所述门控循环单元模块，还被配置为：逐个时间步处理嵌入向量，并更新门控循环单元的内部状态以捕获序列模式和上下文信息。

21、进一步地，所述多头注意力机制模块，还被配置为：将缓存行地址的嵌入向量作为查询的输入，将拼接的若干时间步的隐藏状态作为键和值的输入，引入时间步之间的相对位置编码，计算若干个注意力头的输出；将所有注意力头的输出拼接起来，并进行线性变换，得到每个缓存行的上下文向量。

22、更进一步地，所述时间步之间的相对位置编码为，前一时间步长与后一时间步长的差值。

23、进一步地，所述全连接和输出模块，还被配置为：选择概率最高的缓存行进行替换。

24、进一步地，在门控循环、多头注意力机制和全连接层训练的过程中，设计损失函数，用于衡量全连接层输出的结果与使用belady策略计算的最优决策之间的差异，以损失函数最小为目标，优化门控循环、多头注意力机制和全连接层的网络参数。

25、与现有技术相比，本专利技术的有益效果是：

26、1、本专利技术通过gru模块的更新门和重置门灵活地调整信息流，这种机制使得模型能够更好地适应不同的缓存访问模式和序列依赖关系。在缓存替换策略的场景下，这有助于模型更准确地预测哪些缓存行将不再被访问，从而做出更优的替换决策。

27、2、本专利技术提出的基于监督学习的端到端缓存替换策略优化方法，通过直接在一个更广泛的策略空间中搜索近似最优策略，有望克服传统启发式方法的局限性，实现更加全局最优的缓存替换决策，提升缓存系统的整体性能。

28、3、本专利技术提出的策略模型主要基于门控循环单元gru（gate recurrent unit）和多头注意力机制，使用监督学习来学习缓存访问模式，该方法学习一个理论上的最优策略——贝拉迪（belady）算法，在需要腾出缓存空间时，选择将来最长时间内不会被访问的缓存行来淘汰，但由于未来的缓存访问是未知的，无法直接应用，因此本专利技术训练了一个只基于过去访问记录的策略来有效地近似贝拉迪算法，其目的在于，解决传统缓存策略依赖静态规则或固定参数等限制，灵活适应不断变化的工作负载并提升缓存策略的缓存命中率。

本文档来自技高网...

【技术保护点】

1.基于门控循环与多头注意力机制的缓存替换方法，其特征在于，包括：

2.根据权利要求1所述的基于门控循环与多头注意力机制的缓存替换方法，其特征在于，所述门控循环单元逐个时间步处理嵌入向量，并更新门控循环单元的内部状态以捕获序列模式和上下文信息。

3.根据权利要求1所述的基于门控循环与多头注意力机制的缓存替换方法，其特征在于，采用所述多头注意力机制的过程包括，将缓存行地址的嵌入向量作为查询的输入，将拼接的若干时间步的隐藏状态作为键和值的输入，引入时间步之间的相对位置编码，计算若干个注意力头的输出；将所有注意力头的输出拼接起来，并进行线性变换，得到每个缓存行的上下文向量。

4.根据权利要求3所述的基于门控循环与多头注意力机制的缓存替换方法，其特征在于，所述时间步之间的相对位置编码为，前一时间步长与后一时间步长的差值。

5.根据权利要求1所述的基于门控循环与多头注意力机制的缓存替换方法，其特征在于，在输出每个缓存行被替换的概率之后还包括：选择概率最高的缓存行进行替换。

6.根据权利要求1所述的基于门控循环与多头注意力机制的缓存

7.基于门控循环与多头注意力机制的缓存替换系统，其特征在于，包括：

8.根据权利要求7所述的基于门控循环与多头注意力机制的缓存替换系统，其特征在于，所述门控循环单元模块，还被配置为：逐个时间步处理嵌入向量，并更新门控循环单元的内部状态以捕获序列模式和上下文信息。

9.根据权利要求7所述的基于门控循环与多头注意力机制的缓存替换系统，其特征在于，所述多头注意力机制模块，还被配置为：将缓存行地址的嵌入向量作为查询的输入，将拼接的若干时间步的隐藏状态作为键和值的输入，引入时间步之间的相对位置编码，计算若干个注意力头的输出；将所有注意力头的输出拼接起来，并进行线性变换，得到每个缓存行的上下文向量。

10.根据权利要求9所述的基于门控循环与多头注意力机制的缓存替换系统，其特征在于，所述时间步之间的相对位置编码为，前一时间步长与后一时间步长的差值。

...

【技术特征摘要】

1.基于门控循环与多头注意力机制的缓存替换方法，其特征在于，包括：

6.根据权利要求1所述的基于门控循环与多头注意力机制的缓存替换方法，其特征...

【专利技术属性】
技术研发人员：王继彬，张晨，宋立峰，郭莹，吴晓明，冯守鹏，郑君，张德泉，杨美红，
申请(专利权)人：齐鲁工业大学山东省科学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人