当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于离线强化学习的片上网络近似控制系统技术方案

技术编号:35440434 阅读:13 留言:0更新日期:2022-11-03 11:50
本发明专利技术公开了一种基于离线强化学习的片上网络近似控制系统。本发明专利技术采用离线强化学习算法,利用软硬件协同手段,在软件端训练,在硬件端部署;片上网络中设置全局近似控制器用来部署决策神经网络;其余节点利用局部数据控制器根据全局近似控制器的发送的信息调整数据近似率。本发明专利技术通过离线强化学习算法对决策网络进行训练,将训练完成的决策网络部署至硬件中,能在不同的应用条件下感知网络拥塞状态,动态调整数据近似率使得网络在传输质量和网络性能两者之间达到良好平衡。络性能两者之间达到良好平衡。络性能两者之间达到良好平衡。

【技术实现步骤摘要】
一种基于离线强化学习的片上网络近似控制系统


[0001]本专利技术涉及片上网络(Network on chip,NoC)通信领域,具体地说是一种能够改善片上网络的通信能力、缓解拥塞情况、降低数据传输延时的控制系统,它能在通信数据质量与传输延时之间做出很好的权衡。

技术介绍

[0002]目前,片上多核MPSoC已经逐渐应用于网络通信、多媒体等嵌入式电子设备中。随着IP核数量的增多,计算速度得到了极大提升,但是传统的总线架构又会带来一系列问题,如可扩展性差,平均通信效率低下,功耗高等问题。在这些问题下,片上网络的概念应运而生,它将宏观网络的通信措施应用于芯片,每个IP核作为一个独立的单元,IP核通过网络接口与特定的路由器相连。由此,将IP核之间的通信转换为路由器与路由器的通信。
[0003]虽然这极大程度上提高了众核系统的通信能力,但是如遇到通信密集的应用时,仍不可避免的会出现网络拥塞导致片上网络的平均延时、吞吐量、功耗等指标的不理想。近似通信提供了一种新的设计方法,它的本质是以质量换低延时,这种思想在某些特定的应用下是可行的,如机器学习等。在牺牲一些数据精度的条件下并不会影响所得到的结果,但可以有效改善网络拥塞从而缓解数据包的传输延时和路由器的吞吐量。
[0004]为了解决上述问题,中国专利CN 2021111264094提出了一种面向数据密集型应用的片上网络近似通信系统,该系统采用近似通信的数据传输模式;处理核中设有主控节点,主控节点中设有全局控制器;路由器中设有网络拥塞状况监督单元,网络拥塞状况监督单元用于将网络的拥塞信息实时传输给全局控制器;网络接口设有数据筛选单元,以及数据压缩与解压缩单元,系统数据通过网络端口中的数据筛选单元以及数据压缩与解压缩单元近似处理后通过路由器传输至网络。
[0005]但是该方案只能对片上网络数据近似率进行整体调整,同时调整数据近似率时只关注于传输路径上的拥塞节点,从而不能达到全局的传输质量和平均延时的最优。

技术实现思路

[0006]本专利技术的目的是提供一种基于离线强化学习的片上网络近似控制系统,该系统能够改善片上网络的通信能力、缓解拥塞情况、降低数据传输延时,它能在通信数据质量与传输延时之间做出很好的权衡。
[0007]本专利技术的目的是通过以下技术方案来实现的:
[0008]一种基于离线强化学习的片上网络近似控制系统,包括:
[0009]若干个局部数据控制器,设置在片上网络节点的网络接口中,所述局部数据控制器包括至少一个用于实现数据近似的近似器,以及一个用于实现数据恢复的恢复器;
[0010]各个所述局部数据控制器收集每一工作周期内的状态参数,发送至全局近似控制器;并接收全局近似控制返回的数据近似率控制信息,基于数据近似率信息调下一工作周期中整网络接口的数据发送状态;
[0011]至少一个全局近似控制器,设置于片上网络节点的处理核中,通过预配置的深度神经网络模块实现决策功能;所述全局近似控制器接收到各个局部数据控制器的状态参数,并基于深度神经网络模块进行系统优化,得到数据近似率控制信息并发送至各个局部数据控制器;
[0012]所述状态参数包括单位周期内空闲槽比率fs=a_fs/sum_fs;
[0013]式中,a_fs表示周期内片上网络节点的网络接口内部的输入输出缓冲区的平均空闲槽数量;sum_fs表示网络接口内部的输入输出缓冲区总数。
[0014]根据本申请的一个方面,所述全局近似控制器包括:
[0015]决策神经网络单元,包括至少一个用于计算状态参数和权重的乘法器阵列,至少一个加法器阵列和至少一个激活函数阵列;用于实现决策网络的前向推理计算,获得输出数据;
[0016]至少一个压缩器,用于将所述决策网络的输出数据压缩成一个数据包,该数据包中包含每个网络节点的近似信息,每隔预定的时钟周期后,所述数据包被发送给所有网络节点。
[0017]根据本申请的一个方面,每个片上网络节点中的所述局部数据控制器在接收到全局控制节点发送的数据包后按照控制信息调整数据近似率,通过近似器实现对每个数据包的近似,并且通过恢复器在目的节点恢复每个数据包的内容;
[0018]所述局部数据控制器每隔预定时间将用于决策神经网络输入的每个节点的拥塞信息压缩后发送给全局控制节点。
[0019]根据本申请的一个方面,所述深度神经网络模块,用于对决策网络进行训练,使用芯片运行不同应用,从而获取若干数据集,每一数据集至少包括强化学习的四个重要数据:状态,动作,奖励以及是否终止;
[0020]所述深度神经网络模块包括质量模型,所述质量模型为反应神经网络应用的数据近似率与输出质量之间关系的二次函数,用以反映数据近似率和质量损失的关系。
[0021]根据本申请的一个方面,质量模型为:
[0022]Quality=a
×
ApproxRate2+b
×
ApproxRate+c.
[0023][0024]RQ=Quality.
[0025][0026]n为片上网络节点总数,Quality代表质量模型,它的系数a,b,c由不同神经网络应用的近似运行值拟合得出,能准确反映数据近似率与质量损失之间的关系,ApproxRate为数据近似率,Q
a
为质量模型的预设值;
[0027]Goal为目标函数,RQ代表质量奖励,RD代表延时奖励,质量奖励由质量模型给出,延时奖励为所有节点所发送的数据包的平均延时归一化之和;
[0028]PacketDelay
ij
代表第i个节点发送的第j个数据包的延时,
[0029]AvgDelay_noapp是不使用近似时的数据包的平均延时;
[0030]ξ1和ξ2是两个系数,用来表示哪一模块更加重要;
[0031]C为惩罚项,以避免过度近似。
[0032]根据本申请的一个方面,片上网络状态选取为:
[0033]S={fs1,fs2,...,fs
i
,...,fs
n
},fsi=a_fs
i
/sum_fs;
[0034]a_fs
i
为第i个片上网络节点的网络接口内部的输入输出缓冲区的平均空闲槽数量;
[0035]sum_fs为网络接口内部的输入输出缓冲区总数;
[0036]fs
i
是归一化的结果,表示第i个片上网络节点的网络接口内部的周期内空闲槽比率。
[0037]根据本申请的一个方面,所述片上网络为二维或者三维网络;所述决策网络为全连接网络,该全连接网络包含两个隐藏层,输入规模由网络节点数的多少决定,输出规模由所划分的区域数目决定。
[0038]根据本申请的一个方面,根据单位周期内空闲槽比率fs将片上网络节点的拥塞程度进行分级,相同等级内的数据近似率控制信息相同:
[0039]动作选取为在经过固定周期数后动态调整本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离线强化学习的片上网络近似控制系统,其特征在于,包括:若干个局部数据控制器,设置在片上网络节点的网络接口中,所述局部数据控制器包括至少一个用于实现数据近似的近似器,以及一个用于实现数据恢复的恢复器;各个所述局部数据控制器收集每一工作周期内的状态参数,发送至全局近似控制器;并接收全局近似控制器返回的数据近似率控制信息,基于数据近似率信息调整下一工作周期中整个网络接口的数据发送状态;至少一个全局近似控制器,设置于片上网络节点的处理核中,通过预配置的深度神经网络模块实现决策功能;所述全局近似控制器接收到各个局部数据控制器的状态参数,并基于深度神经网络模块进行系统优化,得到数据近似率控制信息并发送至各个局部数据控制器;所述状态参数包括单位周期内空闲槽比率fs=a_fs/sum_fs;式中,a_fs表示单位周期内片上网络节点的网络接口内部的输入输出缓冲区的平均空闲槽数量;sum_fs表示网络接口内部的输入输出缓冲区总数。2.权利要求1所述的系统,其特征在于,所述全局近似控制器包括:决策神经网络单元,包括至少一个用于计算状态参数和权重的乘法器阵列,至少一个加法器阵列和至少一个激活函数阵列;用于实现决策网络的前向推理计算,获得输出数据;至少一个压缩器,用于将所述决策网络的输出数据压缩成一个数据包,该数据包中包含每个网络节点的近似信息,每隔预定的时钟周期后,所述数据包被发送给所有网络节点。3.如权利要求1所述的系统,其特征在于,每个片上网络节点中的所述局部数据控制器在接收到全局控制节点发送的数据包后按照控制信息调整数据近似率,通过近似器实现对每个数据包的近似,并且通过恢复器在目的节点恢复每个数据包的内容;所述局部数据控制器每隔预定时间将用于决策神经网络输入的每个节点的拥塞信息压缩后发送给全局控制节点。4.如权利要求1所述的系统,其特征在于,所述深度神经网络模块,用于对决策网络进行训练,使用芯片运行不同应用,从而获取若干数据集,每一数据集至少包括强化学习的四个重要数据:状态,动作,奖励以及是否终止;所述深度神经网络模块包括质量模型,所述质量模型为反应神经网络应用的数据近似率与输出质量之间关系的二次函数,用以反映数据近似率和质量损失的关系。5.如权利要求4所述的系统,其特征在于,质量模型为:Quality=a
×
ApproxRate2+b
×
ApproxRate+c.RQ=Quality.n为片上网络节点总数,Quality代表质量模型,它的系数a,b,c由不同神经网络应用的近似运行值拟合得出,能准确反映数据近似率与质量损失之间的关系,ApproxRate为数据
近似率,Q
a
为质量模型的阈值;Goa...

【专利技术属性】
技术研发人员:傅玉祥黎思越李丽周世泽薛泳琪纪津伦程童何书专李伟
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1