基于DDPG网络的混合辐射源信号分离方法技术

技术编号:29960468 阅读:8 留言:0更新日期:2021-09-08 09:18
本发明专利技术公开了一种基于DDPG网络的混合辐射源信号分离方法,首先采用K个信号测试天线对K个样本辐射源的辐射源信号样本进行采集,处理得到混合信号样本,将分离矩阵看作一个智能体,矩阵元素的加减看作动作,将信号的分离程度看作环境,对DDPG网络进行设计,然后采用混合信号样本对DDPG网络进行训练,在实际应用时,由每个信号测试天线得到K个辐射源的混合信号,将混合信号输入训练好的DDPG网络进行再次训练,得到信号分离结果。本发明专利技术通过引入DDPG网络,有效提高对混合信号分离的准确度。有效提高对混合信号分离的准确度。有效提高对混合信号分离的准确度。

【技术实现步骤摘要】
基于DDPG网络的混合辐射源信号分离方法


[0001]本专利技术属于信号分离
,更为具体地讲,涉及一种基于DDPG网络的混合辐射源信号分离方法。

技术介绍

[0002]准确高效地从混合信号中取得需要的信号是通信领域中一个重要的研究课题,决定着通信系统的接收能力。其中,盲信号分离指在源信号和信道未知或部分已知的情况下将信号分离,是近年来现代信号处理领域的热点,在无线通信、语音识别、生物医学、机械工程等方面都有应用。对无线通信而言,盲信号分离在合作通信和非合作通信领域都有着重要的意义。在合作通信领域,mimo通信系统、卫星通信系统中的信号间干扰都可以通过盲分离进行干扰抑制和信号分离。在非合作通信领域,现代信息战中,需要在己方敌方混合信息中准确地分离出信号,有利于及早地侦察到敌情,并且对敌方设备进行正确判断,采取相应的行动。盲信号分析在通信领域也相应地面对了更大地困难,由于信号的相似性,复杂性,其他领域的分离方法不一定可以很好的适用。

技术实现思路

[0003]本专利技术的目的在于克服现有技术的不足,提供一种基于DDPG网络的混合辐射源信号分离方法,通过引入DDPG网络,有效提高对混合信号分离的准确度。
[0004]为了实现上述专利技术目的,本专利技术基于DDPG网络的混合辐射源信号分离方法包括以下步骤:
[0005]S1:记实际应用环境中设置有辐射源的位置数量为K,在每个位置配置一个样本辐射源进行长度为L的调制信号发送,记第j个样本辐射源发送的调制信号为源信号F
j
,j=1,2,

,K;在应用环境中配置K个信号测试天线,首先令每个样本辐射源单独发送调制信号,每个信号测试天线分别对该样本辐射源所发送的信号进行采集得到一个数据样本,记第i根信号测试天线对第j个样本辐射源所采集得到的数据样本为D
i,j
,i=1,2,

,K;然后令K个辐射源同时进行调制信号发送,每个信号测试天线分别对接收到的混合信号进行采集得到一个混合信号样本,记第i根信号测试天线采集得到的混合信号样本为X
i

[0006]S2:对于DDPG网络,DDPG动作空间采用以下方法设计:
[0007]设置一个K阶的矩阵C,其每个元素均服从标准正态分布,将该K阶矩阵C按照行优先转化为K
×
K维的向量其中c
k
表示向量C

中第k个元素,k=1,2,

,K2,对应矩阵C中第行第k%K列元素,表示向下取整,%表示求余;然后定义一个边界值bound,将向量C

和边界值bound构成DDPG网络的动作空间
[0008]DDPG状态空间采用以下方法设计:
[0009]设置一个K阶的分离矩阵W,将该K阶矩阵W按照行优先转化为K
×
K维的分离向量
其中w
k
表示向量W

中第k个元素,对应矩阵W中第行第k%K列元素;
[0010]记第i根信号测试天线接收的长度为L的混合信号为X
i
,按照预设数据位置从混合信号X
i
中取样P个数据点,与源信号F
j
中对应的P个数据点求比值,将P个比值构成比值向量,将对应同一混合信号的K个比值向量拼接得到比值向量H
i,j
,将K个比值向量H
i,j
拼接得到维度为K
×
K
×
P的向量x_state;
[0011]记当前更新步骤的分离信号矩阵Y=WX,X表示由混合信号X
i
作为行向量所构成的K
×
L的混合信号矩阵,将分离信号矩阵Y的第j个行向量作为第j个辐射源的源信号分离结果y
j
,按照预设数据位置在每个源信号分离结果y
j
中取样P个数据点,与源信号F
j
中对应的P个数据点求比值,将P个比值构成比值向量G
j
,将K个比值向量G
j
拼接得到维度为K
×
P的向量y_state;
[0012]定义参数on

goal表示当前步骤是否达到预设目标,如果是,则on

goal=1,否则on

goal=0;
[0013]将分离向量向量x_state、向量y_state和参数on

goal构成DDPG网络的状态空间
[0014]DDPG奖励函数采用以下方法设计:
[0015]对于当前步骤得到的K个分离信号y
j
分别计算信干比SIR
j
,计算公式如下:
[0016][0017]其中,|| ||2表示求取2范数;
[0018]判断当前步骤是否达到预设目标,即是否每个分离信号y
j
的信干比SIR
j
均大于预设阈值,如果是则令奖励函数Δ表示预设的常数,否则奖励函数
[0019]S3:根据步骤S2设计的动作空间和状态空间构建DDPG网络,包括当前策略网络、当前价值网络、目标策略网络和目标价值网络,其中:
[0020]当前策略网络的输入信息为状态s,输出信息为动作a;
[0021]当前价值网络的输入信息为状态s和动作a,输出信息为价值Q;
[0022]目标策略网络:输入输出同当前策略网络,定期复制当前策略网络参数;
[0023]目标价值网络:输入输出同当前价值网络,定期复制当前价值网络参数;
[0024]S4:将步骤S1中得到的K个混合信号样本X
i
输入DDPG网络,对DDPG网络进行训练,具体包括以下步骤:
[0025]S4.1:随机初始化DDPG网络中的四个网络的参数;
[0026]S4.2:令迭代次数e=1;
[0027]S4.3:随机初始化分离矩阵W,然后计算分离信号矩阵Y=WX,将分离信号矩阵Y的第j个行向量作为第j个辐射源的源信号分离结果y
j
,根据当前的源信号分离结果y
j
确定当
前状态s;
[0028]S4.4:初始化本次迭代中步数t=1;
[0029]S4.5:判断是否本次迭代中步数t<T,T表示预设的每次迭代中的最大步数,如果是,进入步骤S4.6,否则进入步骤S4.11;
[0030]S4.6:当前策略网络根据当前状态s得到动作a,根据动作a调整分离矩阵W,重新计算各个辐射源的源信号分离结果y

j
,生成下一状态s

;当前价值网络根据当前状态s和动作a,得到当前的价值Q;从当前状态s中提取出各个源信号分离结果y
j
,计算当前状态s对应的奖励值r;然后将当前状态s、动作a、奖励值r和下一状态s
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DDPG网络的混合辐射源信号分离方法,其特征在于,包括以下步骤:S1:记实际应用环境中设置有辐射源的位置数量为K,在每个位置配置一个样本辐射源进行长度为L的调制信号发送,记第j个样本辐射源发送的调制信号为源信号F
j
,j=1,2,

,K;在应用环境中配置K个信号测试天线,首先令每个样本辐射源单独发送调制信号,每个信号测试天线分别对该样本辐射源所发送的信号进行采集得到一个数据样本,记第i根信号测试天线对第j个样本辐射源所采集得到的数据样本为D
i,j
,i=1,2,

,K;然后令K个辐射源同时进行调制信号发送,每个信号测试天线分别对接收到的混合信号进行采集得到一个混合信号样本,记第i根信号测试天线采集得到的混合信号样本为X
i
;S2:对于DDPG网络,DDPG动作空间采用以下方法设计:设置一个K阶的矩阵C,其每个元素均服从标准正态分布,将该K阶矩阵C按照行优先转化为K
×
K维的向量其中c
k
表示向量C

中第k个元素,k=1,2,

,K2,对应矩阵C中第行第k%K列元素,表示向下取整,%表示求余;然后定义一个边界值bound,将向量C

和边界值bound构成DDPG网络的动作空间DDPG状态空间采用以下方法设计:设置一个K阶的分离矩阵W,将该K阶矩阵W按照行优先转化为K
×
K维的分离向量其中w
k
表示向量W

中第k个元素,对应矩阵W中第行第k%K列元素;记第i根信号测试天线接收的长度为L的混合信号为X
i
,按照预设数据位置从混合信号X
i
中取样P个数据点,与源信号F
j
中对应的P个数据点求比值,将P个比值构成比值向量,将对应同一混合信号的K个比值向量拼接得到比值向量H
i,j
,将K个比值向量H
i,j
拼接得到维度为K
×
K
×
P的向量x_state;记当前更新步骤的分离信号矩阵Y=WX,X表示由混合信号X
i
作为行向量所构成的K
×
L的混合信号矩阵,将分离信号矩阵Y的第j个行向量作为第j个辐射源的源信号分离结果y
j
,按照预设数据位置在每个源信号分离结果y
j
中取样P个数据点,与源信号F
j
中对应的P个数据点求比值,将P个比值构成比值向量G
j
,将K个比值向量G
j
拼接得到维度为K
×
P的向量y_state;定义参数on

goal表示当前步骤是否达到预设目标,如果是,则on

goal=1,否则on

goal=0;将分离向量向量x_state、向量y_state和参数on

goal构成DDPG网络的状态空间DDPG奖励函数采用以下方法设计:对于当前步骤得到的K个分离信号y
j
分别计算信干比SIR
j
,计算公式如下:其中,|| ||2表示求取2范数;
判断当前步骤是否达到预设目标,即是否每个分离信号y
j
的信干比SIR
j
均大于预设阈值,如果是则令奖励函数Δ表示预设的常数,否则奖励函数S3:根据步骤S2设计的动作空间和状态空间构建DDPG网络,包括当前策略网络、当前价值网络、目标策略网络和目标价值网络,其中:当前策略网络的输入信息为状态s,输出信息为动作a;当前价值网络的输入信息为状态s和动作a,输出信息为价值Q;目标策略网络:输入输出同当前策略网络,定期复制当前策略网络参数;目标价值网络:输入输出同当前价值网络,定期复制当前价值网络参数;S4:将步骤S1中得到的K个混合信号样本X
i
输入DDPG网络,对DDPG网络进行训练,具体包括以下步骤:S4.1:随机初始化DDPG网络中的四个网络的参数;S4.2:令迭代次数e=1;S4.3:随机初始化分离矩阵W,然后计算分离信号矩阵Y=WX,将分离信号矩阵Y的第j个行向量作为第j个辐射源的源信号分离结果y
j
,根据当前的源信号分离结果y
j
确定当前状态s;S4.4:初始化本次迭代中步数t=1;S4.5:判断是否本次迭代中步数t<T,T表示预设的每次迭代中的最大步数,如果是,进入步骤S4.6,否则进入步骤S4.11;S4.6:当前策略网络根据当前状态s得到动作a,根据动作a调整分离矩阵W,重新计算各个辐射源的源信号分离结果y

j
,生成下一状态s

;当前价值网络根据当前状态s和动作a,得到当前的价值Q;从当前状态s中提取出各个源信号分离结果y
j
,计算当前状态s对应的奖励值r;然后将当前状态s、动作a、奖励值r和下一状态s

作为一组经验放入经验池中;如果经验放入时经验池已满,即按照...

【专利技术属性】
技术研发人员:张怡如杨远望邓建华游长江朱学勇潘钰文
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1