D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法技术

技术编号:34384566 阅读:30 留言:0更新日期:2022-08-03 21:05
一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法,该方法利用学习自动机机制,并引入了确定性估计器,将D2D网络中的节点都建模为一个单独的智能体,并采用Generalized Pursuit算法更新扇区概率分布,通过与环境的交互积累经验,指导下一次的邻居发现过程,有效提升邻居发现的效率。有效提升邻居发现的效率。有效提升邻居发现的效率。

【技术实现步骤摘要】
D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法


[0001]本专利技术属于无线通信领域中的D2D通信
,尤其是一种基于定向天线的邻居节点发现方法。

技术介绍

[0002]D2D通信作为一种短距离的通信技术,既可以在基站的控制下进行通信,也可以在无基站控制下直接进行终端通信。D2D通信允许两个距离较近的用户终端直接建立通信链路进行数据传输。基于D2D通信技术广阔的应用前景,越来越多的国内外研究学者对其进行了深入的研究。D2D邻居设备发现是D2D技术的主要研究方向之一。
[0003]根据不同的天线模式,邻居发现方法可以分为全向邻居发现和定向邻居发现两类。全向天线操作简单,但存在数据传输速率低,链路覆盖距离短,抗干扰能力弱等问题。而使用定向天线能够解决以上问题,因此,定向天线被应用于邻居发现中。使用定向天线后,节点之间需要考虑波束对准问题。现有的定向天线邻居发现方法可以分为两大类,随机型与规划型。在随机型方法里,网络中的每个节点随机选择一个方向进入发送或是接收状态,规划型方法则与之不同,它根据事先设计好的扫描序列与收发序列来收送信息。更进一步,在实际应用中,节点位置不是一成不变的,往往处于运动状态下,需要不断重新发现邻居节点,所以之前邻居发现的信息可以作为历史信息保存下来,为后续邻居发现积累经验。

技术实现思路

[0004]为了克服现有技术的不足,为进一步提升邻居发现的效率,本专利技术提出了一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法,该方法利用学习自动机机制,并引入了确定性估计器,通过与环境的交互,积累经验,直到下一次的邻居发现过程,达到提高邻居发现效率的目的。
[0005]为了解决上述技术问题,本专利技术提供如下的技术方案:
[0006]一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法,假设在一个D2D网络场景中,存在M个节点,每个节点的发送天线均为定向天线,可以指向k个天线扇区中的一个方向,时间被划分为以时隙为单位,在每个时隙节点可以任意选择一个扇区方向进行发送或者接收数据,节点间保持时间同步,当两节点当前时刻的天线指向相对,并满足一个节点发送信息,另一节点接收信息,可以互相发现对方,所述D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法包括以下步骤:
[0007]1)模型建立,D2D网络中的每个节点都作为一个单独的智能体;
[0008]2)动作执行,智能体根据当前时刻的概率分布,选择定向天线的指向扇区,并以相等的概率选择发送或者接收模式;
[0009]3)状态更新,根据与环境交互得到的反馈,更新估计器,并根据Generalized Pursuit算法,更新扇区的概率分布;
[0010]4)状态转移,循环至步骤2),直至邻居节点发现完成。
[0011]进一步,所述步骤1)中,确定性估计器学习自动机将智能体定义为四元组{A,B,Q,T}:
[0012]A={a1,a2,...,a
k
}是学习自动机的输出行为合集,表示智能体定向天线指向;
[0013]B={0,1}是输入学习自动机的合集,其中“0”代表惩罚,表示智能体没有发现新的邻居节点,“1”代表奖励,表示智能体发现了新的邻居节点;
[0014]Q=<P,E>是学习自动机的状态,其中P={p1(t),p2(t),...,p
k
(t)}是自动机在t时刻的状态,表示智能体在t时刻的扇区概率分布;E=D(t),是自动机在t时刻的确定性估计器向量,每一个行为的奖励估计值i∈{1,2,

,k},表示智能体在t时刻扇区的奖励估计值;
[0015]T是自动机的状态转移函数,决定自动机如何从t时刻的状态迁移到t+1时刻,表示智能体如何更新扇区概率分布函数。
[0016]优选的,所述步骤2)中,t=0时每个扇区的概率向量相等。
[0017]再进一步,所述步骤3)中,更新估计器,每一个行为的奖励估计值根据下式更新:
[0018]R
i
(t+1)=R
i
(t)+B
ꢀꢀꢀ
(1)
[0019]G
i
(t+1)=G
i
(t)+1
ꢀꢀꢀ
(2)
[0020]其中,R
i
(0)=G
i
(0)=0,R
i
(t)表示定向天线扇区累计奖励值,G
i
(t)表示定向天线扇区累计选择次数;
[0021]更新扇区的概率分布,假设智能体t时刻在扇区j,j∈{1,2,...,k}执行操作,根据Generalized Pursuit算法公式更新概率分布:
[0022][0023]max{p
k
(t+1)}≤ω
ꢀꢀꢀ
(4)
[0024]其中,e(t)表示的数量,即表示奖励估算值比当时所选动作更大的扇区数量,0<λ<1表示学习速率参数,ω表示概率向量的阈值。
[0025]本专利技术的技术构思为:本专利利用学习自动机机制,并引入了确定性估计器,将邻居发现过程建模为确定性估计器学习自动机,采用Generalized Pursuit算法更新概率分布,通过与环境的交互积累经验,指导下一次的邻居发现过程,有效提升邻居发现的效率。
[0026]本专利技术的有益效果主要表现在:将邻居发现过程建模为确定性估计器学习自动机,并采用Generalized Pursuit算法提升了D2D网络中邻居发现的效率。
附图说明
[0027]图1是本专利技术方法的系统模型示意图;
[0028]图2是节点静止时本专利技术方法与随机型方法所需时隙数对比图;
[0029]图3是节点运动时本专利技术方法与随机型方法所需时隙数对比图。
具体实施方式
[0030]下面结合附图对本专利技术作进一步描述。
[0031]参照图1~图3,一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法,利用学习自动机机制,并引入确定性估计器,将D2D网络中的节点都建模为一个单独的智能体,采用Generalized Pursuit提升邻居发现的效率,采用以下过程实现:
[0032]本实施方式的方法中,利用学习自动机机制,将D2D网络中的每个节点都作为一个单独的智能体,确定性估计器学习自动机将智能体定义为四元组{A,B,Q,T};
[0033]A={a1,a2,...,a
k
}是学习自动机的输出行为合集,表示智能体定向天线指向;
[0034]B={0,1}是输入学习自动机的合集,其中“0”代表惩罚,表示智能体没有发现新的邻居节点,“1”代表奖励,表示智能体发现了新的邻居节点;
[0035]Q=<P,E>是学习自动机的状态,其中P={p1(t),p2(t),...本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法,假设在一个D2D网络场景中,存在M个节点,每个节点的发送天线均为定向天线,可以指向k个天线扇区中的一个方向,时间被划分为以时隙为单位,在每个时隙节点可以任意选择一个扇区方向进行发送或者接收数据,节点间保持时间同步,当两节点当前时刻的天线指向相对,并满足一个节点发送信息,另一节点接收信息,可以互相发现对方,所述D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法包括以下步骤:1)模型建立,D2D网络中的每个节点都作为一个单独的智能体;2)动作执行,智能体根据当前时刻的概率分布,选择定向天线的指向扇区,并以相等的概率选择发送或者接收模式;3)状态更新,根据与环境交互得到的反馈,更新估计器,并根据Generalized Pursuit算法,更新扇区的概率分布;4)状态转移,循环至步骤2),直至邻居节点发现完成。2.如权利要求1所述的D2D网络中基于确定性估计器学习自动机的定向天线邻居发现方法,其特征在于:所述步骤1)中,确定性估计器学习自动机将智能体定义为四元组{A,B,Q,T}:A={a1,a2,...,a
k
}是学习自动机的输出行为合集,表示智能体定向天线指向;B={0,1}是输入学习自动机的合集,其中“0”代表惩罚,表示智能体没有发现新的邻居节点,“1”代表奖励,表示智能体发现了新的邻居节点;Q=<P,E>是学习自动机的状态,其中P={p1(t),p2(t),...,p
k
(t)}是自动机在t时刻的状态,表示智能体在t时刻的扇区概率分布;E=D(t),是自动机在t时刻...

【专利技术属性】
技术研发人员:卢为党翁丽霞李晨凯曹江尹峻松孔德照高原
申请(专利权)人:中国人民解放军军事科学院战争研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1