一种基于强化学习的无线信道指纹方法技术

技术编号：12074094 阅读：177 留言：0更新日期：2015-09-18 10:03

一种基于强化学习的无线信道指纹方法，涉及无线通信网络安全。无线接收机根据多个信道上的接收信号强度等物理层信息构造各用户发射机相对应的信道指纹，该信道指纹算法采用强化学习算法，根据接收机系统收益函数，实时自动调节物理层认证的阈值等关键参数，通过对比各用户发射机信道指纹及其历史记录值检测电子欺骗。可以自适应各种无线环境，具有较高的认证精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及无线通信网络安全，特别是涉及一种基于强化学习的无线信道指纹方法。
技术介绍
随着无线通信技术的高速发展，无线产品在人们生活中扮演着越来越重要的角色。然而，不同于传统的有线网络，无线网络由于其传播媒介特有的开放性，非常容易遭受到恶意攻击。如在802.11网络中，攻击者可以通过ifconfig命令轻易的改变MAC地址，冒充网络中另外一个合法设备，向接收端发送信息，对接收端造成不利影响。因而，在无线网络中，辨别发射机的身份，对合法用户的认证变得非常重要。许多利用物理层信息提高无线网络安全性的方法已经被提出来了。C.Corbett等(C.Corbett,R.Beyah,and J.Copeland,“A passive approach to wireless NIC identification,”inProc.IEEE International Conference on Communications,vol.5,pp.2329–2334,June 2006)通过分析频谱来识别不同类型的无线网卡，从而区分那些使用不同类型无线网卡的用户。D.Faria等(D.Faria and D.Cheriton,“Detecting identity-based attacks in wireless networks using signalprints,”inProc.ACM Workshop on Wireless Security,>pp.43–52,Los Angeles,CA,Sept.2006.)提出了一种利用多个接入节点的信号强度来区分不同发射机的方法。M.Demirbas等人(M.Demirbas and Y.Song,“An RSSI-based scheme for sybil attack detection in wireless sensor networks,”inProc.International Workshop on Advanced Experimental Activity,pp.564–570,June,2006)提出了一种与之相似的适用于无线传感网络的辨别发射机的方法。A.Varshavsky等(A.Varshavsky,A.Scannell,A.LaMarca,and E.Lara,“Amigo:Proximity-based authentication of mobile devices,”inProc.Int.Conf.Ubiquitous Comput.,2007,pp.1–18.)提出了一种计算周围共享的WiFi信号的RSSI，通过比较欧氏距离，来对相邻区域的用户进行认证。L.Xiao等(L.Xiao,L.Greenstein,N.Mandayam,and W.Trappe,“Fingerprints in the ether:Using the physical layer for wireless authentication,”in Proc.IEEE International Conference on Communications,Glasgow,Scotland,June 2007.)提出了一种基于信道探测和假设检验的物理层认证算法。该算法主要通过检测当前通信用户的信道频率响应与之前存储的合法通信用户的信道频率响应进行比较，判断当前通信用户是否为合法用户。
技术实现思路
本专利技术的目的在于提供一种基于强化学习的无线信道指纹方法。本专利技术包括以下步骤：1)无线接收机在M个频点上预先测量和存储各用户发射机的接收信号强度(RSS)，每个用户发射机的信道指纹由接收机在M个不同频点测得的RSS构成，即用户发射机r的信道指纹可表示为Hr＝(RSS1,RSS2,...,RSSn,...,RSSM)，其中RSSn为接收机在第n个信道测得的用户发射机r的RSS，1≤n≤M；无线接收机将存储的各个用户发射机的信道指纹作为对该用户进行物理层认证的参考指纹；2)无线接收机收到某用户发射机发射的数据包之后，将提取该用户发射机的信道指纹对该用户进行物理层认证，若该用户声称自己为用户r，接收机将调取预存用户r的参考指纹，计算该用户信道指纹与用户r的参考指纹之间的欧氏距离，并将归一化处理后的欧氏距离与接收机系统设定的阈值θ进行比较，若归一化处理后的欧氏距离大于接收机系统设定的阈值，则认定属于电子欺骗攻击，将接收到的数据包丢弃，否则进一步执行上层认证；若通过上层认证判定属于合法数据包，则存储下来，并将提取出来的信道指纹作为该用户r新的参考指纹；3)接收机系统对时间T内接收到的由各用户发射机发射的N个数据包进行统计汇总，计算出虚警率PF(θ)和漏报率Pm(θ)，获得接收机系统在此刻的状态S，S由系统计算出的虚警率PF(θ)和漏报率Pm(θ)构成，此时接收机系统获得即时收益R(S,θ)，即接收机系统收益函数：R(S,θ)＝p(-Pm(θ)Ch+(1-Pm(θ))α-Cp)+(1-p)(-PF(θ)γ+(1-PF(θ))(β-Ch)-Cp)其中γ为丢失合法数据包系统遭受的损失，α为接收机系统物理层认证正确识别出合法数据包的收益，β为接收机系统物理层认证正确识别出属于电子欺骗攻击的数据包的收益，p为接收机系统遭受电子欺骗攻击的概率，Cp为接收机系统物理层认证所需消耗，Ch为接收机系统上层认证所需消耗；4)接收机系统通过强化学习算法中的Q学习，在最优阈值θ不确定的情况下，学习如何设置阈值，并进行实时调节，从而可以自适应各种无线环境，确保较高的认证精度，获得较好的系统收益，对于不同无线环境，有不同的最优阈值θ，在一次学习过程中，最多可更换Ζ次阈值，每一次更换阈值后，接收机会有一个观察期，以探测更换阈值对系统造成的影响，Q学习确定最优阈值θ的过程包括以下步骤：4.1)初始化Q值矩阵，对于每一个接收机系统状态S下，接收机可以选择一个a，a∈A,A＝[a1,a2,a3,...,aτ]，作为阈值θ，τ为可选阈值的个数，对每个状态下的可选择的阈值分配一个对应的Q值即Q(S,θ)，对每个初始Q值赋值为0。并设置学习因子α(0＜α＜1)，和折扣因子δ(0＜δ＜1)；4.2)接收机观察系统当前所处状态Sk，以概率ε选择阈值θk，进行第k次更换阈值，1≤k≤Ζ，即以概率ε选择使得Q(Sk,θ)最大的θ值作为阈值θk，以概率1-ε选择使得Q(Sk,θ)非最大的θ值作为阈值θk，在更换阈值后，接收机连续对时间T内接收到的由各用户发射机发射的N个数据包进行认证，并观本文档来自技高网...

【技术保护点】
一种基于强化学习的无线信道指纹方法，其特征在于包括以下步骤：1)无线接收机在M个频点上预先测量和存储各用户发射机的接收信号强度(RSS)，每个用户发射机的信道指纹由接收机在M个不同频点测得的RSS构成，即用户发射机r的信道指纹可表示为Hr＝(RSS1,RSS2,...,RSSn,...,RSSM)，其中RSSn为接收机在第n个信道测得的用户发射机r的RSS，1≤n≤M；无线接收机将存储的各个用户发射机的信道指纹作为对该用户进行物理层认证的参考指纹；2)无线接收机收到某用户发射机发射的数据包之后，将提取该用户发射机的信道指纹对该用户进行物理层认证，若该用户声称自己为用户r，接收机将调取预存用户r的参考指纹，计算该用户信道指纹与用户r的参考指纹之间的欧氏距离，并将归一化处理后的欧氏距离与接收机系统设定的阈值θ进行比较，若归一化处理后的欧氏距离大于接收机系统设定的阈值，则认定属于电子欺骗攻击，将接收到的数据包丢弃，否则进一步执行上层认证；若通过上层认证判定属于合法数据包，则存储下来，并将提取出来的信道指纹作为该用户r新的参考指纹；3)接收机系统对时间T内接收到的由各用户发射机发射的N个数据包...

【技术特征摘要】
1.一种基于强化学习的无线信道指纹方法，其特征在于包括以下步骤：
1)无线接收机在M个频点上预先测量和存储各用户发射机的接收信号强度(RSS)，每个
用户发射机的信道指纹由接收机在M个不同频点测得的RSS构成，即用户发射机r的信道指
纹可表示为Hr＝(RSS1,RSS2,...,RSSn,...,RSSM)，其中RSSn为接收机在第n个信道测得的用户
发射机r的RSS，1≤n≤M；无线接收机将存储的各个用户发射机的信道指纹作为对该用户
进行物理层认证的参考指纹；
2)无线接收机收到某用户发射机发射的数据包之后，将提取该用户发射机的信道指纹对
该用户进行物理层认证，若该用户声称自己为用户r，接收机将调取预存用户r的参考指纹，
计算该用户信道指纹与用户r的参考指纹之间的欧氏距离，并将归一化处理后的欧氏距离与
接收机系统设定的阈值θ进行比较，若归一化处理后的欧氏距离大于接收机系统设定的阈值，
则认定属于电子欺骗攻击，将接收到的数据包丢弃，否则进一步执行上层认证；若通过上层
认证判定属于合法数据包，则存储下来，并将提取出来的信道指纹作为该用户r新的参考指
纹；
3)接收机系统对时间T内接收到的由各用户发射机发射的N个数据包进行统计汇总，计
算出虚警率PF(θ)和漏报率Pm(θ)，获得接收机系统在此刻的状态S，S由系统计算出的虚警
率PF(θ)和漏报率Pm(θ)构成，此时接收机系统获得即时收益R(S,θ)，即接收机系统收益函
数：
R(S,θ)＝p(-Pm(θ)Ch+(1-Pm(θ))α-Cp)+(1-p)(-PF(θ)γ+(1-PF(θ))(β-Ch)-Cp)
其中γ为丢失合法数据包系统遭受的损失，α为接收机系统物理层认证正确识别出合法数据
包的收益，β为接收机系统物理层认证正确识别出属于电子欺骗攻击的数据包的收益，p为
接收机系统遭受电子欺骗攻击的概率，Cp为接收机系统物理层认证所需消耗，Ch为接收机系
统上层认证所需消耗；
4)接收机系统通过强化学习算法中的Q学习，在最优阈值θ不确定的情况下，学习如何
设置阈值，并进行实时调节，从而可以自适应各种无线环境，确保较高的认证精度，获得较
好的系统收益，对于不同无线环境，有不同的最优阈值θ，在一次学习过程中，最多可更换Ζ
次阈值，每一次更换阈值后，接收机会有一个观察期，以探测更换阈值对系统造成的影响，Q

\t学习确定最优阈值θ的过程包括以下步骤：
4.1)初始化Q值矩阵，对于每一个接收机系统状态S下，接收机可以选择一个a，
a∈A,A＝[a1,a2,a3,...,aτ]，作为阈值θ，τ为可选阈值的个数，对每个状态下的可选择的阈值
分配一个对应的Q值...

【专利技术属性】
技术研发人员：肖亮，刘国隆，李燕，
申请(专利权)人：厦门大学，
类型：发明
国别省市：福建;35

全部详细技术资料下载我是这个专利的主人