一种行为指纹数据增强的身份鉴别方法及系统技术方案

技术编号:36965713 阅读:60 留言:0更新日期:2023-03-22 19:26
本发明专利技术公开了一种行为指纹数据增强的身份鉴别方法及系统,该方法包括下述步骤:对历史、匿名行为日志记录进行数据预处理得到非匿名数据集和匿名数据集;根据非匿名数据集提取联合扩展行为特征;提取非匿名数据集中用户的特征向量并做数据增强;构建并训练用户识别模型;计算不同度量公式的识别准确度作为对应方法的权重;合并训练集和验证集重新训练网络,测试集输入训练后的模型得到每个匿名用户与每个已知用户的相似度得分;合并多个验证集得到模板库,根据度量公式计算相似度得分;根据相似度得分矩阵以及各分类器的权重,融合多个分类器识别匿名用户身份。本发明专利技术取得了更好的身份识别效果,同时为利用频率特征识别用户身份提供新的角度。份提供新的角度。份提供新的角度。

【技术实现步骤摘要】
一种行为指纹数据增强的身份鉴别方法及系统


[0001]本专利技术涉及用户身份识别
,具体涉及一种行为指纹数据增强的身份鉴别方法及系统。

技术介绍

[0002]身份识别在多个领域有着重要应用,如安全系统,监控,欺诈技术等。目前最常用的基于生物生理特征的识别方法,如人脸、指纹等,通常是一次性完成,需要用户主动参与,还面临着生成对抗网络等新技术带来的挑战。而基于行为特征的识别方法,如击键、步态、日志记录等,一方面,可以隐式地持续认证,另一方面,可以作为多模态生物特征身份识别系统的组成,增强系统的安全性,从而受到了众多研究者的广泛关注。
[0003]统计行为发生频率形成用户的兴趣直方图作为行为特征,据此来识别用户是一种简单易行的方法,且获得了较高的识别准确率。直接用直方图作为行为特征忽略了用户行为的序列信息,有研究者通过将用户频繁的连续行为视为一个新行为来解决此问题。但其仅考虑用户间相同的特征,虽然节省了一定的计算资源,却丧失了用户更多的个性化表达,且其利用字符串集合表达序列特征,较大地降低了识别效率。另一个需要解决的问题是利用原始数据提取频率特征需要一定的行为积累,导致能形成的数据样本过少,难以用机器学习达到较好的效果。

技术实现思路

[0004]为了克服现有技术存在的缺陷与不足,本专利技术提供一种行为指纹数据增强的身份鉴别方法,本专利技术取得了更好的身份识别效果,同时为利用频率特征识别用户身份提供了新的角度。
[0005]本专利技术的第二目的在于提供一种行为指纹数据增强的身份鉴别系统
[0006]为了达到上述目的,本专利技术采用以下技术方案:
[0007]本专利技术提供一种行为指纹数据增强的身份鉴别方法,包括下述步骤:
[0008]获取历史行为日志记录和匿名行为日志记录,对历史行为日志记录、匿名行为日志记录进行数据预处理,得到非匿名数据集和匿名数据集,非匿名数据集按时间划分得到多个非匿名数据子集;
[0009]基于非匿名数据集,根据特征提取算法SURE
+
得到联合扩展行为特征;
[0010]根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量,选择一个作为验证集,其余的作为训练集,并对训练集做初步的数据增强,根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集;
[0011]构建基于卷积神经网络的用户识别模型,包括归一化层、卷积层、残差连接及多个通道结果的拼接,将经过初步数据增强后的训练集输入到用户识别模型,进行数据增强训练,得到训练后的用户识别模型;
[0012]多次随机擦除验证集某一个时间区间的记录,得到增强后的验证集,将增强后验
证集输入训练好的用户识别模型,得到识别准确度作为基于卷积神经网络的用户识别模型此分类器的权重,同时,每种度量方式也分别对应一个分类器,基于不同的度量公式计算增强后验证集的识别准确度为对应分类器的权重值
[0013]将训练集和验证集合并输入到用户识别模型中,重新训练用户识别模型,将测试集输入重新训练后的用户识别模型,得到每个匿名用户与每个已知用户的相似度得分,合并多个验证集得到模板库,根据度量公式计算测试集的样本与模板库的相似度得分;
[0014]基于多个相似度得分构建相似度得分矩阵,根据相似度矩阵和各分类器的权重,加权求和得到最终的相似度矩阵,融合多个分类器识别匿名用户身份。
[0015]作为优选的技术方案,对历史行为日志记录、匿名行为日志记录进行数据预处理,具体包括:
[0016]数据预处理包括噪声数据处理和统一数据格式,对行为采用连续的整数编码,对历史行为记录按预设的分割时间点划分得到多个非匿名数据集。
[0017]作为优选的技术方案,基于非匿名数据集,根据特征提取算法SURE
+
得到联合扩展行为特征,具体包括:
[0018]设定扩展行为特征的参数,计算行为编码的占位符;
[0019]对非匿名数据集中的用户,提取行为序列,将用户提取的行为特征层次表示为:
[0020]n
u
=min(n,L
u
)
[0021]其中,u表示用户,L
u
表示行为序列的长度;
[0022]行为序列表示为:
[0023]其中,S
u
表示行为序列,ph表示行为编码的占位符
[0024]统计行为序列中每个元素出现的次数及行为编号记作联合所有层的行为编号及次数记作即用户u的扩展行为特征;
[0025]对每个用户求得的扩展行为特征按照其频数从高到低排序,保留特征编号,记为设定选取比例,选取每个用户在选取比例范围内的特征,得到最终的联合扩展行为特征,具体表示为:
[0026][0027]其中,F
n
表示最终的联合扩展行为特征,J表示非匿名数据集的个数,r
top
表示选取比例。
[0028]作为优选的技术方案,根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量,选择一个作为验证集,其余的作为训练集,并对训练集做初步的数据增强,根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集,具体包括:
[0029]针对非匿名数据子集,基于时间均匀分割为多个区间,分别统计用户在每个区间下,联合扩展行为特征元素出现的频数,得到特征矩阵其中,p=len(F
n
),对特征矩阵的各列求和作为其他训练集对应的验证集;
[0030]随机擦除特征矩阵中的记录,对各列求和得到训练样本,基于多次随机擦除进
行数据扩增,基于设定的扩增训练集样本数阈值停止扩增,得到扩增后的训练集;
[0031]统计匿名数据集中每个用户关于联合扩展行为特征的出现频数,即每个用户的特征向量,得到测试集。
[0032]作为优选的技术方案,构建基于卷积神经网络的用户识别模型,包括归一化层、卷积层、残差连接及多个通道结果的拼接,将经过初步数据增强后的训练集输入到用户识别模型,进行数据增强训练,得到训练后的用户识别模型,具体包括:
[0033]对输入的训练集进行归一化,计算输入的训练集为每个已知用户的概率,具体表示为:
[0034][0035][0036]w
i
=σ(W*FC
input
+b);
[0037]其中,Conv表示一维卷积层,为激活函数,Flatten表示将卷积的多个通道结果展开为一维向量,Dropout表示神经元以设定的概率随机失活,W为全连接层的权重矩阵,b为全连接层的偏置,σ(
·
)为Softmax激活函数;
[0038]将经过初步数据增强后的训练集输入到用户识别模型中,以添加L2正则化的交叉熵为损失函数训练并更新用户识别模型,损失函数表示为:
[0039][0040]其中,y
i
表示第i个样本真实标签的one

hot编码,θ为模型的所有参数,λ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种行为指纹数据增强的身份鉴别方法,其特征在于,包括下述步骤:获取历史行为日志记录和匿名行为日志记录,对历史行为日志记录、匿名行为日志记录进行数据预处理,得到非匿名数据集和匿名数据集,非匿名数据集按时间划分得到多个非匿名数据子集;基于非匿名数据集,根据特征提取算法SURE
+
得到联合扩展行为特征;根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量,选择一个作为验证集,其余的作为训练集,并对训练集做初步的数据增强,根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集;构建基于卷积神经网络的用户识别模型,包括归一化层、卷积层、残差连接及多个通道结果的拼接,将经过初步数据增强后的训练集输入到用户识别模型,进行数据增强训练,得到训练后的用户识别模型,将验证集输入到训练后的用户识别模型,调整超参数并更新用户识别模型的权重值;多次随机擦除验证集某一个时间区间的记录,得到增强后的验证集,将增强后验证集输入训练好的用户识别模型,得到识别准确度作为基于卷积神经网络的用户识别模型此分类器的权重,同时,每种度量方式也分别对应一个分类器,基于不同的度量公式计算增强后验证集的识别准确度为对应分类器的权重值;将训练集和验证集合并输入到用户识别模型中,重新训练用户识别模型,将测试集输入重新训练后的用户识别模型,得到每个匿名用户与每个已知用户的相似度得分,合并多个验证集得到模板库,根据度量公式计算测试集的样本与模板库的相似度得分;基于多个相似度得分构建相似度得分矩阵,根据相似度矩阵和各分类器的权重,加权求和得到最终的相似度矩阵,融合多个分类器识别匿名用户身份。2.根据权利要求1所述的行为指纹数据增强的身份鉴别方法,其特征在于,对历史行为日志记录、匿名行为日志记录进行数据预处理,具体包括:数据预处理包括噪声数据处理和统一数据格式,对行为采用连续的整数编码,对历史行为记录按匿名数据集的时间长度划分得到多个非匿名数据集。3.根据权利要求1所述的行为指纹数据增强的身份鉴别方法,其特征在于,基于非匿名数据集,根据特征提取算法SURE
+
得到联合扩展行为特征,具体包括:设定扩展行为特征的参数,计算行为编码的占位符;对非匿名数据集中的用户,提取行为序列,将用户提取的行为特征层次表示为:n
u
=min(n,L
u
)其中,u表示用户,L
u
表示行为序列的长度;行为序列表示为:其中,S
u
表示行为序列,ph表示行为编码的占位符统计行为序列中每个元素出现的次数及行为编号记作联合所有层的行为编号及次数记作即用户u的扩展行为特征;对每个用户求得的扩展行为特征按照其频数从高到低排序,保留特征编号,记为设定选取比例,选取每个用户在选取比例范围内的特征,得到最终的联合扩展行为特征,具体
表示为:其中,F
n
表示最终的联合扩展行为特征,J表示非匿名数据集的个数,r
top
表示选取比例。4.根据权利要求1所述的行为指纹数据增强的身份鉴别方法,其特征在于,根据联合扩展行为特征提取多个非匿名数据子集中用户的特征向量,选择一个作为验证集,其余的作为训练集,并对训练集做初步的数据增强,根据联合扩展行为特征提取匿名数据集中用户的特征向量得到测试集,具体包括:针对非匿名数据子集,基于时间均匀分割为多个区间,分别统计用户在每个区间下,联合扩展行为特征元素出现的频数,得到特征矩阵其中,p=len(F
n
),对特征矩阵的各列求和作为其他训练集对应的验证集;随机擦除特征矩阵中的记录,对各列求和得到训练样本,基于多次随机擦除进行数据扩增,基于设定的扩增训练集样本数阈值停止扩增,得到扩增后的训练集;统计匿名数据集中每个用户关于联合扩展行为特征的出现频数,即每个用户的特征向量,得到测试集。5.根据权利要求1所述的行为指纹数据增强的身份鉴别方法,其特征在于,构建基于卷积神经网络的用户识别模型,包括归一化层、卷积层、残差连接及多个通道结果的拼接,将经过初步数据增强后的训练集输入到用户识别模型,进行数据增强训练,得到训练后的用户识别模型,具体包括:对输入的训练集进行归一化,计算输入的训练集为每个已知用户的概率,具体表示为:化,计算输入的训练集为每个已知用户的概率,具体表示为:w<...

【专利技术属性】
技术研发人员:杨灿朱莹莹李嘉豪
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1