用户行为分类方法、装置、设备及存储介质制造方法及图纸

技术编号:39270998 阅读:6 留言:0更新日期:2023-11-07 10:50
本发明专利技术公开了一种用户行为分类方法、装置、设备及存储介质,该方法包括:从目标用户的终端设备获取深度报文检测数据和用户行为流量数据,并获取目标用户的用户画像特征和对应的环境特征;将深度报文检测数据和用户行为流量数据向量化,获得访问序列嵌入向量和模拟访问特征嵌入向量;对用户画像特征和环境特征分别进行自适应离散化向量表征,获得用户画像特征向量和环境特征向量;根据访问序列嵌入向量、模拟访问特征嵌入向量、用户画像特征向量和环境特征向量确定所述目标用户的行为类别。能够根据对多源特征进行向量化表征后获得的向量确定目标用户的行为类别,提高了用户行为分类的准确度。分类的准确度。分类的准确度。

【技术实现步骤摘要】
用户行为分类方法、装置、设备及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种用户行为分类方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网时代的来临,用户在互联网上产生的行为数据量以指数级的速度上升,根据用户行为数据对用户进行行为分析的难度越来越大,目前一般是对采集到的用户行为数据进行数据清洗、变换等处理后,通过业务人员进行特征工程抽取特征,再利用机器学习技术建立相关的模型,通过建立的模型进行行为分类,目前的行为分类方法无法对数据进行有效利用且表征能力有限,导致用户行为分类的准确度低。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提供了一种用户行为分类方法、装置、设备及存储介质,旨在解决现有技术用户行为分类的准确度低的技术问题。
[0005]为实现上述目的,本专利技术提供了一种用户行为分类方法,所述方法包括以下步骤:
[0006]从目标用户的终端设备获取深度报文检测数据和用户行为流量数据,并获取所述目标用户的用户画像特征和对应的环境特征;
[0007]将所述深度报文检测数据和所述用户行为流量数据向量化,获得访问序列嵌入向量和模拟访问特征嵌入向量;
[0008]对所述用户画像特征和所述环境特征分别进行自适应离散化向量表征,获得用户画像特征向量和环境特征向量;
[0009]根据所述访问序列嵌入向量、所述模拟访问特征嵌入向量、所述用户画像特征向量和所述环境特征向量确定所述目标用户的行为类别。
[0010]可选地,所述将所述深度报文检测数据和所述用户行为流量数据向量化,获得访问序列嵌入向量和模拟访问特征嵌入向量,包括:
[0011]通过预设时序深度模型的特征抽取层对所述深度报文检测数据进行特征抽取,获得用户访问序列;
[0012]通过所述特征抽取层对所述用户行为流量数据进行沙箱模拟访问,获得沙箱访问模拟特征;
[0013]通过所述预设时序深度模型的嵌入层将所述用户访问序列转换为访问序列ASCII码,并将所述访问序列ASCII码转换为访问序列嵌入向量;
[0014]通过所述嵌入层将所述沙箱模拟访问特征转换为模拟访问特征ASCII码,并将所述模拟访问特征ASCII码转换为模拟访问特征嵌入向量。
[0015]可选地,所述对所述用户画像特征和所述环境特征分别进行自适应离散化向量表
征,获得用户画像特征向量和环境特征向量,包括:
[0016]通过预设时序深度模型的嵌入层分别将所述用户画像特征和所述环境特征离散化至预设数量的分桶中;
[0017]获取所述用户画像特征离散至各分桶的第一分桶概率分布和所述环境特征离散至各分桶的第二分桶概率分布;
[0018]通过所述嵌入层对各分桶对应的第一分桶概率分布和各分桶对应的第一元表征进行加权求和,获得所述用户画像特征对应的用户画像特征向量;以及
[0019]通过所述嵌入层对各分桶对应的第二分桶概率分布和各分桶对应的第二元表征进行加权求和,获得所述环境特征对应的环境特征向量。
[0020]可选地,所述根据所述访问序列嵌入向量、所述模拟访问特征嵌入向量、所述用户画像特征向量和所述环境特征向量确定所述目标用户的行为类别,包括:
[0021]通过预设时序模型的建模层分别对所述访问序列嵌入向量和所述模拟访问特征嵌入向量分别进行行为建模,获得访问序列特征向量和模拟访问特征向量;
[0022]将所述访问序列特征向量、模拟访问特征向量、所述用户画像特征向量和所述环境特征向量输入至所述预设时序模型的输出层,获得所述输出层输出的概率分布;
[0023]根据所述概率分布确定所述目标用户的行为类别。
[0024]可选地,所述建模层包括第一门控循环神经网络、注意力机制神经网络和第二门控循环神经网络;
[0025]所述通过预设时序模型的建模层分别对所述访问序列嵌入向量和所述模拟访问特征嵌入向量分别进行行为建模,获得访问序列特征向量和模拟访问特征向量,包括:
[0026]通过所述第一门控循环神经网络计算所述访问序列嵌入向量对应的第一隐层状态向量和所述模拟访问特征嵌入向量对应的第二隐层状态向量;
[0027]将所述第一隐层状态向量和所述第二隐层状态向量输入至所述注意力机制神经网络;
[0028]获取所述注意力机制神经网络中与所述第一隐层状态向量对应的第一注意力权重和与所述第二隐层状态向量对应的第二注意力权重;
[0029]将所述第二门控循环神经网络的更新门替换为所述第一注意力权重,获得第三更新门控循环神经网络;
[0030]通过所述第三更新门控循环神经网络输出所述访问序列嵌入向量对应的访问序列特征向量;以及
[0031]将所述第二门控循环神经网络的更新门替换为所述第二注意力权重,获得第四更新门控循环神经网络;
[0032]通过所述第四更新门控循环神经网络输出所述模拟访问特征嵌入向量对应的模拟访问特征向量。
[0033]可选地,所述输出层包括拼接模块、PReLU函数和Softmax函数;
[0034]所述将所述访问序列特征向量、模拟访问特征向量、所述用户画像特征向量和所述环境特征向量输入至所述预设时序模型的输出层,获得所述输出层输出的概率分布,包括:
[0035]通过所述拼接模块将所述访问序列特征向量、所述模拟访问特征向量、所述用户
画像特征向量和所述环境特征向量进行拼接,获得拼接特征向量;
[0036]将所述拼接特征向量依次输入至所述PReLU函数和Softmax函数,获得概率分布。
[0037]可选地,所述从目标用户的终端设备获取深度报文检测数据和用户行为流量数据,并获取所述目标用户的用户画像特征和对应的环境特征之前,还包括:
[0038]通过预设网络分析工具从测试终端设备获取测试用户行为流量数据包,并从所述测试用户行为流量数据包中抽取正则表达式文件;
[0039]从所述测试终端设备获取测试深度报文检测数据,并根据所述测试深度报文检测数据中的域名信息进行MapReduce匹配,获得匹配检测数据;
[0040]将所述匹配检测数据与所述正则表达式文件进行MapReduce匹配,获得用户行为标注数据集;
[0041]通过所述用户行为标注数据集对初始时序深度模型进行训练,并在迭代次数到达预设次数时,获得预设时序深度模型。
[0042]此外,为实现上述目的,本专利技术还提出一种用户行为分类装置,所述装置包括:
[0043]获取模块,用于从目标用户的终端设备获取深度报文检测数据和用户行为流量数据,并获取所述目标用户的用户画像特征和对应的环境特征;
[0044]第一向量化模块,用于将所述深度报文检测数据和所述用户行为流量数据向量化,获得访问序列嵌入向量和模拟访问特征嵌入向量;
[0045]第二向量化模块,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户行为分类方法,其特征在于,所述方法包括:从目标用户的终端设备获取深度报文检测数据和用户行为流量数据,并获取所述目标用户的用户画像特征和对应的环境特征;将所述深度报文检测数据和所述用户行为流量数据向量化,获得访问序列嵌入向量和模拟访问特征嵌入向量;对所述用户画像特征和所述环境特征分别进行自适应离散化向量表征,获得用户画像特征向量和环境特征向量;根据所述访问序列嵌入向量、所述模拟访问特征嵌入向量、所述用户画像特征向量和所述环境特征向量确定所述目标用户的行为类别。2.如权利要求1所述的方法,其特征在于,所述将所述深度报文检测数据和所述用户行为流量数据向量化,获得访问序列嵌入向量和模拟访问特征嵌入向量,包括:通过预设时序深度模型的特征抽取层对所述深度报文检测数据进行特征抽取,获得用户访问序列;通过所述特征抽取层对所述用户行为流量数据进行沙箱模拟访问,获得沙箱访问模拟特征;通过所述预设时序深度模型的嵌入层将所述用户访问序列转换为访问序列ASCII码,并将所述访问序列ASCII码转换为访问序列嵌入向量;通过所述嵌入层将所述沙箱模拟访问特征转换为模拟访问特征ASCII码,并将所述模拟访问特征ASCII码转换为模拟访问特征嵌入向量。3.如权利要求1所述的方法,其特征在于,所述对所述用户画像特征和所述环境特征分别进行自适应离散化向量表征,获得用户画像特征向量和环境特征向量,包括:通过预设时序深度模型的嵌入层分别将所述用户画像特征和所述环境特征离散化至预设数量的分桶中;获取所述用户画像特征离散至各分桶的第一分桶概率分布和所述环境特征离散至各分桶的第二分桶概率分布;通过所述嵌入层对各分桶对应的第一分桶概率分布和各分桶对应的第一元表征进行加权求和,获得所述用户画像特征对应的用户画像特征向量;以及通过所述嵌入层对各分桶对应的第二分桶概率分布和各分桶对应的第二元表征进行加权求和,获得所述环境特征对应的环境特征向量。4.如权利要求1所述的方法,其特征在于,所述根据所述访问序列嵌入向量、所述模拟访问特征嵌入向量、所述用户画像特征向量和所述环境特征向量确定所述目标用户的行为类别,包括:通过预设时序模型的建模层分别对所述访问序列嵌入向量和所述模拟访问特征嵌入向量分别进行行为建模,获得访问序列特征向量和模拟访问特征向量;将所述访问序列特征向量、模拟访问特征向量、所述用户画像特征向量和所述环境特征向量输入至所述预设时序模型的输出层,获得所述输出层输出的概率分布;根据所述概率分布确定所述目标用户的行为类别。5.如权利要求4所述的方法,其特征在于,所述建模层包括第一门控循环神经网络、注意力机制神经网络和第二门控循环神经网络;
所述通过预设时序模型的建模层分别对所述访问序列嵌入向量和所述模拟访问特征嵌入向量分别进行行为建模,获得访问序列特征向量和模拟访问特征向量,包括:通过所述第一门控循环神经网络计算所述访问序列嵌入向量对应的第一隐层状态向量和所述模拟访问特征嵌入向量对应的第二隐层状态向量;将所述第一隐层状态向量和所述第二隐层...

【专利技术属性】
技术研发人员:胡泽远
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1