基于多层次数据表示学习的用户身份信息识别方法和装置制造方法及图纸

技术编号:33152550 阅读:15 留言:0更新日期:2022-04-22 14:07
本申请涉及一种基于多层次数据表示学习的用户身份信息识别方法和装置。所述方法包括:通过获取社交媒体平台的发布信息数据和用户个人信息数据,进行过滤清洗预处理后,进行特征提取,然后通过数据表示算法对发布信息第一特征、发布信息第二特征、用户第一特征和用户第二特征进行表示学习,分别得到特征表示;通过构建用户表示模型,先根据发布信息的文本向量表示、发布信息第一特征和发布信息第二特征得到发布信息表示,再根据得到的发布信息表示,以及之前的用户第一特征表示和用户第二特征表示,得到用户表示,最后通过分类器根据用户表示进行用户身份信息预测;对用户表示模型进行训练,训练完成后用于基于社交平台数据的用户身份信息识别。用户身份信息识别。用户身份信息识别。

【技术实现步骤摘要】
基于多层次数据表示学习的用户身份信息识别方法和装置


[0001]本申请涉及数据处理
,特别是涉及一种基于多层次数据表示学习的用户身份信息识别方法和装置。

技术介绍

[0002]随着互联网与智能手机的普及,全球数十亿用户在使用各类社交媒体应用,例如Twitter和新浪微博等,这些社交媒体用户每天都在产生海量丰富的数据资源。这些社交媒体数据包含大量多维度的个人信息,在一定程度上能够反应出用户的性别、年龄、职业等身份信息,蕴含着巨大的社会和商业价值。一方面,基于社交媒体用户产生的数据来识别用户的年龄、性别等信息,在个人定制服务、病毒式营销、推荐系统、定制广告等商业应用中具有重要的价值;另一方面,基于社交媒体数据识别个人的职业、社会经济地位等信息,不光可以帮助政府机构进行快速地人口普查统计、评估地区人口的发展状况,还能够帮助研究人员进行社会学、医学、经济学等跨学科研究,具有十分重要的社会和科学研究价值。
[0003]目前已有研究主要是基于用户的各类数据进行用户身份信息的识别推测,大多更注重前期数据特征提取和后期的用户分类模型的设计,但对用户各类数据本身的内在信息挖掘较少,对用户数据的结构特点缺乏深入的分析。之前这些研究工作往往是在假设数据特征之间相互独立的情况下直接使用其显示表示,没有考虑数据特征内在的重要信息挖掘,造成了一定的信息丢失。因此,现有的用户身份信息识别方法存在准确率不高的问题。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高用户身份信息识别准确性的基于多层次数据表示学习的用户身份信息识别方法、装置、计算机设备和存储介质。
[0005]一种基于多层次数据表示学习的用户身份信息识别方法,所述方法包括:
[0006]获取社交媒体平台的发布信息数据和用户个人信息数据,对所述用户个人信息数据进行过滤清洗,对所述发布信息数据进行预处理,并根据预处理后的发布信息数据建立语料库;
[0007]根据所述预处理后的发布信息数据得到每条发布信息的发布信息第一特征和发布信息第二特征,根据过滤后的用户个人信息数据得到每个用户的用户第一特征和用户第二特征;所述发布信息第一特征为所述发布信息引起的互动数量的数值型信息;所述发布信息第二特征为所述发布信息的类别信息;所述用户第一特征为关于用户级别的数值型信息;所述用户第二特征为所述用户的类别型信息;
[0008]根据所述语料库得到发布信息对应的文本向量表示,通过数据表示算法对所述发布信息第一特征、所述发布信息第二特征、所述用户第一特征和所述用户第二特征进行表示学习,分别得到发布信息第一特征表示、发布信息第二特征表示、用户第一特征表示和用户第二特征表示;
[0009]将所述文本向量表示、所述发布信息第一特征表示、所述发布信息第二特征表示、
所述用户第一特征表示和所述用户第二特征表示输入到预先设计的用户表示模型中;所述用户表示模型包括发布信息表示层、用户表示层和输出层;所述发布信息表示层用于根据所述文本向量表示、所述发布信息第一特征表示和所述发布信息第二特征表示得到发布信息表示;所述用户表示层用于根据所述发布信息表示、所述用户第一特征表示和所述用户第二特征表示得到用户表示;所述输出层用于根据所述用户表示得到用户身份信息识别结果;
[0010]根据预设的损失函数对所述用户表示模型进行训练,得到训练好的用户表示模型,通过所述训练好的用户表示模型进行用户身份信息识别。
[0011]在其中一个实施例中,还包括:获取社交媒体平台的发布信息数据和用户个人信息数据;
[0012]从所述用户个人信息数据中删除噪声用户的数据以及不活跃用户的数据;
[0013]根据所述发布信息数据和中文维基百科的文本数据集建立中文数据语料库;
[0014]对所述中文数据语料库进行分词以建立语料库。
[0015]在其中一个实施例中,还包括:基于所述语料库预训练Word2Vec模型;
[0016]使用训练好的Word2Vec模型将每一条发布信息数据中的文本单词转换成单词嵌入向量,得到发布信息对应的文本向量表示。
[0017]在其中一个实施例中,还包括:通过耦合表示算法对所述发布信息第一特征和所述用户第一特征进行表示学习,分别得到发布信息第一特征表示和用户第一特征表示;
[0018]通过基于层次值耦合关系学习的数据表示算法对所述发布信息第二特征和所述用户第二特征进行表示学习,分别得到发布信息第二特征表示和用户第二特征表示。
[0019]在其中一个实施例中,所述耦合表示算法的步骤包括:
[0020]获取输入的数值型的原始特征其中,s1为所述原始特征中包括的特征数;
[0021]将所述原始特征通过按幂展开的方式映射到考虑线性和非线性信息的扩展空间:
[0022][0023]其中,表示特征的p次幂;
[0024]根据特征与其自身的幂定义原始特征的内部耦合关系矩阵
[0025]定义特征和其它特征之间的耦合关系矩阵
[0026]根据特征内部耦合关系和特征间的耦合关系,将特征表示为一个1
×
L的向量表示:
[0027][0028]其中,w=[1/(1!),1/(2!),

,1/(L!)],

表示哈达玛积,表示矩阵乘法,为特征的值及其幂的表示向量,为其他特征的值及其幂的表示向量;
[0029]进而得到所述原始特征空间的耦合数据表示为:
[0030][0031]在其中一个实施例中,所述基于层次值耦合关系学习的数据表示算法的步骤包括:
[0032]获取输入的类别型的原始特征空间其中,s2为所述原始特征中包括的特征数,特征的所有可能的类别集合表示为V
i
,所有类别型特征的所有可能的类别集合其中即
[0033]构建基于出现的特征值影响矩阵M
o

[0034]构建基于共同出现的特征值影响矩阵M
c

[0035]分别使用不同的k∈{k1,k2,

,k
o
}对矩阵M
o
进行k

means聚类,得出一个簇标志矩阵;
[0036]分别使用不同的k∈{k1,k2,

,k
c
}对矩阵M
c
进行k

means聚类,得出另一个簇标志矩阵;
[0037]将两个簇标志矩阵合并得到一个的标志矩阵I;
[0038]采用主成分分析技术对所述标志矩阵I进行特征值簇之间的线性关系学习,得到特征值表示矩阵N;
[0039]根据所述特征值表示矩阵,得到原始特征空间的耦合数据表示:
[0040][0041]在其中一个实施例中,还包括:
[0042]获取所述文本向量表示
[0043]将所述文本向量表示输入进GRU层,并将得到的隐本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层次数据表示学习的用户身份信息识别方法,其特征在于,所述方法包括:获取社交媒体平台的发布信息数据和用户个人信息数据,对所述用户个人信息数据进行过滤清洗,对所述发布信息数据进行预处理,并根据预处理后的发布信息数据建立语料库;根据所述预处理后的发布信息数据得到每条发布信息的发布信息第一特征和发布信息第二特征,根据过滤后的用户个人信息数据得到每个用户的用户第一特征和用户第二特征;所述发布信息第一特征为所述发布信息引起的互动数量的数值型信息;所述发布信息第二特征为所述发布信息的类别信息;所述用户第一特征为关于用户级别的数值型信息;所述用户第二特征为所述用户的类别型信息;根据所述语料库得到发布信息对应的文本向量表示,通过数据表示算法对所述发布信息第一特征、所述发布信息第二特征、所述用户第一特征和所述用户第二特征进行表示学习,分别得到发布信息第一特征表示、发布信息第二特征表示、用户第一特征表示和用户第二特征表示;将所述文本向量表示、所述发布信息第一特征表示、所述发布信息第二特征表示、所述用户第一特征表示和所述用户第二特征表示输入到预先设计的用户表示模型中;所述用户表示模型包括发布信息表示层、用户表示层和输出层;所述发布信息表示层用于根据所述文本向量表示、所述发布信息第一特征表示和所述发布信息第二特征表示得到发布信息表示;所述用户表示层用于根据所述发布信息表示、所述用户第一特征表示和所述用户第二特征表示得到用户表示;所述输出层用于根据所述用户表示得到用户身份信息识别结果;根据预设的损失函数对所述用户表示模型进行训练,得到训练好的用户表示模型,通过所述训练好的用户表示模型进行用户身份信息识别。2.根据权利要求1所述的方法,其特征在于,获取社交媒体平台的发布信息数据和用户个人信息数据,对所述用户个人信息数据进行过滤,对所述发布信息数据进行预处理,并根据预处理后的发布信息数据建立语料库,包括:获取社交媒体平台的发布信息数据和用户个人信息数据;从所述用户个人信息数据中删除噪声用户的数据以及不活跃用户的数据;根据所述发布信息数据和中文维基百科的文本数据集建立中文数据语料库;对所述中文数据语料库进行分词以建立语料库。3.根据权利要求2所述的方法,其特征在于,根据所述语料库得到发布信息对应的文本向量表示,包括:基于所述语料库预训练Word2Vec模型;使用训练好的Word2Vec模型将每一条发布信息数据中的文本单词转换成单词嵌入向量,得到发布信息对应的文本向量表示。4.根据权利要求3所述的方法,其特征在于,通过数据表示算法对所述发布信息第一特征、所述发布信息第二特征、所述用户第一特征和所述用户第二特征进行表示学习,分别得到发布信息第一特征表示、发布信息第二特征表示、用户第一特征表示和用户第二特征表示,包括:通过耦合表示算法对所述发布信息第一特征和所述用户第一特征进行表示学习,分别
得到发布信息第一特征表示和用户第一特征表示;通过基于层次值耦合关系学习的数据表示算法对所述发布信息第二特征和所述用户第二特征进行表示学习,分别得到发布信息第二特征表示和用户第二特征表示。5.根据权利要求4所述的方法,其特征在于,所述耦合表示算法的步骤包括:获取输入的数值型的原始特征其中,s1为所述原始特征中包括的特征数;将所述原始特征通过按幂展开的方式映射到考虑线性和非线性信息的扩展空间:其中,表示特征的p次幂;根据特征与其自身的幂定义原始特征的内部耦合关系矩阵定义特征和其它特征之间的耦合关系矩阵根据特征内部耦合关系和特征间的耦合关系,将特征表示为一个1
×
L的向量表示:其中,w=[1/(1!),1/(2!),

,1/(L!)],

表示哈达玛积,表示矩阵乘法,为特征的值及其幂的表示向量,为其他特征的值及其幂的表示向量;进而得到所述原始特征空间的耦合数据表示为:6.根据权利要求5所述的方法,其特征在于,所述基于层次值耦合关系学习的数据表示算法的步骤包括:获取输入的类别型的原始特征空间其中,s2为所述原始特征中包括的特征数,特征的所有可能的类别集合表示为V
i
,所有类别型特征的所有可能的类别集
合其中即构建基于出现的特征值影响矩阵M
o
;构建基于共同出现的特征值影响矩阵M
c
...

【专利技术属性】
技术研发人员:赵涛邓劲生严少洁宋省身乔凤才尹晓晴
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1