【技术实现步骤摘要】
一种基于多特征融合的社交群体分类方法及系统
本专利技术属于数据挖掘-分类-群体分类
,涉及一种基于多特征融合的社交群体分类方法及系统。
技术介绍
分类方法的目的是根据数据集的特点构造一个分类函数或分类模型(也常称作分类器),该模型能把未知类别的样本映射到给定的类别当中。通常,利用机器学习得到的分类器可以表示为分类规则形式、决策树形式或数学公式形式;利用深度学习得到的分类器则主要利用CNN、RNN等神经网络结构寻找概率最大的标签值。目前已有的基于社交网络的群体分类方法,大多利用已有的分类模型,以社交的关系和属性等社交网络用户特性作为特征来实现。然而,在上述方法中,用户轨迹、网络行为等同样能够反映社交属性的特征往往被忽略。虽然上述分类方法在群体分类问题中取得了一定的成绩,但是此类方法需要使用包含特定形式特征值的数据集,这导致用户轨迹、网络行为等不规则特征难以参与进分类过程中,或特征信息有一定的缺失。在群体分类问题中,这类不规则特征对分类结果具有重要的参考价值,对不规则特征的忽略可能导致分类结果的准确性降低。
技术实现思路
为了缓解上述问题,本专利技术提出一种基于多特征融合的群体分类方法及系统。该方法引入社交关系和轨迹信息,将上述特征抽样建模,并使用Node2Vec和RNN将其投影到低维空间。基于上述模型生成的特征表示,利用深度学习模型进行分类,从而提升群体分类的精度,为信息推送提供技术支持,即可以根据群体的分类结果进行信息推送,分别为不同的用户推送不同的信息。以上的技术问 ...
【技术保护点】
1.一种基于多特征融合的社交群体分类方法,其步骤包括:/n1)对一目标社交群体的数据集,对该数据集中各用户的轨迹数据进行预处理,去除噪声并对缺失位置信息进行插值;其中,该数据集包括该目标社交群体的社交关系及该目标社交群体中各用户的轨迹信息;/n2)使用频繁序列挖掘算法从各用户轨迹数据中挖掘对应用户的轨迹模式,再将用户的轨迹模式看作时序序列,采用LSTM对该时间序列进行编码,得到用户的轨迹编码;/n3)根据所述社交关系生成一图网络,将所述社交关系投影到低维空间,学习得到各用户的嵌入表示;/n4)将每一用户的轨迹编码和对应用户的嵌入表示结合输入softmax层,确定各用户的类别,实现对该目标社交群体的分类。/n
【技术特征摘要】 【专利技术属性】
1.一种基于多特征融合的社交群体分类方法,其步骤包括:
1)对一目标社交群体的数据集,对该数据集中各用户的轨迹数据进行预处理,去除噪声并对缺失位置信息进行插值;其中,该数据集包括该目标社交群体的社交关系及该目标社交群体中各用户的轨迹信息;
2)使用频繁序列挖掘算法从各用户轨迹数据中挖掘对应用户的轨迹模式,再将用户的轨迹模式看作时序序列,采用LSTM对该时间序列进行编码,得到用户的轨迹编码;
3)根据所述社交关系生成一图网络,将所述社交关系投影到低维空间,学习得到各用户的嵌入表示;
4)将每一用户的轨迹编码和对应用户的嵌入表示结合输入softmax层,确定各用户的类别,实现对该目标社交群体的分类。
2.如权利要求1所述的方法,其特征在于,对该数据集中的用户轨迹数据进行预处理的方法为:
11)根据轨迹数据中轨迹点的采样间距设置时间片长度,将轨迹点与时间片一一对应;
12)对于每个时间片,将该时间片的数据按用户的唯一标识符分组;然后计算该时间片所有数据的中心位置;
13)根据时间片的分组结果进行数据过滤,如果同一组中含有多于一条位置数据,则计算该组所有位置信息与所述中心位置的距离,保留离所述中心位置最近的一条数据;
14)根据步骤13)过滤后保留的数据更新所述中心位置;
15)对于某一时间片缺失的轨迹点,如果该时间片前后相邻时间均存在轨迹点,则根据相邻时间的轨迹点进行插值,得到该缺失的轨迹点。
3.如权利要求1所述的方法,其特征在于,使用频繁序列挖掘算法挖掘所述轨迹模式的方法为:首先采用频繁序列挖掘算法对预处理之后的用户u的轨迹数据进行两层循环遍历,找出所有的频繁项;其中频繁项是指轨迹数据中出现次数大于设定阈值的轨迹片段;然后过滤得到的频繁项:过滤长度小于设定长度的频繁项,如果两频繁项重叠部分达设定比例以上则过滤掉其中较短的频繁项,如果频繁项存在自身内部循环则只留下内部循环中最长的部分;最后将过滤后得到的频繁项作为该用户u的轨迹模式。
4.如权利要求3所述的方法,其特征在于,得到用户的轨迹编码的方法为:首先将用户u的轨迹模式建模成一个固定长度为T的时序序列;该时序序列的第i个单元代表该用户u在第i个时间片的位置信息,该时序序列的最早一个时间片设为t1;然后搭建长度为T的LSTM网络,设置隐状态维度为N维,将该时序序列中的向量按时间顺序输入该LSTM网络中;然后取最后一个时刻输出的隐状态作为该用户u的轨迹编码。
5.如权利要求1所述的方法,其特征在于,学习得到各用户的嵌入表示的方法为:
31)将社交关系建模成图网络,图中的每个节点代表一个个体,每条边代表两个个体间存在的社交关系;
32)采用有偏随机游走获取每个顶点的长度为L的近邻序列;
33)根据顶点的近邻接序列,用word2vec模型学习得到顶点的embedding向量作为对应用户的嵌入表示。
技术研发人员:李扬曦,佟玲玲,井雅琪,曹亚男,任博雅,胡燕林,时磊,段东圣,刘权,
申请(专利权)人:国家计算机网络与信息安全管理中心,中国科学院信息工程研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。