一种基于多特征融合的社交群体分类方法及系统技术方案

技术编号:23497961 阅读:28 留言:0更新日期:2020-03-13 13:06
本发明专利技术公开了一种基于多特征融合的社交群体分类方法及系统。本方法为:1)对一目标社交群体的数据集,对该数据集中各用户的轨迹数据进行预处理,去除噪声并对缺失位置信息进行插值;2)使用频繁序列挖掘算法从各用户轨迹数据中挖掘对应用户的轨迹模式,再将用户的轨迹模式看作时序序列,采用LSTM对该时间序列进行编码,得到用户的轨迹编码;3)根据所述社交关系生成一图网络,将所述社交关系投影到低维空间,学习得到各用户的嵌入表示;4)将每一用户的轨迹编码和对应用户的嵌入表示结合输入softmax层,确定各用户的类别,实现对该目标社交群体的分类。本发明专利技术大大提升了群体分类的精度。

A social group classification method and system based on multi feature fusion

【技术实现步骤摘要】
一种基于多特征融合的社交群体分类方法及系统
本专利技术属于数据挖掘-分类-群体分类
,涉及一种基于多特征融合的社交群体分类方法及系统。
技术介绍
分类方法的目的是根据数据集的特点构造一个分类函数或分类模型(也常称作分类器),该模型能把未知类别的样本映射到给定的类别当中。通常,利用机器学习得到的分类器可以表示为分类规则形式、决策树形式或数学公式形式;利用深度学习得到的分类器则主要利用CNN、RNN等神经网络结构寻找概率最大的标签值。目前已有的基于社交网络的群体分类方法,大多利用已有的分类模型,以社交的关系和属性等社交网络用户特性作为特征来实现。然而,在上述方法中,用户轨迹、网络行为等同样能够反映社交属性的特征往往被忽略。虽然上述分类方法在群体分类问题中取得了一定的成绩,但是此类方法需要使用包含特定形式特征值的数据集,这导致用户轨迹、网络行为等不规则特征难以参与进分类过程中,或特征信息有一定的缺失。在群体分类问题中,这类不规则特征对分类结果具有重要的参考价值,对不规则特征的忽略可能导致分类结果的准确性降低。
技术实现思路
为了缓解上述问题,本专利技术提出一种基于多特征融合的群体分类方法及系统。该方法引入社交关系和轨迹信息,将上述特征抽样建模,并使用Node2Vec和RNN将其投影到低维空间。基于上述模型生成的特征表示,利用深度学习模型进行分类,从而提升群体分类的精度,为信息推送提供技术支持,即可以根据群体的分类结果进行信息推送,分别为不同的用户推送不同的信息。以上的技术问题是通过下列技术方案解决的:一种基于多特征融合的群体分类方法,所述分类过程如下:步骤1,对给定的数据集进行混洗,划分为训练集、验证集和测试集;同时,对用户轨迹数据进行预处理,去除噪声数据,并对缺失位置信息进行插值。其中,数据集为一个用户群的社交关系及该用户群中各用户的轨迹信息。社交关系包括不同用户之间的一对一连接关系,轨迹信息包括多个时间点的位置点坐标。步骤2,使用频繁序列挖掘算法和LSTM网络将个体的轨迹模式进行编码。步骤3,将该用户群的社交关系建模成图网络,利用Node2vec将社交关系投影到低维空间,学习用户的嵌入表示。步骤4,将轨迹编码和用户的嵌入表示结合,利用softmax对轨迹模式进行分类。步骤5,将一待分类数据集的各用户轨迹编码和各用户的嵌入表示输入到训练好的分类器中,对该待分类数据集进行分类。上述群体分类步骤如图1。所述步骤1中,对数据进行预处理过程如下:步骤1.1,分析轨迹数据,根据轨迹数据中轨迹点的采样间距,定义合适的时间片,并将轨迹点与时间片一一对应。步骤1.2,将较短时间内出现频繁远距离波动的轨迹点去除。该步骤可分为以下几个部分:步骤1.2.1,对于每个时间片,将这个时间片的数据(即轨迹点)按用户的唯一标识符分组;步骤1.2.2,计算该时间片所有数据的中心位置;步骤1.2.3,分析时间片的分组结果,如果同一组中含有多于一条位置数据,则计算该组所有位置信息与1.2.2所得中心位置的距离,保留离中心位置最近的一条数据。距离计算公式如下:其中,代表点A和点B之间的距离,R代表地球半径,Alot、Alot、Blot、Blat分别代表点A和点B的经纬度。步骤1.2.4,对所有保留下来的数据,重新计算其中心位置。每个分组代表一个用户,每个用户在同一时间只有一条位置数据保留。每一组结束步骤1.2.3之后即可更新中心位置。步骤1.3,对于某一时间片缺失的轨迹点,如果时间片前后相邻时间均存在位置点(即轨迹点),则根据相邻时间位置点进行插值,插值位置为前后时间片位置点的中心,得到该缺失的轨迹点。步骤1.4,将数据集中的用户唯一标识进行混洗,并按比例切分成训练集、验证集和测试集。所述步骤2将个体的轨迹模式进行编码,包含频繁序列挖掘和LSTM编码两个部分。其中,使用频繁序列挖掘算法挖掘个体的轨迹模式,再将用户的轨迹模式看作时序序列,采用LSTM对该序列进行编码。频繁序列挖掘算法步骤如下:步骤2.1.1,对预处理之后的轨迹数据进行两层循环遍历,找出所有的频繁项,频繁项即轨迹数据中某一段轨迹片段的出现次数大于设定阈值(此处设为3),则该轨迹片段称为频繁项。步骤2.1.2,过滤得到的频繁项:过滤长度小于2的频繁项;对两频繁项重叠部分达80%以上的,过滤较短的频繁项;自身内部循环的频繁项,则只留下最长的部分(类似A-B-C-B-C-B-C的轨迹段,A、B、C均为位置坐标,则保留其中的A-B-C)。使用LSTM对轨迹模式进行编码的步骤如下:步骤2.2.1,将每个用户的轨迹模式建模成一个固定长度为T的时序序列。序列的第i个单元代表该用户在第i个时间片的位置信息,每一位置信息可表示为一个二维向量,其每一维分别代表该位置的经度和纬度。步骤2.2.2,将步骤2.2.1所得时序序列的最早一个时间片设为t1。步骤2.2.3,搭建长度为T的LSTM网络,设置隐状态维度为50维。将序列中的向量按时间顺序输入LSTM网络中,每个向量都作为一个LSTM单元的输入。步骤2.2.4,取最后一个时刻输出的隐状态作为轨迹模式编码。所述步骤3编码个体间的社交关系,将社交网络的拓扑结构进行降维表示。其具体步骤如下:步骤3.1,将社交关系建模成图网络,图中的每个节点代表一个个体,每条边代表两个个体间存在的社交关系。其中,边的权值代表个体间社交关系的紧密度。步骤3.2,采用有偏随机游走获取每个节点的近邻序列。步骤3.2.1,在图网络中采样得到初始点v0。步骤3.2.2,从v0开始,随机选择其邻居作为序列的下一个节点。在抽样过程中,给定当前顶点v,访问下一个顶点x的概率为其中,πvx是顶点v和顶点x之间的未归一化转移概率,E为图网络中边的集合,Z是归一化常数。步骤3.2.3,重复步骤3.2.2,直到得到长度为L的近邻序列。步骤3.3,使用步骤3.2得到的顶点近邻序列,用word2vec模型学习顶点的embedding向量,即用户的嵌入表示。所述步骤4可分为以下步骤:步骤4.1,将步骤2得到的轨迹模式编码和步骤3得到的用户的嵌入表示拼接,得到一个100维向量。步骤4.2,将该向量通过一个softmax层,设置softmax层输出维度为2。取概率最大的类别为最终标签。本专利技术还提供一种基于多特征融合的社交群体分类系统,其特征在于,包括数据预处理模块、轨迹模式生成模块、轨迹编码模块、嵌入表示学习模块和分类模块;其中,数据预处理模块,用于对目标社交群体的数据集中各用户的轨迹数据进行预处理,去除噪声并对缺失位置信息进行插值;其中,该数据集包括该目标社交群体的社交关系及该目标社交群体中各用户的轨迹信息;轨迹模式生成模块,用于使用频繁序列挖掘算法从各用户轨迹数据中挖掘对应用户的本文档来自技高网...

【技术保护点】
1.一种基于多特征融合的社交群体分类方法,其步骤包括:/n1)对一目标社交群体的数据集,对该数据集中各用户的轨迹数据进行预处理,去除噪声并对缺失位置信息进行插值;其中,该数据集包括该目标社交群体的社交关系及该目标社交群体中各用户的轨迹信息;/n2)使用频繁序列挖掘算法从各用户轨迹数据中挖掘对应用户的轨迹模式,再将用户的轨迹模式看作时序序列,采用LSTM对该时间序列进行编码,得到用户的轨迹编码;/n3)根据所述社交关系生成一图网络,将所述社交关系投影到低维空间,学习得到各用户的嵌入表示;/n4)将每一用户的轨迹编码和对应用户的嵌入表示结合输入softmax层,确定各用户的类别,实现对该目标社交群体的分类。/n

【技术特征摘要】
1.一种基于多特征融合的社交群体分类方法,其步骤包括:
1)对一目标社交群体的数据集,对该数据集中各用户的轨迹数据进行预处理,去除噪声并对缺失位置信息进行插值;其中,该数据集包括该目标社交群体的社交关系及该目标社交群体中各用户的轨迹信息;
2)使用频繁序列挖掘算法从各用户轨迹数据中挖掘对应用户的轨迹模式,再将用户的轨迹模式看作时序序列,采用LSTM对该时间序列进行编码,得到用户的轨迹编码;
3)根据所述社交关系生成一图网络,将所述社交关系投影到低维空间,学习得到各用户的嵌入表示;
4)将每一用户的轨迹编码和对应用户的嵌入表示结合输入softmax层,确定各用户的类别,实现对该目标社交群体的分类。


2.如权利要求1所述的方法,其特征在于,对该数据集中的用户轨迹数据进行预处理的方法为:
11)根据轨迹数据中轨迹点的采样间距设置时间片长度,将轨迹点与时间片一一对应;
12)对于每个时间片,将该时间片的数据按用户的唯一标识符分组;然后计算该时间片所有数据的中心位置;
13)根据时间片的分组结果进行数据过滤,如果同一组中含有多于一条位置数据,则计算该组所有位置信息与所述中心位置的距离,保留离所述中心位置最近的一条数据;
14)根据步骤13)过滤后保留的数据更新所述中心位置;
15)对于某一时间片缺失的轨迹点,如果该时间片前后相邻时间均存在轨迹点,则根据相邻时间的轨迹点进行插值,得到该缺失的轨迹点。


3.如权利要求1所述的方法,其特征在于,使用频繁序列挖掘算法挖掘所述轨迹模式的方法为:首先采用频繁序列挖掘算法对预处理之后的用户u的轨迹数据进行两层循环遍历,找出所有的频繁项;其中频繁项是指轨迹数据中出现次数大于设定阈值的轨迹片段;然后过滤得到的频繁项:过滤长度小于设定长度的频繁项,如果两频繁项重叠部分达设定比例以上则过滤掉其中较短的频繁项,如果频繁项存在自身内部循环则只留下内部循环中最长的部分;最后将过滤后得到的频繁项作为该用户u的轨迹模式。


4.如权利要求3所述的方法,其特征在于,得到用户的轨迹编码的方法为:首先将用户u的轨迹模式建模成一个固定长度为T的时序序列;该时序序列的第i个单元代表该用户u在第i个时间片的位置信息,该时序序列的最早一个时间片设为t1;然后搭建长度为T的LSTM网络,设置隐状态维度为N维,将该时序序列中的向量按时间顺序输入该LSTM网络中;然后取最后一个时刻输出的隐状态作为该用户u的轨迹编码。


5.如权利要求1所述的方法,其特征在于,学习得到各用户的嵌入表示的方法为:
31)将社交关系建模成图网络,图中的每个节点代表一个个体,每条边代表两个个体间存在的社交关系;
32)采用有偏随机游走获取每个顶点的长度为L的近邻序列;
33)根据顶点的近邻接序列,用word2vec模型学习得到顶点的embedding向量作为对应用户的嵌入表示。

【专利技术属性】
技术研发人员:李扬曦佟玲玲井雅琪曹亚男任博雅胡燕林时磊段东圣刘权
申请(专利权)人:国家计算机网络与信息安全管理中心中国科学院信息工程研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1