【技术实现步骤摘要】
基于深度模型的传播预测方法及其系统
本专利技术涉及一种结合图卷积神经网络(GCN)和长短时记忆网络(LSTM)的节点属性预测方法及其系统。
技术介绍
信息的传播在社会网络中是一种很普遍的现象。推特、微博、微信等社交平台在我们的日常生活中扮演着越来越重要的作用。它们的急剧增长促进了各种信息的快速传播,例如新闻消息的传播、科技创新成果的传播以及营销活动的传播等。互联网时代下,网络已经成为人们获取信息、咨询的重要途径。与传统媒体相比,网络媒体时效性更高、信息资源更丰富,使受众从中可以获取更多、更新、更全面的新闻信息。也正是因为网络媒体的这种优势,使得信息在网络中很容易被发布,更容易出现虚假信息。虚假信息一旦踏入互联网这一快速通道,不仅会造成网络自媒体公信力的下降,还会对虚假信息中的当事人造成不可逆的影响。虚假消息检测是信息传播模型的下游应用之一,除此之外还有信息源识别、病毒营销识别等应用。早期经典的传播模型有线性阈值模型(LT)和独立级联模型(IC)。其中LT模型的核心思想是:当一个已经激活的节点去试图激活邻居节点而没有成功时,其对邻居节点的影响力被积累而不是被舍弃,这个贡献直到节点被激活或传播过程结束为止,该过程称为“影响积累”。IC模型的核心思想是:处于激活的节点会尝试激活邻居中未激活的节点,如果失败该影响被抛弃。可以看出这两个模型都具有很强的假设性,脱离一定的情景可能就不适用。也有许多依赖于特征工程的模型,它们手工提取有用的特征然后预测节点的激活概率,模型可以取得一定的效果,但是特征提取的过程需要大量的人力和 ...
【技术保护点】
1.一种基于深度模型的传播预测方法,包括以下步骤:/n1)数据预处理:/n1.1)采集社交网络一段时间内的数据作为样本数据:/n传播模型针对的是一个随时间变化的社交网络,因此使用微博、推特、微信的社交平台的网络数据;/n1.2)处理网络数据,生成数据集并划分:/n原始数据是用户的一些属性和用户之间的关系,需要将其转化为图的形式,将社交网络中的用户当做节点,用户属性即为节点特征,使用X
【技术特征摘要】 【专利技术属性】
1.一种基于深度模型的传播预测方法,包括以下步骤:
1)数据预处理:
1.1)采集社交网络一段时间内的数据作为样本数据:
传播模型针对的是一个随时间变化的社交网络,因此使用微博、推特、微信的社交平台的网络数据;
1.2)处理网络数据,生成数据集并划分:
原始数据是用户的一些属性和用户之间的关系,需要将其转化为图的形式,将社交网络中的用户当做节点,用户属性即为节点特征,使用Xt这个矩阵来表示t时刻网络中所有节点的特征,其中每一行为一个节点的所有特征,列数代表特征维度,行数代表节点个数;用户之间的关系看做连边,即用户之间存在联系即有连边,没有联系则无连边;使用邻接矩阵A来表示,假定拓扑结构不发生变化,即该矩阵保持不变;经过处理可以得到数据集,然后经过划分可以得到训练集、测试集和验证集;
2)构建Seq2Seq模型,采用编码器-解码器的框架,其中编码器和解码器均由LSTM单元组成;编码器将输入的节点属性序列映射成一个固定长度的上下文向量C,这个存储着过去时刻的节点属性信息的上下文向量将会传给解码器,解码器根据传入的上下文向量来生成特点的向量序列,从而预测未来一段时间的节点属性,其中START向量是与节点属性向量维度相同的全零矩阵,用作解码器的初始输入向量;
将Seq2Seq模型应用于传播预测中,目的是提取传播过程的时间特性,其具体过程如下:
[ht,ct]=LSTM1(Xt,[ht-1,ct-1])(t=1,2,...,T),(1)
C=[hT,cT],(2)
START=zero(X),(3)
编码器中的LSTM单元用LSTM1表示,前一时刻得到的隐藏层向量ht-1,细胞层向量为ct-1,然后将这两个向量与节点向量Xt一起输入到下一个LSTM单元中得到新的ht和ct,以此类推;编码器最后一个时刻为T,将hT和cT的的集合用C表示;解码器中的LSTM单元用LSTM2表示,与编码器不同的是,t+1时刻输入的与特征向量维度相同的全0向量,每个LSTM2单元得到的隐藏层向量hT+t'作为逻辑斯蒂分类器和全连接层的输入,逻辑斯蒂分类器和全连接层在模型构建的最后一部分进行说明;
3)嵌入GCN模型:
图卷积神经网络GCN是直接作用于图的卷积神经网络,GCN允许对结构化数据进行端到端的学习,通过学习网络的结构特征来对实现网络节点的特征提取;利用图卷积神经网络GCN来提取每个时刻的网络结构特征;
3.1)构建滤波器gθ:
图的谱卷积定义为输入信号x与滤波器gθ=diag(θ)相乘,而为了解决大网络里拉普拉斯矩阵的特征分解的复杂度高得问题,利用切比雪夫多项式Tk(x)得K阶的截断展开来近似滤波器gθ:
其中表示一个经过调整的拉普拉斯矩阵,而L=IN-D-0.5AD-0.5(8)表示原来的拉普拉斯矩阵,A是用来表示社交网络中节点关系的邻接矩阵,D是A的度值矩阵,IN是一个单位矩阵,λmax是拉普拉斯矩阵L的最大特征值;θk定义为切比雪夫多项式的系数;切比雪夫多项式可以被递归的定义为Tk(x)=2xTk-1(x)-Tk-2(x)(9),其中T0(x)=1,T1(x)=x;
3.2)对隐藏层状态和细胞层状态分别进行卷积操作:
引入GCN模型对细胞层状态和隐藏层状态进行图卷积运算,即将t时刻的LSTM的隐藏层向量ht以及细胞层向量ct分别作为两个GCN模型的输入,且利用滤波器gθ对隐藏层向量ht以及细胞层向量ct进行卷积操作,将GCN模型输出的新隐藏层向量以及新的细胞层向量作为t+1时刻的LSTM单元的输入;
由于细胞层状态和隐藏层状态分别反映不同的信息,使用两个独立得到GCN模型分别对细胞层状态和隐藏层状态执行卷积运算;每个时刻LSTM的隐藏层向量ht以及cell层向量ct分别作为2个GCN模型的输入,与滤波器gθ相乘,输出新的隐藏层向量以及新的cell层向量其中是对隐藏层向量做卷积操作的滤波器,是对细胞层向量ct做卷积操作的滤波器;
技术研发人员:陈晋音,王珏,张敦杰,徐晓东,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。