当前位置: 首页 > 专利查询>江南大学专利>正文

一种融合微博主题及评论的深度学习谣言检测方法技术

技术编号:29310540 阅读:18 留言:0更新日期:2021-07-17 02:14
本发明专利技术涉及一种融合微博主题及评论的深度学习谣言检测方法。本发明专利技术包括:将微博正文的词序列表示形式经过序列embedding得到向量表示;将其与微博正文的词袋模型形式输入到TMN结构中得到融合了主题信息的微博正文特征;提取相应微博评论的语义特征;将融合了主题信息的微博正文特征与微博评论的语义表示联合训练分类器。本发明专利技术通过融合潜在主题和相应评论来训练谣言检测模型,使用该模式可判断微博是否属于谣言,无需人工处理;本发明专利技术所提出的TopCom模型融合了潜在主题和评论的优点,在基于微博的谣言检测任务中取得了良好的性能。能。能。

【技术实现步骤摘要】
一种融合微博主题及评论的深度学习谣言检测方法


[0001]本专利技术涉及自然语言处理
,尤其是指一种融合微博主题及评论的深度学习谣言检测方法。

技术介绍

[0002]如今,网络社交媒体非常流行,数十亿人在这里表达自己的观点,传播信息。在社交媒体上发布的谣言通常传播迅速,因此有必要尽快发现这些谣言,将损失降到最低。用户通常在新浪微博上发布微博来表达他们的观点和分享信息。由于微博是不断产生的,仅靠人工处理很难对谣言进行分析和检测。与网络新闻(也是谣言的主要来源之一)不同的是,网络社交媒体上的微博正文通常篇幅较短,这可能会导致缺乏词汇的稀缺性问题。此外,我们经常可以在相应的微博上找到额外的社会信息,比如评论,这些评论可以为发现谣言带来积极的影响。
[0003]随着深度学习的发展,利用深度神经网络(DNNs)自动提取高维语义特征是一种常用的方法。近年来,将DSSs与附加的社会信息相结合来提高谣言检测性能成为一种流行的方案。例如:
[0004]Jin和他的同事们提出了一种基于神经网络的模型,该模型带有一种关注机制,通过融合发布在同一条推文上的图像和文本来检测谣言(Jin Z,Cao J,Guo H,et al.Multimodal fusion with recurrent neural networks for rumor detection on microblogs[C].Proceedings of the 25th ACM international conference on Multimedia.2017:795

816);
[0005]Yuan及其同事利用基于CNN的模型学习微博的语义表示,并将源推文与转发文、用户融合用于谣言检测(Yuan C,Ma Q,Zhou W,et al.Jointly embedding the local and global relations of heterogeneous graph for rumor detection[C].2019 IEEE International Conference on Data Mining(ICDM).IEEE,2019:796

805);
[0006]Ma和他的同事们提出了一个新的GAN的框架,该框架使用源推文的响应来学习更强的谣言指示性表示(Ma J,Gao W,Wong K F.Detect rumors on twitter by promoting information campaigns with generatiVe adversarial learning[C].The World Wide Web Conference.2019:3049

3055)。
[0007]虽然以上方法是有效的,但是大多数模型都没有考虑到微博正文的稀疏性问题,检测有效性和效率低。

技术实现思路

[0008]为此,本专利技术所要解决的技术问题在于克服现有技术中由于网络社交媒体上的微博通常篇幅较短,这可能会导致文字缺乏造成的稀疏问题,且现有的语义检测方法难以对微博谣言检测,检测有效性和效率低的问题。
[0009]为例解决上述技术问题,本专利技术提供了一种融合微博主题及评论的深度学习谣言
检测方法,包括:
[0010]步骤1:对于一条微博的微博正文及其微博评论,获取微博正文的词序列表示形式及微博正文的词袋模型形式;
[0011]步骤2:将微博正文的词序列表示形式经过embedding得到向量表示;
[0012]步骤3:将所述向量表示与微博正文的词袋模型形式输入到TMN结构中,得到融合了主题信息的微博正文特征;
[0013]步骤4:将融合了主题信息的微博正文特征通过CNN提取微博正文的特征表示;
[0014]步骤5:对每条微博评论经过embedding后进行拼接得到的向量通过CNN抽取,得到微博评论的特征表示;
[0015]步骤6:融合微博正文的特征表示与微博评论的特征表示,并将融合结果作为输入特征输入到分类器中,得到微博是否属于谣言的预测结果。
[0016]在本专利技术的一个实施例中,所述微博评论为由One

hot编码组成的评论。
[0017]在本专利技术的一个实施例中,所述步骤2中,对于微博正文的词序列表示形式,使用预训练单词向量得到embedding。
[0018]在本专利技术的一个实施例中,所述步骤3包括:对于微博正文的词序列表示形式,计算每个主题和每个单词的匹配程度:
[0019][0020]其中,使用预训练单词向量得到embedding记作第i个微博正文中第j个单词的embedding记作S为源记忆矩阵,σ是sigmoid激活函数,W
s
和b
S
是训练过程中得到的参数,k为主题的数量。
[0021]在本专利技术的一个实施例中,所述步骤3中,融合了主题信息的微博正文特征TR:
[0022]TR=ξT
[0023]其中,T为目标记忆矩阵,ξ为记忆权重。
[0024]在本专利技术的一个实施例中,所述记忆权重ξ,其在k个主题中的定义如下:
[0025]ξ
k
=γ∑
j
P
k,j

k
[0026]其中,γ是预定义的系数,θ
k
为主题分布。
[0027]在本专利技术的一个实施例中,所述步骤4中,微博正文的特征表示:
[0028][0029]在本专利技术的一个实施例中,所述步骤5包括:对第i条微博的微博评论集合c
i
=[c
i1
,c
i2
,...,c
il
],使用预训练词语向量得到embedding形式记作使用连接操作整合embedding中的c
i
中的所有评论记作
[0030][0031]对使用CNNs,得到微博评论的特征表示
[0032][0033]在本专利技术的一个实施例中,所述步骤6中,使用连接操作融合微博正文的特征表示与微博评论的特征表示为R:
[0034][0035]在本专利技术的一个实施例中,所述步骤6中,使用softmax函数得到实例是否属于谣言的预测,使用R作为输入特征,得到第i个微博预测标签的分布:
[0036]p
i
=softmax(R)。
[0037]本专利技术的上述技术方案相比现有技术具有以下优点:
[0038]本专利技术提出了一种基于DNNs的新型融合模型,利用主题记忆网络将潜在主题与原始微博进行融合,解决了微博正文文本短而导致的稀疏性问题。
[0039]本专利技术使用了最广泛的在线社交媒体之一新浪微博上进行谣言检测。本专利将谣言检测任务建模为一个二元分类问题,并提出了一个基于深度神经网络的TopCom模型。该模型利用主题记忆网络将潜在主题本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合微博主题及评论的深度学习谣言检测方法,其特征在于,包括:步骤1:对于一条微博的微博正文及其微博评论,获取微博正文的词序列表示形式及微博正文的词袋模型形式;步骤2:将微博正文的词序列表示形式经过embedding得到向量表示;步骤3:将所述向量表示与微博正文的词袋模型形式输入到TMN结构中,得到融合了主题信息的微博正文特征;步骤4:将融合了主题信息的微博正文特征通过CNN提取微博正文的特征表示;步骤5:对每条微博评论经过embedding后进行拼接得到的向量通过CNN抽取,得到微博评论的特征表示;步骤6:融合微博正文的特征表示与微博评论的特征表示,并将融合结果作为输入特征输入到分类器中,得到微博是否属于谣言的预测结果。2.根据权利要求1所述的一种融合微博主题及评论的深度学习谣言检测方法,其特征在于,所述微博评论为由One

hot编码组成的评论。3.根据权利要求1所述的一种融合微博主题及评论的深度学习谣言检测方法,其特征在于,所述步骤2中,对于微博正文的词序列表示形式,使用预训练单词向量得到embedding。4.根据权利要求1所述的一种融合微博主题及评论的深度学习谣言检测方法,其特征在于,所述步骤3包括:对于微博正文的词序列表示形式,计算每个主题和每个单词的匹配程度:其中,使用预训练单词向量得到embedding记作第i个微博正文中第j个单词的embedding记作S为源记忆矩阵,σ是sigmoid激活函数,W
s
和b
S
是训练过程中得到的参数,k为主题的数量。5.据权利要求1所述的一种融合微博主题及评论的深度学习谣言检测方法,其特征在于,所述步骤3中,融合...

【专利技术属性】
技术研发人员:陆恒杨聂玮方伟
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1