一种融合微博主题及评论的深度学习谣言检测方法技术

技术编号：29310540 阅读：18 留言：0更新日期：2021-07-17 02:14

本发明专利技术涉及一种融合微博主题及评论的深度学习谣言检测方法。本发明专利技术包括：将微博正文的词序列表示形式经过序列embedding得到向量表示；将其与微博正文的词袋模型形式输入到TMN结构中得到融合了主题信息的微博正文特征；提取相应微博评论的语义特征；将融合了主题信息的微博正文特征与微博评论的语义表示联合训练分类器。本发明专利技术通过融合潜在主题和相应评论来训练谣言检测模型，使用该模式可判断微博是否属于谣言，无需人工处理；本发明专利技术所提出的TopCom模型融合了潜在主题和评论的优点，在基于微博的谣言检测任务中取得了良好的性能。能。能。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合微博主题及评论的深度学习谣言检测方法

[0001]本专利技术涉及自然语言处理
，尤其是指一种融合微博主题及评论的深度学习谣言检测方法。

技术介绍

[0002]如今，网络社交媒体非常流行，数十亿人在这里表达自己的观点，传播信息。在社交媒体上发布的谣言通常传播迅速，因此有必要尽快发现这些谣言，将损失降到最低。用户通常在新浪微博上发布微博来表达他们的观点和分享信息。由于微博是不断产生的，仅靠人工处理很难对谣言进行分析和检测。与网络新闻(也是谣言的主要来源之一)不同的是，网络社交媒体上的微博正文通常篇幅较短，这可能会导致缺乏词汇的稀缺性问题。此外，我们经常可以在相应的微博上找到额外的社会信息，比如评论，这些评论可以为发现谣言带来积极的影响。
[0003]随着深度学习的发展，利用深度神经网络(DNNs)自动提取高维语义特征是一种常用的方法。近年来，将DSSs与附加的社会信息相结合来提高谣言检测性能成为一种流行的方案。例如：
[0004]Jin和他的同事们提出了一种基于神经网络的模型，该模型带有一种关注机制，通过融合发布在同一条推文上的图像和文本来检测谣言(Jin Z，Cao J，Guo H，et al.Multimodal fusion with recurrent neural networks for rumor detection on microblogs[C].Proceedings of the 25th ACM international conference on Multimed...

【技术保护点】

【技术特征摘要】
1.一种融合微博主题及评论的深度学习谣言检测方法，其特征在于，包括：步骤1：对于一条微博的微博正文及其微博评论，获取微博正文的词序列表示形式及微博正文的词袋模型形式；步骤2：将微博正文的词序列表示形式经过embedding得到向量表示；步骤3：将所述向量表示与微博正文的词袋模型形式输入到TMN结构中，得到融合了主题信息的微博正文特征；步骤4：将融合了主题信息的微博正文特征通过CNN提取微博正文的特征表示；步骤5：对每条微博评论经过embedding后进行拼接得到的向量通过CNN抽取，得到微博评论的特征表示；步骤6：融合微博正文的特征表示与微博评论的特征表示，并将融合结果作为输入特征输入到分类器中，得到微博是否属于谣言的预测结果。2.根据权利要求1所述的一种融合微博主题及评论的深度学习谣言检测方法，其特征在于，所述微博评论为由One
‑
hot编码组成的评论。3.根据权利要求1所述的一种融合微博主题及评论的深度学习谣言检测方法，其特征在于，所述步骤2中，对于微博正文的词序列表示形式，使用预训练单词向量得到embedding。4.根据权利要求1所述的一种融合微博主题及评论的深度学习谣言检测方法，其特征在于，所述步骤3包括：对于微博正文的词序列表示形式，计算每个主题和每个单词的匹配程度：其中，使用预训练单词向量得到embedding记作第i个微博正文中第j个单词的embedding记作S为源记忆矩阵，σ是sigmoid激活函数，W
s
和b
S
是训练过程中得到的参数，k为主题的数量。5.据权利要求1所述的一种融合微博主题及评论的深度学习谣言检测方法，其特征在于，所述步骤3中，融合...

【专利技术属性】
技术研发人员：陆恒杨，聂玮，方伟，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人