System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于领域信息和自定义门控网络的网络谣言实时检测方法技术_技高网

基于领域信息和自定义门控网络的网络谣言实时检测方法技术

技术编号:43149193 阅读:10 留言:0更新日期:2024-10-29 17:49
本发明专利技术属于检测方法技术领域,尤其涉及一种基于领域信息和自定义门控网络的网络谣言实时检测方法。本发明专利技术提供一种基于领域信息和自定义门控网络的网络谣言实时检测方法。本发明专利技术包括以下步骤:步骤一:采用以词为单位的模型对文本进行编码;通过正则表达式清除文本中的特殊字符,将表情符号转换成对应的文字,添加句首标志[CLS]和分句标志[SEP],得到纯文本;步骤二:对纯文本使用结巴分词进行预分词操作,得到词序列[token<subgt;1</subgt;,token<subgt;2</subgt;,...,token<subgt;i</subgt;];遍历该序列,如果token<subgt;i</subgt;存在于词汇表中则保留,否则使用BERT模型的分词器将其切分为字;将每个token<subgt;i</subgt;的分词结果按照预分词的词序列顺序拼接起来传入BERT模型,编码后得到一组词向量W=[w<subgt;[CLS]</subgt;,w<subgt;1</subgt;,...,w<subgt;n</subgt;,w<subgt;[SEP]</subgt;]作为专家模型的输入。

【技术实现步骤摘要】

本专利技术属于检测方法,尤其涉及一种基于领域信息和自定义门控网络的网络谣言实时检测方法


技术介绍

1、近年来网络谣言乱象频出,严重扰乱社会秩序,影响社会稳定。提高网络谣言实时检测方法的准确性,可以帮助有效治理网络谣言,营造有序的网络环境。

2、以微博为代表的社交媒体平台已经成为人们获取社会信息的重要途径,由于存在用户门槛低、信息审核不完善等问题,谣言易在其中产生、传播并影响用户。根据2023年度微博辟谣数据报告,2023年度微博官方共有效处置不实信息87191条,辟除新增谣言及引导争议事件1532例。目前,网络谣言检测工作已受到计算机科学、心理学及社会学等领域学者的广泛关注。

3、遵循一个普遍接受的谣言定义,即它是一种真实性无法验证或人为造假的陈述。现有的网络谣言检测方法可分为基于传播结构和基于内容特征的检测方法。前者有着较高的准确率,但由于需要获取传播结构特征而存在严重的滞后性,不能及时地监控和处理谣言。后者虽然可以满足实时检测的要求,但因可用特征少导致准确率较低。有研究表明建模领域与数据间的关系,对谣言进行分领域检测可以有效提高模型的整体性能。然而,由于不同领域间数据的关联性存在差异,导致模型因参数更新问题存在严重的“负迁移”和“跷跷板”现象:一些领域上检测效果的提升往往伴随着另外一些领域上检测效果的下降。如何在保证实时性的前提下,提高检测的准确性,成为当下研究的难点。同时,现有开源数据集缺乏统一的领域分类标准,且划分领域与关注重点不符,不适用于网络安全管理。

4、现有机器学习的谣言检测方法通常将谣言检测任务抽象为一个二分类问题,主要从传播结构和用户资料等信息中提取各类特征。例如,castillo等人利用文本、用户和传播等一系列特征来训练分类器;sun等人提出使用外部知识印证,并结合文本内容、用户信息等特征训练分类器;kwon等人考虑了一些特殊时间节点对谣言产生的影响。通过已有文献可以看出,基于机器学习的检测方法主要建立在特征提取的基础上。此类方法虽然取得了一定成果,但随着社交媒体数据规模和复杂性的不断增加,特征提取与选择过程不仅费时费力,而且存在滞后性强,稳定性差等缺陷,无法满足对网络谣言检测的实时性、准确性需求。

5、学者们尝试使用深度学习模型对网络谣言进行有效检测。ma等人利用循环神经网络的隐层向量表示文本信息,将其输入分类器后得到分类结果;吴越等人提出了基于并行图注意力网络的谣言检测方法parallelgat,将传播特征和外部证据聚合后进行谣言检测;朱贺从传播时序和扩散结构两方面来解析舆情事件,利用舆情评论数据生成对抗性的噪声,达到同时提升检测精度和噪声容抗性的目的。深度学习模型大多利用网络谣言的传播结构进行分析研究,存在明显的滞后性。基于内容特征的检测方法能够对谣言进行实时检测,最大程度地缩小谣言的传播范围,具有更重要的现实意义。但随着数据规模的不断增加,谣言间存在的领域差异使得内容的共性特征不断减少,导致模型无法兼顾泛用性和准确性。对此,nan等人提出一种多领域虚假新闻检测模型mdfend,采用“领域门”机制聚合多个专家模型提取的特征,从而提高模型的检测效果。从现有研究来看,将多个领域谣言检测视为不同任务,可以结合多任务学习方法,利用不同任务数据,共享任务信息,可以训练出更通用、更健壮的模型。而且,不同领域间信息存在跨主题关联现象,其关系可以看作互相先验知识,用数据更多的任务可以指导学习数据较少的任务,且不同任务有着不同的噪声,一起学习可以抵消部分噪声,提高泛化能力。然而,如果任务间相关性较低甚至优化目标相反时,联合训练会使模型出现因参数更新导致的负迁移现象,即多领域数据无法发挥其有效性,反而使得模型性能下降。随着模型迭代轮次的加深,会产生部分任务性能持续变好,但另外一些任务性能持续变差的跷跷板现象。

6、现有的多任务学习模型主要包含以下几种形式:底层共享(sharedbottom)、混合专家(mixtureofexperts)以及多门混合专家(multigatemixtureofexperts),结构如图1所示。底层共享模型对于所有任务共用底层模块及参数,当上层任务间相关性较差或冲突时,底层参数会根据不同任务不断更新导致模型发生负迁移现象;混合专家模型利用集成学习思想,使用多个专家模型学习数据特征并进行加权融合。但是,训练过程中始终贯穿着负载不平衡问题,即最初几个样本上表现较好的专家模型会被门控网络分配更高的权重,得到更充分的优化,而其余专家模型无法被充分训练;多门混合专家模型在混合专家模型的基础上进行改进,每个任务都对应一个门控网络,不同任务可以通过独有的门控网络对专家模型提取的特征进行加权融合,这种改进保证了综合特征中既有多个任务的共性,又有单个任务的独立性。但是,该结构中专家模型仍是被不同的上层任务所共享,会出现因参数更新导致的“负迁移”和“跷跷板”现象,联合训练的效果受到影响。这就要求设计更有效的模型结构来应对复杂的多任务场景。


技术实现思路

1、本专利技术就是针对上述问题,提供一种基于领域信息和自定义门控网络的网络谣言实时检测方法。

2、为实现上述目的,本专利技术采用如下技术方案,本专利技术包括以下步骤:

3、步骤一:采用以词为单位的模型对文本进行编码;通过正则表达式清除文本中的特殊字符,将表情符号转换成对应的文字,添加句首标志[cls]和分句标志[sep],得到纯文本;

4、步骤二:对纯文本使用结巴分词进行预分词操作,得到词序列[token1,token2,…,tokeni];遍历该序列,如果tokeni存在于词汇表中则保留,否则使用bert模型的分词器将其切分为字;将每个tokeni的分词结果按照预分词的词序列顺序拼接起来传入bert模型,编码后得到一组词向量w=[w[cls],w1,…,wn,w[sep]]作为专家模型的输入;

5、步骤三:专家模型通过多个卷积通道使用不同尺寸的卷积核来获取不同尺度的文本特征,通过最大池化操作选取主要的特征,并将各卷积通道的特征拼接在一起得到句子特征;

6、步骤四:博文所对应的bert模型词向量,经过word-attention编码,博文的词向量被赋予不同权重来表示其对检测结果的影响程度后,获取对应博文的文本特征向量表示e_k;word-attention对博文的单词编码赋予不同权重来表示其对检测结果的影响程度;

7、步骤五:将步骤三和步骤四分别得到的特征进行拼接融合输入分类器中,选用交叉熵作为损失函数进行分类。

8、作为一种优选方案,本专利技术所述多个卷积通道包括第一卷积通道、第二卷积通道、第三卷积通道和第四卷积通道。

9、作为另一种优选方案,本专利技术所述第一卷积通道和第二卷积通道的卷积核尺寸分别为1*768和3*768。

10、作为另一种优选方案,本专利技术所述第三卷积通道和第四卷积通道使用双层卷积,并在层间加入batchnorm操作和relu激活函数;第三卷积通道第一层卷积核尺寸为1*768,第四本文档来自技高网...

【技术保护点】

1.基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于包括以下步骤:

2.根据权利要求1所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述多个卷积通道包括第一卷积通道、第二卷积通道、第三卷积通道和第四卷积通道。

3.根据权利要求2所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述第一卷积通道和第二卷积通道的卷积核尺寸分别为1*768和3*768。

4.根据权利要求2所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述第三卷积通道和第四卷积通道使用双层卷积,并在层间加入BatchNorm操作和ReLU激活函数;第三卷积通道第一层卷积核尺寸为1*768,第四卷积通道第一层卷积核尺寸为3*768;第三卷积通道第二层卷积核尺寸为1*1,第四卷积通道第二层卷积核尺寸为5*1。

5.根据权利要求2所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述第一卷积通道、第二卷积通道、第三卷积通道和第四卷积通道的卷积核数量均为256。

6.根据权利要求1所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述以词为单位的模型采用WoBERT模型。

7.根据权利要求1所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述专家模型采用TextCNN专家模型。

8.根据权利要求1所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述步骤三中将三个TextCNN专家模型视为一个专家组,专家组包括独有专家组和共享专家组,针对全领域数据设置一个共享专家组提取共享信息,将步骤二编码后得到一组词向量W谣言数据同时输入独有专家组和共享专家组;每个专家模型表示为Ei;i;其中,为专家模型的输入,i为专家模型中的待学习参数;每个专家模型提取的特征表示为公式:i=Ei;i。

9.根据权利要求8所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述一个专家组中的三个TextCNN专家模型相互之间是并列的关系,无优先级。

10.根据权利要求8所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于采用门控网络来聚合独有专家组和共享专家组提取的特征;门控网络结构基于单层前馈网络,以Softmax作为激活函数,计算专家模型提取特征的加权和作为输出;将领域信息d以及内容信息k同时作为门控网络的输入。

...

【技术特征摘要】

1.基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于包括以下步骤:

2.根据权利要求1所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述多个卷积通道包括第一卷积通道、第二卷积通道、第三卷积通道和第四卷积通道。

3.根据权利要求2所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述第一卷积通道和第二卷积通道的卷积核尺寸分别为1*768和3*768。

4.根据权利要求2所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述第三卷积通道和第四卷积通道使用双层卷积,并在层间加入batchnorm操作和relu激活函数;第三卷积通道第一层卷积核尺寸为1*768,第四卷积通道第一层卷积核尺寸为3*768;第三卷积通道第二层卷积核尺寸为1*1,第四卷积通道第二层卷积核尺寸为5*1。

5.根据权利要求2所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述第一卷积通道、第二卷积通道、第三卷积通道和第四卷积通道的卷积核数量均为256。

6.根据权利要求1所述基于领域信息和自定义门控网络的网络谣言实时检测方法,其特征在于所述以词为单位...

【专利技术属性】
技术研发人员:徐国天安全史嘉琦
申请(专利权)人:中国刑事警察学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1