System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能和自然语言处理领域,同时涉及气候科学和数据分析,具体是一种基于混合注意力和标签扩散的评论气候变化立场检测方法。
技术介绍
1、气候变化是21世纪最严峻的挑战之一,世界经济论坛在2023年报告中指出,持续的气候变化对全球经济、社会生活和自然环境产生广泛的负面影响,呼吁各国采取更加迅速和有力的行动来应对这一全球性挑战。尽管针对气候变化的强度和影响可以采取多种缓解措施,但实际的践行与大众的生活息息相关,这些措施能否纳入公共政策,依赖于公众对气候变化的态度。在此背景下,社交媒体平台作为研究媒介,不仅是公众表达意见和分享信息的重要渠道,还提供了大量的实时数据,反映了社会对气候变化的态度和情感,为了更好的制定气候变化应对策略,理解公众对于气候变化的舆论情绪有着绝对的重要性。
2、目前,情感分析技术常被用于探索社交媒体平台中公众关于气候变化或相关事件的态度以及信息提取。基于情感分析,用户被分为三个阵营,信徒(积极)、否认者(消极)、中立。ray等人[1]通过对两个神经网络cnn和rnn进行比较找到情绪目标,从而了解媒体用户关于气候变化的态度倾向,但其研究主要依托于情绪极性作为最终态度分类的依据,并未实现细颗粒度分类,进一步探索用户对于气候变化的真实立场;koenecke等人[2]对于twitter用户的气候变化立场检测,提出一种补偿方法扩充有限的人工立场标记数据,并探讨了大众对于气候变化的立场是否会随着自然灾害的发生改变,此方法虽然实现了用户气候变化立场分析,但文本的特征提取以及预测标签的决策因素并未得到加强
3、情绪极性在媒体用户关于气候变化的态度研究中有一定的辅助作用,却无法代表真实的用户立场。细颗粒度立场检测数据集的创建与扩展是探究媒体用户气候变化立场检测的主要限制之一。除此之外,媒体平台有关气候变化的相关讨论具有丰富的表达,涵盖企业报告、新闻报道、大众生活等多个方面,如何加强文本特征信息是需要考虑的问题。
技术实现思路
1、本专利技术的目的是针对现有技术的不足,而提供一种基于混合注意力和标签扩散的评论气候变化立场检测方法。这种方法能通过标签扩散技术以及混合注意力层解决气候变化领域细颗粒度立场检测数据集短缺以及信息特征加强提取的问题,对公众关于气候变化的舆论情绪进一步的理解,从而更好的制定和推广气候变化应对策略。
2、实现本专利技术目的的技术方案是:
3、基于混合注意力和标签扩散的评论气候变化立场检测方法,包括如下步骤:
4、1)气候变化极端天气事件子数据集创建:对于reddit平台现有的气候变化相关评论数据集,进行数据预处理,利用不同关键词对飓风、洪水、野火、干旱、寒/热浪这五个极端天气事件分别创建极端天气事件子数据集;
5、2)标签标记词库生成:对步骤1)创建的每一个极端天气事件子数据集中的每条评论文本生成文本—主题向量,对五个极端天气事件子数据集总结主题,将总结主题分类为气候变化信徒和否认者立场主题,并收集相同立场主题高频词作为信徒、否认者标签标记库;
6、3)标签扩散:自reddit平台现有的气候变化相关评论数据集中随机选取63000条气候变化相关的评论文本,数据预处理后经由步骤2)生成的标签标记库对各评论文本进行标记,以构建气候变化立场检测数据集;
7、4)搭建气候变化立场检测模型:立场检测模型由嵌入层、信息处理层、混合注意力层以及输出层构成,将步骤3)中构建的气候变化立场检测数据集中的评论文本按照比例划分为训练集、验证集和测试集作为立场检测模型的输入,用训练集和验证集中的评论文本对立场检测模型进行训练,并采用训练后的立场检测模型来获得测试集中评论文本最终气候变化立场检测结果;
8、5)媒体用户气候变化立场结果分析:对测试集中各评论文本经步骤4)生成的气候变化立场预测结果,进行决策权重可视化,同时将立场预测结果与对应文本经情感字典标注的情绪极性进行比较,通过比较结果来查看细颗粒度立场检测效果。
9、所述步骤2)中生成文本-主题向量具体为:
10、2.1)采用tf-idf算法计算每一个极端天气事件子数据集中的每条评论文本的词语权重,该词语权重作为lda模型的输入为每条评论文本生成文本-主题向量,并采用pyldavis可视化不同主题数量的建模效果,选择各极端天气事件子数据集的最佳主题数量。
11、所述步骤4)中嵌入层、信息处理层、混合注意力层具体为:
12、4.1)采用bert模型作为嵌入层模型,以获得评论文本的语义向量;采用bilstm模型作为信息处理层的模型,进一步整合评论文本的整体信息,生成新的文本表征向量;
13、4.2)在混合注意力层,对文本的表征向量进行线性变换处理,通过结合自注意力以及标签注意力的混合注意力机制,对训练过程中捕捉到的文本特征进行加强,并计算与预测标签相关的文本信息,以了解预测标签的决策因素。
14、所述步骤5)具体为:
15、5.1)利用混合注意层的注意力权重矩阵对评论文本进行决策权重可视化,可视化结果中文本单词颜色越深,其对最终决策标签的影响越大;
16、5.2)利用vader字典对评论文本进行情绪极性标注。
17、本技术方案的有益效果:
18、本技术方案充分利用了评论文本的词语权重、语义和主题信息,基于气候变化相关极端天气事件评论数据搭建标签标记词库,利用标签扩散技术构建气候变化立场检测数据集,同时基于混合注意力机制构建气候变化立场检测模型,实现气候变化相关评论的立场检测,帮助识别信徒、否认者和中立立场媒体用户,并提供立场决策的可视化说明因素。
19、本技术方案具有如下优点:
20、(1)本技术方案提出了一种气候变化立场检测数据集,对气候变化相关包括干旱、洪水、飓风等在内的五个极端天气事件相关数据进行主题建模,并总结分类,构建气候变化立场检测标签标记词库,通过标签扩散技术实现了气候变化立场检测数据集的构建,相较于成本高昂的传统手工标注或受情感词限制的情感字典标注,进一步提高工作效率,满足了气候变化相关公众舆论情绪领域的细颗粒度分类,并解决了规模限制问题,弥补了气候变化立场检测方面数据短缺的缺陷。
21、(2)本技术方案提出了一种气候变化立场检测模型,面对媒体用户评论的丰富表达,利用混合注意力机制与深度学习算法相结合加强文本信息特征并捕捉立场标签强相关文本信息特征,在评论文本情感分析的基础上进一步分类,进行气候变化立场检测,探究媒体用户气候变化相关的真实态度。
22、(3)本技术方案基于混合注意力机制中的注意力权重矩阵,对媒体文本的立场决策因素进行可解释化,相比传统气候变化情感分析模型提供了更多扩展可能性,有利于下游任务的结合和公众情绪的进一步分析。
23、这种方法通过标签扩散技术以及混合注意力层解决了气候变化领域细颗粒度立场检测本文档来自技高网...
【技术保护点】
1.基于混合注意力和标签扩散的评论气候变化立场检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于混合注意力和标签扩散的评论气候变化立场检测方法,其特征在于,所述步骤2)中生成文本—主题向量具体为:
3.根据权利要求1所述的基于混合注意力和标签扩散的评论气候变化立场检测方法,其特征在于,所述步骤4)中嵌入层、信息处理层、混合注意力层具体为:
4.根据权利要求1所述的基于混合注意力和标签扩散的评论气候变化立场检测方法,其特征在于,所述步骤5)具体为:
【技术特征摘要】
1.基于混合注意力和标签扩散的评论气候变化立场检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于混合注意力和标签扩散的评论气候变化立场检测方法,其特征在于,所述步骤2)中生成文本—主题向量具体为:
3.根据权利要...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。