System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及深度学习和自然语言处理领域,具体涉及一种以目标为中心的半监督细粒度情感分析方法。
技术介绍
1、近年来,对于自动舆情获取的研究一直以来深受学术界的高度重视,其中,从海量文本中进行情感分析,从而获取人们感兴趣的舆情走势是大数据时代亟待解决的关键技术。细粒度情感分析是文本信息分类的重要组成部分,不同于粗粒度情感分析只能获取整个文本的情感倾向,细粒度情感分析能通过分析文本中对各个人物,事物的情感倾向,分析舆情走势。细粒度具有更实用的价值和落地的可能。
2、细粒度情感分析关注文本中的目标词,用于自动分析目标词的情感倾向。现有的细粒度情感分析方法,主要是基于神经网络的全监督方法,其中以基于循环神经网络的深度学习方法最为普遍。在基于深度学习的细粒度情感分析方法中,长短期记忆网络(lstm,long short-term memory)结合注意力机制的方法较为直观,并且已经取得了一定的精度,该方法使用lstm进行上下文特征提取,注意力机制用于实现对目标词相关的上下文的定位。然而,该类方法仍然存在着一些不足。例如在特征嵌入层,使用传统只能表述单独词义的词向量,不能很好的判定改词在具体语境中的语义,而将预训练的语言模型elmo用于特征表征,可以很好的丰富词语的上下文语义信息;没有考虑到全监督方法需要对所有训练数据都进行标注,效率低,成本高,而半监督方法可以充分利用无标签数据,实现与全监督方法相近的细粒度情感分析能力;对于目前的半监督训练方法,并没有对细粒度分析任务进行改造,使得目标词语义信息与位置信息不能得到充分地利用,
技术实现思路
1、本专利技术的目的是提供一种以目标为中心的半监督细粒度情感分析方法,以解决上述现有技术存在的问题。本专利技术具有效率高、精度高、无需人力以及适用面广的特点,且不受环境因素的影响。
2、本专利技术采用的技术方案为:
3、一种以目标为中心的半监督细粒度情感分析方法,包括以下步骤:
4、步骤1,基于带有情感标签的社交媒体文本数据构建数据集,并使用融合词向量、位置向量编码输入文本,丰富数据集中每个词的上下文语义信息;
5、步骤2,构建pwt编码器,对输入文本进行编码,获得含有位置关联信息的句子向量表示;构建门控分类器,实现细粒度情感分析,得到情感极性分数;构建双向pwt解码器,对句子向量表示和情感极性分数的混合表示进行解码;
6、步骤3,将pwt编码器、门控分类器、双向pwt解码器依次串联,pwt编码器的输出还传给双向pwt解码器,从而构建情感分析网络模型;使用带标签数据对情感分析网络模型进行半监督训练,得到训练好的模型;
7、步骤4,使用训练好的情感分析网络模型对无标签数据进行情感分数计算,输出情感分数。
8、进一步地,步骤1的具体方式为:
9、从社交媒体平台收集包含情感标签的文本数据,情感标签包括积极、消极和中立三种类别;
10、对收集到的文本数据进行清洗和预处理,去除噪声数据和无关信息;
11、使用预训练的词向量模型将每个词转换为相应的词向量,以捕捉词的语义信息,将词向量和位置向量进行融合;
12、采用elmo预训练语言模型与glove词向量,采用全连接层进行融合的方法,形成包含上下文语义信息的输入向量;
13、将数据集划分为多种训练集、验证集和测试集,用于模型训练和评估。
14、进一步地,步骤2中,所述pwt编码器包含双层transformer编码器;
15、所述门控分类器采用relu激活函数,门控分类器使用多层次注意力机制从全文、目标词前文和目标词后文分别对目标词进行注意力计算,得到注意力权重和各自特征表示,从而丰富词语的上下文语义信息;在得到加权上下文表示后,通过gtru门控机制对目标词无关的信息进行进一步过滤;
16、所述双向pwt解码器包括两个反向pwt结构,从目标词开始,对其上下文同时解码,从而使解码器持续关注目标词信息。
17、进一步地,步骤3中半监督训练的具体方式为:
18、首先使用带标签数据对门控分类器与双向pwt解码器进行训练,获取部分训练完成的门控分类器模型,然后使用该门控分类器对无标签数据进行情感分数计算,此时门控分类器模型参数固定,最后将生成的情感分数与pwt编码器生成的特征向量共同输入到双向pwt解码器中,优化整个编解码结构,以生成更好的特征向量,从而获得更准确的情感分数。
19、本专利技术具有如下有益效果:
20、1、本专利技术简单高效,易于实现,可提升训练速度和特征提取能力。
21、2、本专利技术解决了现有技术中所存在的无标签数据利用率低的问题。
22、3、本专利技术可以对大数据时代下的自动舆情获取进行研究,从海量文本中进行情感分析。
本文档来自技高网...【技术保护点】
1.一种以目标为中心的半监督细粒度情感分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种以目标为中心的半监督细粒度情感分析方法,其特征在于,步骤1的具体方式为:
3.根据权利要求1所述的一种以目标为中心的半监督细粒度情感分析方法,其特征在于,步骤2中,所述PWT编码器包含双层Transformer编码器;
4.根据权利要求1所述的一种以目标为中心的半监督细粒度情感分析方法,其特征在于,步骤3中半监督训练的具体方式为:
【技术特征摘要】
1.一种以目标为中心的半监督细粒度情感分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种以目标为中心的半监督细粒度情感分析方法,其特征在于,步骤1的具体方式为:
3.根据权利要求1所述的一种以目标...
【专利技术属性】
技术研发人员:柴兴华,胡子谅,杨建永,
申请(专利权)人:中国电子科技集团公司第五十四研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。