俄语文本情感分析方法、电子设备和存储介质技术

技术编号:24685359 阅读:23 留言:0更新日期:2020-06-27 08:29
本发明专利技术实施例提供一种俄语文本情感分析方法、电子设备和存储介质,其中方法包括:获取待分析的俄语文本;将俄语文本输入至情感分析模型,得到情感分析模型输出的情感分析结果;其中,情感分析模型用于对俄语文本中每一单词的词级特征进行局部特征提取,得到每一单词的上下文特征,对每一单词的上下文特征进行基于自注意力机制的序列特征提取,得到俄语文本的注意力序列特征,基于俄语文本的句级特征与注意力序列特征进行情感分析;词级特征和句级特征是基于俄语文本表示规则提取的。本发明专利技术实施例提供的方法、电子设备和存储介质,将局部特征与序列特征的优势相结合,从而提高俄语文本情感分析的准确性和可靠性。

Russian text emotion analysis method, electronic equipment and storage medium

【技术实现步骤摘要】
俄语文本情感分析方法、电子设备和存储介质
本专利技术涉及自然语言处理
,尤其涉及一种俄语文本情感分析方法、电子设备和存储介质。
技术介绍
随着互联网技术在全球迅猛发展,网络社交媒体已然成为网民获取各种信息的主要来源,并且为网民交流观点、讨论时事、表达日常生活中各类积极或消极的情绪提供了一个便捷的平台。大量网络社交短文本的生成,使得研究人员可以利用数据挖掘技术,在商业上分析用户对某个产品或某项服务的满意程度,或者预测市场趋势,或在政治上识别民意趋势,文本情感分析技术应运而生。目前,大多数文本情感分析工具都是专门针对英语的特点进行设计和实现的。在进行俄语文本情感分析时,通常需要通过翻译引擎将俄文转译为英文,然后再进行情感分析。然而,由于在翻译时难免造成情感乃至语义的损失,在情感分析时又忽略了俄文本身的语言特性,上述情感分析方法并不可靠。
技术实现思路
本专利技术实施例提供一种俄语文本情感分析方法、电子设备和存储介质,用以解决现有的俄语文本情感分析方法可靠性和准确性低的问题。第一方面,本专利技术实施例提供一种俄语文本情感分析方法,包括:获取待分析的俄语文本;将所述俄语文本输入至情感分析模型,得到所述情感分析模型输出的情感分析结果;其中,所述情感分析模型用于对所述俄语文本中每一单词的词级特征进行局部特征提取,得到每一单词的上下文特征,对每一单词的上下文特征进行基于自注意力机制的序列特征提取,得到所述俄语文本的注意力序列特征,基于所述俄语文本的句级特征与所述注意力序列特征进行情感分析;所述词级特征和所述句级特征是基于俄语文本表示规则提取的。第二方面,本专利技术实施例提供一种俄语文本情感分析装置,包括:文本获取单元,用于获取待分析的俄语文本;情感分析单元,用于将所述俄语文本输入至情感分析模型,得到所述情感分析模型输出的情感分析结果;其中,所述情感分析模型用于对所述俄语文本中每一单词的词级特征进行局部特征提取,得到每一单词的上下文特征,对每一单词的上下文特征进行基于自注意力机制的序列特征提取,得到所述俄语文本的注意力序列特征,基于所述俄语文本的句级特征与所述注意力序列特征进行情感分析;所述词级特征和所述句级特征是基于俄语文本表示规则提取的。第三方面,本专利技术实施例提供一种电子设备,包括处理器、通信接口、存储器和总线,其中,处理器,通信接口,存储器通过总线完成相互间的通信,处理器可以调用存储器中的逻辑命令,以执行如第一方面所提供的方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。本专利技术实施例提供的一种俄语文本情感分析方法、电子设备和存储介质,基于俄语文本表示规则提取的词级特征和句级特征,从而克服了俄语文本自身的特殊性影响特征提取准确性的问题,基于卷积神经网络对文本的词级情感特征进行局部特征提取,基于循环神经网络和自注意力机制进行序列特征提取,从而将局部特征与序列特征的优势相结合,最终针对句级情感特征与注意力序列特征进行情感分析,进而提高俄语文本情感分析的准确性和可靠性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的俄语文本情感分析方法的流程示意图;图2为本专利技术实施例提供的情感分析模型的结构示意图;图3为本专利技术实施例提供的局部特征提取层的结构示意图;图4为本专利技术实施例提供的注意力层的结构示意图;图5为本专利技术实施例提供的情感分类层的结构示意图;图6为本专利技术实施例提供的俄语文本情感分析装置的结构示意图;图7为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。情感分析(SentimentAnalysis,SA)又称情感倾向性分析,是传统的自然语言处理任务,可视为对作者所表达的态度为分类标准的文本分类问题,旨在识别非结构化文本中的主观性观点。目前,俄语文本情感的正负倾向性分为“消极”、“中性”和“积极”三种类别,常见方法有两类,即基于词典和规则的方法和机器学习的方法。基于词典的方法主要将标记的Token(单词、短语等)与已知情感极性的词汇表进行匹配,从而对其情感进行分类。基于情感词典的分类方法虽然体现了文本的非结构化特征,但是该方法比较依赖领域、时代或语言等方面的背景知识,词典与文本的匹配效果对分类的准确性影响较大,面对网络媒体中层出不穷的新词和俄语中变化多样的形态显得有些力不从心。基于规则集的方法主要是通过语言专家针对某种语言在某领域的文本特征,汇总并制定基于单词、短语或句子之间关系的规则集合,从而进行分类。然而,基于规则集的方法虽然可以快速获得分类结果,但严重依赖语言或领域专家的能力与个人经验。当数据量较大时,分类器的规则集合维护和扩展的成本较高;面对跨领域问题时,很难制定出同时适合不同领域的规则。基于机器学习的方法,可以通过训练模型,使之能够从文本中提取有价值的情感特征。其中,特征选取是否合适是影响机器学习分类效果的一个主要因素,然而传统的机器学习算法面对“特征稀疏、内容简短、形态复杂”的俄语社交网络短文本时,很难挑选出最适合的情感特征。为了弥补上述各方法的缺陷,本专利技术实施例提供一种俄语文本情感分析方法。图1为本专利技术实施例提供的俄语文本情感分析方法,如图1所示,该方法包括:步骤110,获取待分析的俄语文本。具体地,待分析的俄语文本即需要进行情感分析的俄语文本,此处的俄语文本可以是通过各社交媒体平台得到的文本,例如Twitter、微博、Instagram等,也可以是通过各购物网站上用户评论得到的文本,例如:AliExpress,本专利技术实施例对此不作具体限定。步骤120,将俄语文本输入至情感分析模型,得到情感分析模型输出的情感分析结果;其中,情感分析模型用于对俄语文本中每一单词的词级特征进行局部特征提取,得到每一单词的上下文特征,对每一单词的上下文特征进行基于自注意力机制的序列特征提取,得到俄语文本的注意力序列特征,基于俄语文本的句级特征与所述注意力序列特征进行情感分析;词级特征和句级特征是基于俄语文本表示规则提取的。具体地,情感分析模型用于对输入的俄语文本进行情感分析,并输出俄语文本的情感分析结果,此处情感分析结果表示俄语文本情感的正负倾向性。俄本文档来自技高网...

【技术保护点】
1.一种俄语文本情感分析方法,其特征在于,包括:/n获取待分析的俄语文本;/n将所述俄语文本输入至情感分析模型,得到所述情感分析模型输出的情感分析结果;/n其中,所述情感分析模型用于对所述俄语文本中每一单词的词级特征进行局部特征提取,得到每一单词的上下文特征,对每一单词的上下文特征进行基于自注意力机制的序列特征提取,得到所述俄语文本的注意力序列特征,基于所述俄语文本的句级特征与所述注意力序列特征进行情感分析;所述词级特征和所述句级特征是基于俄语文本表示规则提取的。/n

【技术特征摘要】
1.一种俄语文本情感分析方法,其特征在于,包括:
获取待分析的俄语文本;
将所述俄语文本输入至情感分析模型,得到所述情感分析模型输出的情感分析结果;
其中,所述情感分析模型用于对所述俄语文本中每一单词的词级特征进行局部特征提取,得到每一单词的上下文特征,对每一单词的上下文特征进行基于自注意力机制的序列特征提取,得到所述俄语文本的注意力序列特征,基于所述俄语文本的句级特征与所述注意力序列特征进行情感分析;所述词级特征和所述句级特征是基于俄语文本表示规则提取的。


2.根据权利要求1所述的俄语文本情感分析方法,其特征在于,所述情感分析模型包括词级特征编码层、局部特征提取层、注意力层、序列特征提取层、句级特征编码层和情感分类层。


3.根据权利要求2所述的俄语文本情感分析方法,其特征在于,所述将所述俄语文本输入至情感分析模型,得到所述情感分析模型输出的情感分析结果,具体包括:
将所述俄语文本输入至所述词级特征编码层,得到所述词级特征编码层输出的每一单词的词级特征;
将每一单词的词级特征输入至所述局部特征提取层,得到所述局部特征提取层输出的每一单词的上下文特征;
将每一单词的上下文特征输入至所述注意力层,得到所述注意力层输出的每一单词的注意力权重;
将每一单词的上下文特征和注意力权重输入至所述序列特征提取层,得到所述序列特征提取层输出的注意力序列特征;
将所述俄语文本输入至所述句级特征编码层,得到所述句级特征编码层输出的句级特征;
将所述注意力序列特征和所述句级特征输入至所述情感分类层,得到所述情感分类层输出的情感分析结果。


4.根据权利要求3所述的俄语文本情感分析方法,其特征在于,所述将每一单词的上下文特征输入至所述注意力层,得到所述注意力层输出的每一单词的注意力权重,具体包括:
将每一单词的上下文特征输入至所述注意力层的第一双向长短时记忆网络,得到所述第一双向长短时记忆网络输出的每一单词...

【专利技术属性】
技术研发人员:刘鑫徐琳宏祁瑞华邵林陈恒
申请(专利权)人:大连外国语大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1