一种基于粒球计算的文本情感抽取方法、系统及电子设备技术方案

技术编号:37679372 阅读:26 留言:0更新日期:2023-05-26 04:46
本发明专利技术涉及计算机技术领域,公开了一种基于粒球计算的文本情感抽取方法、系统、及电子设备,包括如下步骤:S1、通过Bert模型提取输入文本的高级语义表征信息,并通过聚类的方式根据所述输入文本的高级语义表征信息对该输入文本进行簇的划分,将所述输入文本划分成若干粒球,并对若干所述粒球进行分类,从而抽取出输入文本的方面词和观点词;S2、根据所述方面词与观点词之间的距离,对每个方面词与观点词组成的词对进行位置嵌入到BLSTM模型中,经过所述BLSTM模型编码完成后,将来自方面词和观点词的隐藏状态连接起来,从而进行情感分类。本发明专利技术提出了一种基于粒球的计算方法来进行方面词与观点词的提取,解决了词语重叠的问题。题。题。

【技术实现步骤摘要】
一种基于粒球计算的文本情感抽取方法、系统及电子设备


[0001]本专利技术涉及计算机
,具体涉及一种基于粒球计算的文本情感抽取方法、系统、及电子设备。

技术介绍

[0002]近年来,随着自然语言技术的逐渐成熟和人工智能技术的迅速发展,每天各个社交平台的网络信息呈指数级增长,由于数据量过于庞大,而且内容复杂,通过人工的方式对这些信息进行筛选耗时耗力,因此要求计算机自动化进行网络质量管理、情感需求分析变得尤为重要。因此,在海量数据中挖掘出用户情感,分析用户个人倾向性,筛选出有质量的内容成为了大多数科研工作者研究的重要课题。
[0003]目前,情感分析是自然语言处理领域中的一个重要研究任务,它可以帮助平台或商家了解消费者或用户的情感需求和态度,从而对产品和售后服务进行改进优化,提高平台或商家的核心竞争力,同时,它也能帮助政府部门了解大众需求,从而把握舆论导向,制定相关政策。传统的情感分析方法主要是基于规则或者词典的方法,这种方法无法准确分析句子中的语义,并且对新领域、新词汇的适应性差、识别率较低,而通过方面情感三元组抽取,可以针对特定的方面词,从而挖掘出对应方面的观点词以及其所表达的情感极性,其任务可定义为(方面,观点,情感)。在现有的情感抽取方法中,大多数研究方法都只能挖掘浅层次语义信息,分类效果不好,而且针对跨度级别的词语抽取的效果较差;其次,现在大多数语句中都包含着多个方面或观点词,对于这种有着词语重叠的数据识别性能较差,在目前的技术方案中不能有效的提取这种重叠的元素。

技术实现思路

[0004]本专利技术提供一种基于粒球计算的文本情感抽取方法、系统、及电子设备,从而解决词语重叠的问题。
[0005]本专利技术通过下述技术方案实现:
[0006]一种基于粒球计算的文本情感抽取方法,包括如下步骤:
[0007]S1、通过Bert模型提取输入文本的高级语义表征信息,并通过聚类的方式根据所述输入文本的高级语义表征信息对该输入文本进行簇的划分,将所述输入文本划分成若干粒球,并对若干所述粒球进行分类,从而抽取出输入文本的方面词和观点词;
[0008]S2、根据所述方面词与观点词之间的距离,对每个方面词与观点词组成的词对进行位置嵌入到BLSTM模型中,经过所述BLSTM模型编码完成后,将来自方面词和观点词的隐藏状态连接起来,从而进行情感分类。
[0009]作为优化,在通过Bert模型提取输入文本之前,对所述输入文本中的所有词语根据词语标签进行序列标记,然后将做好标记的输入文本输入至Bert模型的输入层中,得到词向量,并将得到的词向量输入至所述Bert模型中。
[0010]作为优化,每个所述词语标签包括情感标签、方面标签或者观点标签或者无意义
标签中的其中一个。
[0011]作为优化,簇的划分具体为通过K

means聚类方法根据所述输入文本的情感标签对所述输入文本进行簇的划分得到若干粒球,每个所述粒球拥有观点标签或者方面标签或者无意义标签。
[0012]作为优化,在进行划分时, 比较每个粒球的纯度与预设好的纯度阈值的大小,若所述粒球的纯度不小于所述纯度阈值,则该粒球停止分裂, 否则,继续分裂,直到所有的粒球的纯度均不小于所述纯度阈值。
[0013]作为优化,对若干所述粒球进行分类的具体过程为:
[0014]A1、通过softmax函数用计算每个粒球中标记为方面标签的方面概率P
i(ap)
,然后用来计算出每个粒球中被标记为观点标签的观点概率P
i(op)
,所述方面概率和观点概率均称为标签概率,具体为:
[0015][0016][0017]其中,W
t(ap)
和为方面标签的权重和偏差,W
t(op)
、分别为观点标签的权重和偏差;
[0018]A2、根据粒球的标签概率判定该粒球为方面词或者观点词。
[0019]作为优化,S2的具体步骤为:
[0020]S2.1、筛选出属于方面词和观点词的粒球;
[0021]S2.2、将筛选后的属于方面词和观点词的所述粒球进行组合,形成方面

观点词对,并根据所述方面

观点词对在所述输入文本中的位置进行文本格式的设置,同时,根据非观点词和非方面词在所述输入文本中的位置设置与方面词和观点词相异的文本格式,使所述输入文本转化为特定的文本格式;
[0022]S2.3、将特定的文本格式的输入文本与该输入文本对应的词向量输入至所述BLSTM模型进行预测,得到方面

观点词对的情感标签,然后筛选出符合条件的方面

观点

情感三元组,从而完成情感分类,筛选出符合条件的属性

情感对,从而完成情感分类。
[0023]作为优化,所述方面词和观点词的文本格式设定为1,所述非观点词和非方面词的文本格式设定为0。
[0024]本专利技术还公开了一种基于粒球计算的文本情感抽取系统,包括:
[0025]抽取模块,用于通过Bert模型提取输入文本的高级语义表征信息,并通过聚类的方式根据所述输入文本的高级语义表征信息对该输入文本进行簇的划分,将所述输入文本划分成若干粒球,并对若干所述粒球进行分类,从而抽取出输入文本的方面词和观点词;
[0026]分类模块,用于根据所述方面词与观点词之间的距离,对每个方面词与观点词组成的词对进行位置嵌入到BLSTM模型中,经过所述BLSTM模型编码完成后,将来自方面词和观点词的隐藏状态连接起来,从而进行情感分类。
[0027]本专利技术还公开了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的一种基于粒
球计算的文本情感抽取方法。
[0028]本专利技术与现有技术相比,具有如下的优点和有益效果:
[0029]本专利技术提出了一种基于粒球的计算方法来进行方面词与观点词的提取,从而解决词语重叠的问题,同时,通过粒球计算可以提升分类性能和准确率,最终提升情感分类的准确率。
附图说明
[0030]为了更清楚地说明本专利技术示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
[0031]图1为本专利技术所述的一种基于粒球计算的文本情感抽取系统的模型图;
[0032]图2为通过粒球计算抽取方面词和观点词的示例图。
具体实施方式
[0033]为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于粒球计算的文本情感抽取方法,其特征在于,包括如下步骤:S1、通过Bert模型提取输入文本的高级语义表征信息,并通过聚类的方式根据所述输入文本的高级语义表征信息对该输入文本进行簇的划分,将所述输入文本划分成若干粒球,并对若干所述粒球进行分类,从而抽取出输入文本的方面词和观点词;S2、根据所述方面词与观点词之间的距离,对每个方面词与观点词组成的词对进行位置嵌入到BLSTM模型中,经过所述BLSTM模型编码完成后,将来自方面词和观点词的隐藏状态连接起来,从而进行情感分类。2.根据权利要求1所述的一种基于粒球计算的文本情感抽取方法,其特征在于,在通过Bert模型提取输入文本之前,对所述输入文本中的所有词语根据词语标签进行序列标记,然后将做好标记的输入文本输入至Bert模型的输入层中,得到词向量,并将得到的词向量输入至所述Bert模型中。3.根据权利要求2所述的一种基于粒球计算的文本情感抽取方法,其特征在于,每个所述词语标签包括情感标签、方面标签或者观点标签或者无意义标签中的其中一个。4.根据权利要求3所述的一种基于粒球计算的文本情感抽取方法,其特征在于,簇的划分具体为通过K

means聚类方法根据所述输入文本的的词语标签对所述输入文本进行簇的划分得到若干粒球,每个所述粒球拥有观点标签或者方面标签或者无意义标签。5.根据权利要求4所述的一种基于粒球计算的文本情感抽取方法,其特征在于,在进行划分时,比较每个粒球的纯度与预设好的纯度阈值的大小,若所述粒球的纯度不小于所述纯度阈值,则该粒球停止分裂,否则,继续分裂,直到所有的粒球的纯度均不小于所述纯度阈值。6.根据权利要求1所述的一种基于粒球计算的文本情感抽取方法,其特征在于,对若干所述粒球进行分类的具体过程为:A1、通过softmax函数用计算每个粒球中标记为方面标签的方面概率P
i(ap)
,然后用来计算出每个粒球中被标记为观点标签的观点概率P
i(op)
,所述方面概率和观点概率均称为标签概率,具体为:称为标签概率,具体为:其中,W
t(ap)
和为方面标签的权重和偏差,W

【专利技术属性】
技术研发人员:陈子忠陈涛夏书银王国胤
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1