基于数据增强的情感分类模型及情感分类方法技术

技术编号:27879215 阅读:22 留言:0更新日期:2021-03-31 01:08
本发明专利技术公开一种基于数据增强的情感分类模型,该模型构建方法包括如下步骤:(1)获得原始数据集;(2)对原始数据集进行预处理和清洗;(3)对各文本进行否定处理;(4)将文本进行反转,形成对立文本;(5)标记原始文本和对应的对立文本的标签;(6)生成对立文本的数据集作为对立文本训练集;(7)采用分类器,从原始数据集和对立文本训练集两个方面训练分类器模型,获得情感分类模型。本发明专利技术利用数据增强技术得到对立文本训练集和对立文本测试集,并利用词嵌入将文本转换为词向量,从正反两个角度来对文本情感进行预测,增加了模型预测的鲁棒性,提高了模型预测的准确率,通过本发明专利技术提出的分类方法能够有效提高分类精度。

【技术实现步骤摘要】
基于数据增强的情感分类模型及情感分类方法
本专利技术属于数据处理
,具体是涉及一种对自然语言进行处理,以数据增强技术为支撑的情感分类方法。
技术介绍
现如今,随着各种社交媒体、商业网站的兴起与发展,人们越来越习惯于在各种平台发表自己对某事或者某物的看法,例如在twitter或者新浪微博等社交平台上面发表自己对股票、政治事件、娱乐花边新闻等的评论或者分享自己的日常生活,或者表达自己对从亚马逊、淘宝或其他购物网站上买的物品的使用感受。以twitter为例,推特是一家美国社交网络及微博客服务的公司,致力于服务公众对话。它可以让用户更新不超过140个字符的消息(除中文、日文和韩文外已提高上限至280个字符),这些消息也被称作“推文(Tweet)”,Twitter被形容为“互联网的短信服务”。Twitter在全世界都非常流行,Twitter发布的财报显示,截至2020年第三季度,Twitter的可货币化日活跃用户达1.87亿,因此每时每秒都有着新的推文产生。如此海量的信息数据蕴含着丰富的情感信息,人们通过发布推文来分享生活动态或者对某事/某物的观点(例如2020年初新冠肺炎盛行于全世界的时候,每天都有大量的相关动态或评论发布在Twitter上)。每分每秒都有着新的评论产生,如此海量的信息数据促使了情感分析的产生。情感分析是对说话者/作者对某一主题的观点、态度、情绪的计算分析,并从文本库中识别非琐碎的、主观的信息。决策者可以通过跟踪文本信息、进行情感分析来获取利益相关者的观点,以方便后续更好的发展。情感分析往往伴随着意见挖掘和文本挖掘,其框架主要包括以下子任务:获取文本数据、数据清理和预处理、将文本转换为机器可读向量、特征选择,最后应用自然语言处理和机器学习算法。情感分析是自然语言处理中的子任务,从2011年开始成为一个热点研究对象。机器学习方法的发展和大量数据的易获取使得情感分析方面的研究很多。目前国外学者对利用自然语言处理进行文本情感处理的研究已经积累了大量的英文预料和词典资源。但是目前情感分析的分析方法趋向于用时间和空间的复杂、低效来换取准确率。传统的文本建模方法,例如词袋模型通常只对词语的句法环境进行建模,一定程度上破坏了语法结构。为了解决这个问题,研究人员提出了词嵌入模型,该模型将单词表示成一个连续的、低维的重值向量。但是词嵌入模型有着一个固有的困难:极性转移。极性转移是指文本的情感在被分析时被逆转(消极的文本被判断为积极文本,积极的文本被判断为消极文本)。极性转移的主要诱因是文本中包含的否定项,否定项常出现于口语化文本中,而Twitter等社交平台产生的评论则是非常典型的口语化短文本,因此对其进行情感分析时对否定的处理以降低极性转移的可能性是必不可少的。但是目前大多数情感分析模型只是将否定项影响的范围简单的定义为否定项及其后的第一个标点符号之间的那些词,即否定项到子句结尾。这对否定的定义太过简单,忽略了语言的复杂性。此外,目前对推文进行情感分析的算法模型只关注实际获取到的原始文本,忽略了文本中隐含的深层次含义以及其包含的对立关系。因此,对推文等短文本进行情感分析的方法仍需要改进。。
技术实现思路
专利技术目的:本专利技术目的在于针对现有技术的不足,改进了否定处理的方法,结合语法分析并给出了新的否定范围假设,基于已获取到的原始数据集,通过数据增强的方法生成其对立数据集,提出了基于数据增强技术的情感分析模型。技术方案:本专利技术所述基于数据增强的情感分类模型,其模型构建方法包括如下步骤:(1)从社交平台中采集目标短文本数据集,获得原始数据集,分析短文本的特点,确定文本数据集各类型数据的数量;(2)对步骤(1)中获取到的原始数据集进行预处理和清洗;(3)对经过步骤(2)处理后的各文本进行否定处理,包括否定触发词检测和否定范围检测,将检测到的否定触发词进行标记替换,确认该否定触发项影响的范围,划定否定触发项涉及的距离;(4)将步骤(3)得到的文本进行反转,否定范围内的情感词不变,否定范围外的情感词根据情感词典里的反义词进行替换,并去掉否定触发项标记,形成对立文本;(5)标记原始文本和对应的对立文本的标签,原始文本为积极或消极标签,对立文本的标签标记为消极或积极标签;(6)生成对立文本的数据集作为对立文本训练集;(7)采用分类器,从原始数据集和步骤(6)得到的对立文本训练集两个方面训练分类器模型,获得情感分类模型。本专利技术进一步优选地技术方案为,步骤(2)中对原始数据集进行清洗包括过滤掉文本中包含的属性、邮箱、特殊字符和链接,去掉无用的停用词,忽略转发和用户修改过的文本,删除重复项。作为优选地,步骤(3)中对文本进行否定处理的具体步骤为:3a、使用基于规则的关键词匹配技术进行否定触发项检测;3b、将检测到的否定触发项替换为标记“Negation”;3c、结合连词分析技术和标点符合识别技术检测否定范围;3d、确认否定范围。优选地,在步骤(4)对文本进行反转前,还需对文本中存在的表情符号进行标记处理,将积极表情和消极表情分别使用标记EMO_POS和标记EMO_NEG进行替换。优选地,步骤(7)中采用支持向量机、逻辑回归和朴素贝叶斯分类器进行模型训练。本专利技术所述的情感分类方法,包括如下步骤:(1)构建上述的情感分类模型;(2)从社交平台中采集目标短文本数据集,获得原始测试集,分析短文本的特点,确定文本数据集各类型数据的数量;(3)对步骤(2)中获取到的原始测试集进行预处理和清洗;(4)对经过步骤(3)处理后的各文本进行否定处理,包括否定触发词检测和否定范围检测,将检测到的否定触发词进行标记替换,确认该否定触发项影响的范围,划定否定触发项涉及的距离;(5)将步骤(4)得到的文本进行反转,否定范围内的情感词不变,否定范围外的情感词根据情感词典里的反义词进行替换,并去掉否定触发项标记,形成对立文本;(6)标记原始文本和对应的对立文本的标签,原始文本为积极或消极标签,对立文本的标签标记为消极或积极标签;(7)生成对立文本的数据集作为对立文本测试集;(8)采用步骤(1)获得的情感分类模型对原始测试集合对立文本测试集中的数据进行情感分析,最终的预测结果取决于原始测试集和对立测试集的综合预测结果。有益效果:(1)本专利技术将文本分为积极文本和消极文本,原始数据集中每条消极文本通过检测否定触发项及其范围、反转情感词、反转极性标签等一系列操作可变为一条积极文本,反之亦然;由对比文本组成的数据集称为对比数据集,对比数据集的使用的技术称为数据增强技术;本专利技术利用数据增强技术得到对立文本训练集和对立文本测试集,并利用词嵌入将文本转换为词向量,在使用测试集对文本进行极性预测时,不仅考虑原始文本的积极程度(消极程度),还考虑对比文本的消极程度(积极程度),生成的对立文本数据集可以有效利用文本种蕴含的深层次情感信息,从正反两个角度来对文本情感进行预测,增加了模型本文档来自技高网
...

【技术保护点】
1.一种基于数据增强的情感分类模型,其特征在于,该模型构建方法包括如下步骤:/n(1)从社交平台中采集目标短文本数据集,获得原始数据集,分析短文本的特点,确定文本数据集各类型数据的数量;/n(2)对步骤(1)中获取到的原始数据集进行预处理和清洗;/n(3)对经过步骤(2)处理后的各文本进行否定处理,包括否定触发词检测和否定范围检测,将检测到的否定触发词进行标记替换,确认该否定触发项影响的范围,划定否定触发项涉及的距离;/n(4)将步骤(3)得到的文本进行反转,否定范围内的情感词不变,否定范围外的情感词根据情感词典里的反义词进行替换,并去掉否定触发项标记,形成对立文本;/n(5)标记原始文本和对应的对立文本的标签,原始文本为积极或消极标签,对立文本的标签标记为消极或积极标签;/n(6)生成对立文本的数据集作为对立文本训练集;/n(7)采用分类器,从原始数据集和步骤(6)得到的对立文本训练集两个方面训练分类器模型,获得情感分类模型。/n

【技术特征摘要】
1.一种基于数据增强的情感分类模型,其特征在于,该模型构建方法包括如下步骤:
(1)从社交平台中采集目标短文本数据集,获得原始数据集,分析短文本的特点,确定文本数据集各类型数据的数量;
(2)对步骤(1)中获取到的原始数据集进行预处理和清洗;
(3)对经过步骤(2)处理后的各文本进行否定处理,包括否定触发词检测和否定范围检测,将检测到的否定触发词进行标记替换,确认该否定触发项影响的范围,划定否定触发项涉及的距离;
(4)将步骤(3)得到的文本进行反转,否定范围内的情感词不变,否定范围外的情感词根据情感词典里的反义词进行替换,并去掉否定触发项标记,形成对立文本;
(5)标记原始文本和对应的对立文本的标签,原始文本为积极或消极标签,对立文本的标签标记为消极或积极标签;
(6)生成对立文本的数据集作为对立文本训练集;
(7)采用分类器,从原始数据集和步骤(6)得到的对立文本训练集两个方面训练分类器模型,获得情感分类模型。


2.根据权利要求1所述的基于数据增强的情感分类模型,其特征在于,步骤(2)中对原始数据集进行清洗包括过滤掉文本中包含的属性、邮箱、特殊字符和链接,去掉无用的停用词,忽略转发和用户修改过的文本,删除重复项。


3.根据权利要求1所述的基于数据增强的情感分类模型,其特征在于,步骤(3)中对文本进行否定处理的具体步骤为:
3a、使用基于规则的关键词匹配技术进行否定触发项检测;
3b、将检测到的否定触发项替换为标记“Negation”;
3c、结合连词分析技术和标点符合识别技...

【专利技术属性】
技术研发人员:李博涵王文幻王萌历傲然杨新民解文彬
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1