基于数据增强的情感分类模型及情感分类方法技术

技术编号：27879215 阅读：22 留言：0更新日期：2021-03-31 01:08

本发明专利技术公开一种基于数据增强的情感分类模型，该模型构建方法包括如下步骤：(1)获得原始数据集；(2)对原始数据集进行预处理和清洗；(3)对各文本进行否定处理；(4)将文本进行反转，形成对立文本；(5)标记原始文本和对应的对立文本的标签；(6)生成对立文本的数据集作为对立文本训练集；(7)采用分类器，从原始数据集和对立文本训练集两个方面训练分类器模型，获得情感分类模型。本发明专利技术利用数据增强技术得到对立文本训练集和对立文本测试集，并利用词嵌入将文本转换为词向量，从正反两个角度来对文本情感进行预测，增加了模型预测的鲁棒性，提高了模型预测的准确率，通过本发明专利技术提出的分类方法能够有效提高分类精度。

全部详细技术资料下载

【技术实现步骤摘要】
基于数据增强的情感分类模型及情感分类方法
本专利技术属于数据处理
，具体是涉及一种对自然语言进行处理，以数据增强技术为支撑的情感分类方法。
技术介绍
现如今，随着各种社交媒体、商业网站的兴起与发展，人们越来越习惯于在各种平台发表自己对某事或者某物的看法，例如在twitter或者新浪微博等社交平台上面发表自己对股票、政治事件、娱乐花边新闻等的评论或者分享自己的日常生活，或者表达自己对从亚马逊、淘宝或其他购物网站上买的物品的使用感受。以twitter为例，推特是一家美国社交网络及微博客服务的公司，致力于服务公众对话。它可以让用户更新不超过140个字符的消息(除中文、日文和韩文外已提高上限至280个字符)，这些消息也被称作“推文(Tweet)”，Twitter被形容为“互联网的短信服务”。Twitter在全世界都非常流行，Twitter发布的财报显示，截至2020年第三季度，Twitter的可货币化日活跃用户达1.87亿，因此每时每秒都有着新的推文产生。如此海量的信息数据蕴含着丰富的情感信息，人们通过发布推文来分享生活动态或者对某事/某物的观点(例如2020年初新冠肺炎盛行于全世界的时候，每天都有大量的相关动态或评论发布在Twitter上)。每分每秒都有着新的评论产生，如此海量的信息数据促使了情感分析的产生。情感分析是对说话者/作者对某一主题的观点、态度、情绪的计算分析，并从文本库中识别非琐碎的、主观的信息。决策者可以通过跟踪文本信息、进行情感分析来获取利益相关者的观点，以方便后续更好的发展。情感分析...

【技术保护点】
1.一种基于数据增强的情感分类模型，其特征在于，该模型构建方法包括如下步骤：/n(1)从社交平台中采集目标短文本数据集，获得原始数据集，分析短文本的特点，确定文本数据集各类型数据的数量；/n(2)对步骤(1)中获取到的原始数据集进行预处理和清洗；/n(3)对经过步骤(2)处理后的各文本进行否定处理，包括否定触发词检测和否定范围检测，将检测到的否定触发词进行标记替换，确认该否定触发项影响的范围，划定否定触发项涉及的距离；/n(4)将步骤(3)得到的文本进行反转，否定范围内的情感词不变，否定范围外的情感词根据情感词典里的反义词进行替换，并去掉否定触发项标记，形成对立文本；/n(5)标记原始文本和对应的对立文本的标签，原始文本为积极或消极标签，对立文本的标签标记为消极或积极标签；/n(6)生成对立文本的数据集作为对立文本训练集；/n(7)采用分类器，从原始数据集和步骤(6)得到的对立文本训练集两个方面训练分类器模型，获得情感分类模型。/n

【技术特征摘要】
1.一种基于数据增强的情感分类模型，其特征在于，该模型构建方法包括如下步骤：
(1)从社交平台中采集目标短文本数据集，获得原始数据集，分析短文本的特点，确定文本数据集各类型数据的数量；
(2)对步骤(1)中获取到的原始数据集进行预处理和清洗；
(3)对经过步骤(2)处理后的各文本进行否定处理，包括否定触发词检测和否定范围检测，将检测到的否定触发词进行标记替换，确认该否定触发项影响的范围，划定否定触发项涉及的距离；
(4)将步骤(3)得到的文本进行反转，否定范围内的情感词不变，否定范围外的情感词根据情感词典里的反义词进行替换，并去掉否定触发项标记，形成对立文本；
(5)标记原始文本和对应的对立文本的标签，原始文本为积极或消极标签，对立文本的标签标记为消极或积极标签；
(6)生成对立文本的数据集作为对立文本训练集；
(7)采用分类器，从原始数据集和步骤(6)得到的对立文本训练集两个方面训练分类器模型，获得情感分类模型。

2.根据权利要求1所述的基于数据增强的情感分类模型，其特征在于，步骤(2)中对原始数据集进行清洗包括过滤掉文本中包含的属性、邮箱、特殊字符和链接，去掉无用的停用词，忽略转发和用户修改过的文本，删除重复项。

3.根据权利要求1所述的基于数据增强的情感分类模型，其特征在于，步骤(3)中对文本进行否定处理的具体步骤为：
3a、使用基于规则的关键词匹配技术进行否定触发项检测；
3b、将检测到的否定触发项替换为标记“Negation”；
3c、结合连词分析技术和标点符合识别技...

【专利技术属性】
技术研发人员：李博涵，王文幻，王萌，历傲然，杨新民，解文彬，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人