一种基于RoBERTa模型的情感分析方法及装置制造方法及图纸

技术编号：34130027 阅读：28 留言：0更新日期：2022-07-14 15:11

本发明专利技术公开了一种基于RoBERTa模型的情感分析方法及装置，属于自然语言处理技术领域，包括获取文本情感分析数据集并进行预处理，得到训练集、验证集和测试集；提取训练集和验证集的评论文本，转换成无标签数据作为RoBERTa模型预训练任务的语料；构建RoBERTa

全部详细技术资料下载

【技术实现步骤摘要】
一种基于RoBERTa模型的情感分析方法及装置

[0001]本专利技术属于自然语言处理领域，尤其涉及一种基于RoBERTa模型的情感分析方法及装置。

技术介绍

[0002]随着互联网的推广，用户更加倾向于针对社交媒体或评论网站中公共事件发表意见，设计基于网络平台中文本评论的情感分析任务，有助于相关方面了解舆论倾向，掌握与舆论相关的社会事件所带来的影响。情感分析是自然语言处理中的重要分支，常见形式为基于文本的情感极性分类，属于监督学习任务，其目的是将来源于实际场景的评论作为输入，预测出他们的情感倾向。情感分析技术可以用于收集观点，作为反馈信息，具有促进服务社会的实际意义。
[0003]基于传统机器学习的情感分类方法如支持向量机、构建情感词典、朴素贝叶斯等，需要复杂的特征工程，且模型的精度表现依赖于样本质量。前馈神经网络模型通过加深隐藏层提升模型对于深层次抽象语义特征的理解能力，但是仍需要大量人工特征工程。卷积神经网络可以通过卷积窗口提取信息，并经过多层卷积处理映射成情感类别，循环神经网络可以将不定长度的文本序列映射成固定长度的词表征。中文网络文本情感分析数据具有情感倾向不强烈，包含有标签数据量少的特点。基于Transformer编码器的自注意力机制的双向编码器模型BERT和更具有鲁棒性的预训练模型RoBERTa，通过自监督预训练的域适应方式、大规模的参数量和训练强度使模型获得强大的特征提取能力和上下文理解能力，可以在使用此类数据集的情感分析任务取得优于传统深度学习模型的分类效果。...

【技术保护点】

【技术特征摘要】
1.一种基于RoBERTa模型的情感分析方法，其特征在于，包括：获取情感分析数据集并进行数据预处理，得到训练集、验证集和测试集；提取训练集和验证集的评论文本转换成无标签数据集；构建RoBERTa
‑
WWM
‑
ext模型，对无标签数据集中的评论文本进行随机掩码处理，得到掩码标志位，再通过对掩码标志位进行词预测的方式训练RoBERTa
‑
WWM
‑
ext模型，得到训练好的RoBERTa
‑
WWM
‑
ext模型；构建双向独立循环神经网络并训练，将完成掩码预测训练任务的RoBERTa
‑
WWM
‑
ext模型的最后一层隐藏层外接双向独立循环神经网络，得到最终的情感分析模型，其中，双向独立循环神经网络需要对双向独立循环神经网络输出的特征向量进行权重分配；通过最终的情感分析模型进行情感极性预测，将测试集中评论文本输入情感分析模型，输出情感类别标签。2.根据权利要求1所述的一种基于RoBERTa模型的情感分析方法，其特征在于，所述提取训练集和验证集的评论文本转换成无标签文本包括：将无标签数据集的格式转换成设定的表格形式。3.根据权利要求1所述的一种基于RoBERTa模型的情感分析方法，其特征在于，所述构建RoBERTa
‑
WWM
‑
ext模型，将无标签数据集中的评论文本进行随机掩码处理，得到掩码标志位，再通过对掩码标志位进行词预测的方式训练RoBERTa
‑
WWM
‑
ext模型，得到训练好的RoBERTa
‑
WWM
‑
ext模型包括：通过掩码预测的预训练过程，更新RoBERTa
‑
WWM
‑
ext模型的参数，为RoBERTa
‑
WWM
‑
ext模型做情感分析任务时获得更合理的初始化。4.根据权利要求1所述的一种基于RoBERTa模型的情感分析方法，其特征在于，所述构建双向独立循环神经网络并训练，将完成掩码预测训练任务的RoBERTa
‑
WWM
‑
ext模型的最后一层隐藏层外接双向独立循环神经网络，得到最终的情感分析模型，其中，双向独立循环神经网络需要对双向独立循环神经网络输出的特征向量进行权重分配包括：将样本序列编码为包含词向量、位置向量、段向量的输入序列，将其输入RoBERTa
‑
WWM
‑

【专利技术属性】
技术研发人员：侯培国，夏宇同，
申请(专利权)人：燕山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人