System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机自然语言处理领域,涉及一种基于无监督词重构的评论主题识别方法、系统、设备及存储介质。
技术介绍
1、方面级情感分析技术是自然语言处理领域的挑战性研究课题。多数深度学习方法的性能依赖于大规模人工标注数据集,但标注大量的高质量数据集是一项耗时费力的工作,因此有标注数据集的缺乏已成为制约深度情感分类算法的瓶颈问题。幸运的是,不同网络平台用户生成了大量带标签的舆情文本(如带评分的商品评论和电影评论,带表情符号的推特评论等),这些文本可以作为弱标注数据集被用于情感分类任务。然而,弱标注数据中存在着标签与文本实际情感语义不一致的噪声数据,会对训练过程产生严重的负面影响,因此无法直接当作强标注数据用于训练深度模型。此外,多数弱标注评论文本没有清晰地指明所描述的方面词,缺乏方面信息指导的模型无法有效学习到评论文本的细粒度情感特征。
技术实现思路
1、本专利技术的目的在于克服上述现有技术的缺点,提供一种基于无监督词重构的评论主题识别方法、系统、设备及存储介质,能够精准识别无标注输入文本中的主题词。
2、为达到上述目的,本专利技术采用以下技术方案予以实现:
3、一种基于无监督词重构的评论主题识别方法,包括以下过程:
4、s1,获取训练文本数据,将训练文本数据编码后得到向量矩阵;
5、s2,将向量矩阵通过注意力加权运算得到训练文本数据的文本特征;
6、s3,对文本特征进行降维计算后进行重构,得到主题词向量的线性组合;
...【技术保护点】
1.一种基于无监督词重构的评论主题识别方法,其特征在于,包括以下过程:
2.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,S1中,训练文本数据以单文本序列进行编码。
3.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,S1中,采用BERT编码器进行编码。
4.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,向量矩阵中包括每个单词的词特征表示,在S2中,对所有词特征表示求和后再求平均得到全局上下文向量,获取每个单词分配的注意力权重,对各个词特征表示进行加权运算得到文本特征。
5.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,S3中,重构过程为:
6.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,S3中,采用优化目标函数对重构过程进行训练,目标为将经过注意力加权运算后得到的文本特征重构为融合了主题词信息的特征表示。
7.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,优化目标函数为:
>8.一种基于无监督词重构的评论主题识别系统,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述基于无监督词重构的评论主题识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述基于无监督词重构的评论主题识别方法的步骤。
...【技术特征摘要】
1.一种基于无监督词重构的评论主题识别方法,其特征在于,包括以下过程:
2.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,s1中,训练文本数据以单文本序列进行编码。
3.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,s1中,采用bert编码器进行编码。
4.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,向量矩阵中包括每个单词的词特征表示,在s2中,对所有词特征表示求和后再求平均得到全局上下文向量,获取每个单词分配的注意力权重,对各个词特征表示进行加权运算得到文本特征。
5.根据权利要求1所述的基于无监督词重构的评论主题识别方法,其特征在于,s3中,重构过程为:
6.根据权利要求1所述的基于无监督词重构的评论主题...
【专利技术属性】
技术研发人员:陈龙,卢绍帅,熊立伟,黄晓华,关烁宇,王文静,杜怡,徐偲,管子玉,赵伟,
申请(专利权)人:西安邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。