【技术实现步骤摘要】
样本生成、模型训练、文本分析方法和装置及存储介质
[0001]本公开涉及人工智能
,特别是一种样本生成、模型训练、文本分析方法和装置及存储介质。
技术介绍
[0002]细粒度情感分析是人工智能、自然语言处理领域的一个经典任务。一个给定的评论,如“我很喜欢这家餐厅的食物”,旨在令机器能够理解并能准确的判断这个评论对于“食物”(评论对象被称为方面aspect,对应的词语后续称为方面词)的情感极性是积极的。随着机器学习和深度学习技术的广泛应用,细粒度情感分析任务的表现也大大提高。
[0003]相关技术中对于细粒度情感分析任务的研究中,通过探索和改进深度学习模型,以更好的融合文本信息和句子信息。这些基于模型的方法基本可以被分为两类:
[0004](1)基于图的方法。将文本解析为语义关系依存树的形式,并利用图卷积神经网络在依存树上进行编码;
[0005](2)基于注意力的方法。利用注意力机制,将文本的向量表示和方面词的向量表示进行整合。
技术实现思路
[0006]本公开的一个目的在于提高模型情感分析的准确度。
[0007]根据本公开的一些实施例的一个方面,提出一种样本生成方法,包括:根据初始样本数据获取增强文本,其中,增强文本的方面词和极性中的至少一种与初始文本不同,初始样本数据包括初始文本,初始方面词和初始极性;根据初始文本和增强文本获取拼接文本;根据拼接文本、初始方面词和初始极性生成增强样本数据,其中,增强样本数据用于训练机器学习模型,训练后的模型用于确定文本的极性。< ...
【技术保护点】
【技术特征摘要】
1.一种样本生成方法,包括:根据初始样本数据获取增强文本,其中,所述增强文本的方面词和极性中的至少一种与所述初始文本不同,所述初始样本数据包括初始文本,初始方面词和初始极性;根据所述初始文本和所述增强文本获取拼接文本;根据所述拼接文本、所述初始方面词和所述初始极性生成增强样本数据,其中,所述增强样本数据用于训练机器学习模型,训练后的所述模型用于确定文本的极性。2.根据权利要求1所述的方法,其中,所述根据初始样本数据中的初始文本,获取增强文本包括:根据所述初始文本获取第一方面词增强文本,其中,所述第一方面词增强文本的方面词与所述初始方面词不同;根据所述初始文本获取第一极性增强文本,其中,所述第一极性增强文本的极性与所述初始极性不同。3.根据权利要求2所述的方法,其中,所述根据初始样本数据中的初始文本,获取增强文本还包括以下至少一项:根据所述第一方面词增强文本获取第二极性增强文本,其中,所述第二极性增强文本的极性与所述第一方面词增强文本的极性不同;或根据所述第一极性增强文本获取第二方面词增强文本,其中,所述第二方面词增强文本的方面词与所述第一极性增强文本的方面词不同。4.根据权利要求1所述的方法,还包括:基于预训练的编码
‑
解码模型,增加待训练的参数,获取文本生成模型;根据所述初始样本数据微调所述文本生成模型,获取增强文本生成器;所述根据初始样本数据获取增强文本包括:根据所述初始样本数据,通过所述增强文本生成器获取所述增强文本。5.根据权利要求4所述的方法,其中,所述根据所述初始样本数据,通过所述增强文本生成器获取所述增强文本包括:将所述初始文本输入所述增强文本生成器;所述增强文本生成器的方面词增强通道将所述初始文本的所述初始方面词替换为与所述初始方面词相同领域的随机方面词,获取第一方面词增强文本;所述增强文本生成器的方面词极性通道将所述初始文本的所述初始极性替换为与所述初始极性相反的预定极性词,获取第一极性增强文本。6.根据权利要求5所述的方法,其中,所述根据所述初始样本数据,通过所述增强文本生成器获取所述增强文本还包括以下至少一项:将所述第一极性增强文本输入所述增强文本生成器;所述增强文本生成器的方面词增强通道将所述第一极性增强文本的方面词替换为与所述第一极性增强文本的方面词相同领域的随机方面词,获取第二方面词增强文本;或将所述第一方面词增强文本输入所述增强文本生成器;所述增强文本生成器的极性增强通道将所述第一方面词增强文本的极性词替换为与第一方面词增强文本的极性词相反的预定极性词,获取第二极性增强文本。7.根据权利要求4所述的方法,其中,所述根据所述初始样本数据微调所述文本生成模
型,获取增强文本生成器包括:从所述初始样本数据中随机提取第一初始样本数据和第二初始样本数据,其中,所述第一初始样本数据与所述第二初始样本数据的初始方面词不同,且初始极性相反;在所述第二初始样本数据的初始文本的监督下,训练所述文本生成模型生成第三文本和第四文本,获取增强文本生成器,其中,所述第三文本中为在所述第一初始样本数据的初始文本基础上将初始方面词修改为所述第二初始样本数据的初始方面词,所述第四文本为在所述第一初始样本数据的初始文本基础上将初始极性修改为所述第二初始样本数据的初始极性。8.根据权利要求1所述的方法,其中,所述根据所述拼接文本、所述初始方面词和所述初始极性生成增强样本数据包括:针对每个初始样本数据,根据所述拼接文本、所述初始方面词和所述初始极性分别生成第一增强样本数据;根据所述第一增强样本数据的噪音含量筛选...
【专利技术属性】
技术研发人员:陶大程,丁亮,
申请(专利权)人:京东科技信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。