样本生成、模型训练、文本分析方法和装置及存储介质制造方法及图纸

技术编号:37412459 阅读:13 留言:0更新日期:2023-04-30 09:37
本公开提出一种样本生成、模型训练、文本分析方法和装置及存储介质,涉及人工智能技术领域。本公开的一种样本生成方法,包括:根据初始样本数据获取增强文本,其中,增强文本的方面词和极性中的至少一种与初始文本不同,初始样本数据包括初始文本,初始方面词和初始极性;根据初始文本和增强文本获取拼接文本;根据拼接文本、初始方面词和初始极性生成增强样本数据,其中,增强样本数据用于训练机器学习模型,训练后的模型用于确定文本的极性。通过这样的方法,提高了具备提高模型泛化性能的增强样本数据的获取效率;采用生成的增强样本数据进行模型训练,能够提高模型的泛化能力,提高对于文本分析的准确度。高对于文本分析的准确度。高对于文本分析的准确度。

【技术实现步骤摘要】
样本生成、模型训练、文本分析方法和装置及存储介质


[0001]本公开涉及人工智能
,特别是一种样本生成、模型训练、文本分析方法和装置及存储介质。

技术介绍

[0002]细粒度情感分析是人工智能、自然语言处理领域的一个经典任务。一个给定的评论,如“我很喜欢这家餐厅的食物”,旨在令机器能够理解并能准确的判断这个评论对于“食物”(评论对象被称为方面aspect,对应的词语后续称为方面词)的情感极性是积极的。随着机器学习和深度学习技术的广泛应用,细粒度情感分析任务的表现也大大提高。
[0003]相关技术中对于细粒度情感分析任务的研究中,通过探索和改进深度学习模型,以更好的融合文本信息和句子信息。这些基于模型的方法基本可以被分为两类:
[0004](1)基于图的方法。将文本解析为语义关系依存树的形式,并利用图卷积神经网络在依存树上进行编码;
[0005](2)基于注意力的方法。利用注意力机制,将文本的向量表示和方面词的向量表示进行整合。

技术实现思路

[0006]本公开的一个目的在于提高模型情感分析的准确度。
[0007]根据本公开的一些实施例的一个方面,提出一种样本生成方法,包括:根据初始样本数据获取增强文本,其中,增强文本的方面词和极性中的至少一种与初始文本不同,初始样本数据包括初始文本,初始方面词和初始极性;根据初始文本和增强文本获取拼接文本;根据拼接文本、初始方面词和初始极性生成增强样本数据,其中,增强样本数据用于训练机器学习模型,训练后的模型用于确定文本的极性。<br/>[0008]在一些实施例中,根据初始样本数据中的初始文本,获取增强文本包括:根据初始文本获取第一方面词增强文本,其中,第一方面词增强文本的方面词与初始方面词不同;根据初始文本获取第一极性增强文本,其中,第一极性增强文本的极性与初始极性不同。
[0009]在一些实施例中,根据初始样本数据中的初始文本,获取增强文本还包括以下至少一项:根据第一方面词增强文本获取第二极性增强文本,其中,第二极性增强文本的极性与第一方面词增强文本的极性不同;或根据第一极性增强文本获取第二方面词增强文本,其中,第二方面词增强文本的方面词与第一极性增强文本的方面词不同。
[0010]在一些实施例中,该方法还包括:基于预训练的编码

解码模型,增加待训练的参数,获取文本生成模型;根据初始样本数据微调文本生成模型,获取增强文本生成器;根据初始样本数据获取增强文本包括:根据初始样本数据,通过增强文本生成器获取增强文本。
[0011]在一些实施例中,根据初始样本数据,通过增强文本生成器获取增强文本包括:将初始文本输入增强文本生成器;增强文本生成器的方面词增强通道将初始文本的初始方面词替换为与初始方面词相同领域的随机方面词,获取第一方面词增强文本;增强文本生成
器的方面词极性通道将初始文本的初始极性替换为与初始极性相反的预定极性词,获取第一极性增强文本。
[0012]在一些实施例中,根据初始样本数据,通过增强文本生成器获取增强文本还包括以下至少一项:将第一极性增强文本输入增强文本生成器;增强文本生成器的方面词增强通道将第一极性增强文本的方面词替换为与第一极性增强文本的方面词相同领域的随机方面词,获取第二方面词增强文本;或将第一方面词增强文本输入增强文本生成器;增强文本生成器的极性增强通道将第一方面词增强文本的极性词替换为与第一方面词增强文本的极性词相反的预定极性词,获取第二极性增强文本。
[0013]在一些实施例中,根据初始样本数据微调文本生成模型,获取增强文本生成器包括:从初始样本数据中随机提取第一初始样本数据和第二初始样本数据,其中,第一初始样本数据与第二初始样本数据的初始方面词不同,且初始极性相反;在第二初始样本数据的初始文本的监督下,训练文本生成模型生成第三文本和第四文本,获取增强文本生成器,其中,第三文本中为在第一初始样本数据的初始文本基础上将初始方面词修改为第二初始样本数据的初始方面词,第四文本为在第一初始样本数据的初始文本基础上将初始极性修改为第二初始样本数据的初始极性。
[0014]在一些实施例中,根据拼接文本、初始方面词和初始极性生成增强样本数据包括:针对每个初始样本数据,根据拼接文本、初始方面词和初始极性分别生成第一增强样本数据;根据第一增强样本数据的噪音含量筛选出预定第一数量的增强样本数据。
[0015]在一些实施例中,根据第一增强样本数据的噪音含量筛选出预定第一数量的增强样本数据包括:确定基于每个增强样本数据的信息熵;根据信息熵从小到大的顺序筛选出预定第一数量的样本数据,获取增强样本数据。
[0016]在一些实施例中,确定基于每个增强样本数据的信息熵包括:根据增强样本数据,确定预测模型的激活函数输出值;确定每个激活函数输出值的信息熵。
[0017]根据本公开的一些实施例的一个方面,提出一种模型训练方法,包括:根据上文中提到的任意一种样本生成方法获取增强样本数据;根据初始样本数据和对应的增强样本数据训练预测模型,调整预测模型中的参数,直至完成训练,获取文本分析模型。
[0018]在一些实施例中,根据初始样本数据和对应的增强样本数据训练预测模型包括:根据初始样本数据和对应的增强样本数据对预测模型执行对比训练。
[0019]在一些实施例中,预测模型的目标函数包括第一目标函数和第二目标函数;第一目标函数为针对初始样本数据的交叉熵损失函数和针对增强样本数据的交叉熵损失函数的加权和;第二目标函数为三元组损失triplet loss函数。
[0020]在一些实施例中,triplet loss函数的锚参数为初始文本,正参数为拼接文本,负参数为增强文本。
[0021]在一些实施例中,述triplet loss函数中的距离函数值为距离函数中参数的负余弦相似度。
[0022]根据本公开的一些实施例的一个方面,提出一种文本分析方法,包括:将待分析文本和方面词输入文本分析模型,其中,文本分析模型为根据上文中任意一种模型训练方法训练生成;获取文本分类模型输出的极性。
[0023]在一些实施例中,极性为待分析文本的情感极性。
[0024]根据本公开的一些实施例的一个方面,提出一种样本生成装置,包括:增强文本获取单元,被配置为根据初始样本数据获取增强文本,其中,增强文本的方面词和极性中的至少一种与初始文本不同,初始样本数据包括初始文本,初始方面词和初始极性;文本拼接单元,被配置为根据初始文本和增强文本获取拼接文本;增强样本生成单元,被配置为根据拼接文本、初始方面词和初始极性生成增强样本数据,以便根据增强样本数据训练机器学习模型,并通过训练后的模型确定文本的极性。
[0025]在一些实施例中,增强样本生成单元包括:第一样本生成子单元,被配置为针对每个初始样本数据,根据拼接文本、初始方面词和初始极性分别生成第一增强样本数据;样本筛选单元,被配置为根据第一增强样本数据的噪音含量筛选出预定第一数量的增强样本数据。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种样本生成方法,包括:根据初始样本数据获取增强文本,其中,所述增强文本的方面词和极性中的至少一种与所述初始文本不同,所述初始样本数据包括初始文本,初始方面词和初始极性;根据所述初始文本和所述增强文本获取拼接文本;根据所述拼接文本、所述初始方面词和所述初始极性生成增强样本数据,其中,所述增强样本数据用于训练机器学习模型,训练后的所述模型用于确定文本的极性。2.根据权利要求1所述的方法,其中,所述根据初始样本数据中的初始文本,获取增强文本包括:根据所述初始文本获取第一方面词增强文本,其中,所述第一方面词增强文本的方面词与所述初始方面词不同;根据所述初始文本获取第一极性增强文本,其中,所述第一极性增强文本的极性与所述初始极性不同。3.根据权利要求2所述的方法,其中,所述根据初始样本数据中的初始文本,获取增强文本还包括以下至少一项:根据所述第一方面词增强文本获取第二极性增强文本,其中,所述第二极性增强文本的极性与所述第一方面词增强文本的极性不同;或根据所述第一极性增强文本获取第二方面词增强文本,其中,所述第二方面词增强文本的方面词与所述第一极性增强文本的方面词不同。4.根据权利要求1所述的方法,还包括:基于预训练的编码

解码模型,增加待训练的参数,获取文本生成模型;根据所述初始样本数据微调所述文本生成模型,获取增强文本生成器;所述根据初始样本数据获取增强文本包括:根据所述初始样本数据,通过所述增强文本生成器获取所述增强文本。5.根据权利要求4所述的方法,其中,所述根据所述初始样本数据,通过所述增强文本生成器获取所述增强文本包括:将所述初始文本输入所述增强文本生成器;所述增强文本生成器的方面词增强通道将所述初始文本的所述初始方面词替换为与所述初始方面词相同领域的随机方面词,获取第一方面词增强文本;所述增强文本生成器的方面词极性通道将所述初始文本的所述初始极性替换为与所述初始极性相反的预定极性词,获取第一极性增强文本。6.根据权利要求5所述的方法,其中,所述根据所述初始样本数据,通过所述增强文本生成器获取所述增强文本还包括以下至少一项:将所述第一极性增强文本输入所述增强文本生成器;所述增强文本生成器的方面词增强通道将所述第一极性增强文本的方面词替换为与所述第一极性增强文本的方面词相同领域的随机方面词,获取第二方面词增强文本;或将所述第一方面词增强文本输入所述增强文本生成器;所述增强文本生成器的极性增强通道将所述第一方面词增强文本的极性词替换为与第一方面词增强文本的极性词相反的预定极性词,获取第二极性增强文本。7.根据权利要求4所述的方法,其中,所述根据所述初始样本数据微调所述文本生成模
型,获取增强文本生成器包括:从所述初始样本数据中随机提取第一初始样本数据和第二初始样本数据,其中,所述第一初始样本数据与所述第二初始样本数据的初始方面词不同,且初始极性相反;在所述第二初始样本数据的初始文本的监督下,训练所述文本生成模型生成第三文本和第四文本,获取增强文本生成器,其中,所述第三文本中为在所述第一初始样本数据的初始文本基础上将初始方面词修改为所述第二初始样本数据的初始方面词,所述第四文本为在所述第一初始样本数据的初始文本基础上将初始极性修改为所述第二初始样本数据的初始极性。8.根据权利要求1所述的方法,其中,所述根据所述拼接文本、所述初始方面词和所述初始极性生成增强样本数据包括:针对每个初始样本数据,根据所述拼接文本、所述初始方面词和所述初始极性分别生成第一增强样本数据;根据所述第一增强样本数据的噪音含量筛选...

【专利技术属性】
技术研发人员:陶大程丁亮
申请(专利权)人:京东科技信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1