System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本处理方法、装置、电子设备和计算机可读存储介质制造方法及图纸_技高网

文本处理方法、装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:42653284 阅读:13 留言:0更新日期:2024-09-06 01:45
本发明专利技术提供了一种文本处理方法、装置、电子设备和计算机可读存储介质,涉及数据处理技术领域。其中,该方法包括:获取待预测文本;将待预测文本进预处理,得到向量化的待预测文本;将向量化的待预测文本输入预先训练完成的文本处理模型中,输出待预测文本对应的标签;其中,文本处理模型的训练样本包括原始样本和扩展样本;文本处理模型的损失函数由原始样本的正确标签与原始样本的预测标签的交叉熵损失函数、样本扩展过程中的对比学习损失函数和样本扩展过程中的KL散度够成;通过对比学习方法扩充训练样本,并将对比学习损失函数拟合到模型的最终损失函数中,提高了模型的鲁棒性,提高了模型预测的准确性,提升了用户体验。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其是涉及一种文本处理方法、装置、电子设备和计算机可读存储介质


技术介绍

1、多标签分类作为自然语言处理中一项重要的任务,近年来被广泛应用于信息检索、情感分析、标签推荐等各类场景中。当前,多标签分类方法又多种,但是多数分类方法中的分类模型训练样本单一,损失函数简单,导致模型脆弱,预测不准确,用户体验不佳。


技术实现思路

1、有鉴于此,本专利技术的目的在于提供一种文本处理方法、装置、电子设备和计算机可读存储介质,通过对比学习方法扩充训练样本,并将对比学习损失函数拟合到模型的最终损失函数中,提高了模型的鲁棒性,提高了模型预测的准确性,提升了用户体验。

2、第一方面,本专利技术提供了一种文本处理方法,包括:获取待预测文本;将待预测文本进预处理,得到向量化的待预测文本;将向量化的待预测文本输入预先训练完成的文本处理模型中,输出待预测文本对应的标签;其中,文本处理模型的训练过程包括对原始样本施加扰动以获得扩展样本;文本处理模型的训练样本包括原始样本和扩展样本;文本处理模型的损失函数由原始样本的正确标签与原始样本的预测标签的交叉熵损失函数、样本扩展过程中的对比学习损失函数和样本扩展过程中的kl散度够成。

3、在本专利技术一些较佳的实施例中,通过下述步骤训练获得文本处理模型:获取训练数据,将训练数据进行预处理后按照预设的比例拆分为训练集、验证集和测试集;其中,训练数据包括至少一个文本和多个标签,文本对应多个标签;将训练集中的训练数据作为原始样本,对原始样本包含的标签施加扰动,获得扩展样本;将原始样本和扩展样本确定为训练样本;将训练样本输入基础模型中进行迭代训练;基于验证集验证满足预设的训练完成条件的基础模型;如果验证合格,基于测试集测试验证合格的基础模型,如果满足,将验证合格的基础模型作为文本处理模型。

4、在本专利技术一些较佳的实施例中,对训练数据进行预处理的步骤,包括:对文本经过编码器生成的向量利用全连接神经网络进行变换并利用激活函数进行激活,然后对变换后的文本的向量进行平均池化操作,获得文本的最终表示向量;对标签经过解码器生成的向量利用全连接神经网络进行变换并利用激活函数进行激活,然后对变换后的标签的向量进行平均池化操作,获得标签的最终表示向量。

5、在本专利技术一些较佳的实施例中,扩展样本包括负样本;将训练集中的训练数据作为原始样本,对原始样本包含的标签施加扰动,获得扩展样本的步骤,包括:基于解码器输出原始样本的标签的表示向量;对原始样本的标签的表示向量施加第一扰动;最大化原始样本的标签的表示向量与第一扰动对应的向量的预测标签的交叉熵损失函数;利用反向梯度传播对利用全连接神经网络进行变换并利用激活函数进行激活后的第一扰动对应的向量进行平均池化操作得到原始样本对应的负样本。

6、在本专利技术一些较佳的实施例中,负样本的对比学习损失函数为:其中,为负样本的对比学习损失函数,n为训练样本个数,i为是训练集中的第i个原始样本,zx为样本的文本表示向量,zy为样本的标签表示向量,τ为对比学习中的温度参数,sim为余弦相似度。

7、在本专利技术一些较佳的实施例中,扩展样本包括正样本;将训练集中的训练数据作为原始样本,对原始样本包含的标签施加扰动,获得扩展样本的步骤,包括:基于解码器输出原始样本的标签的表示向量;对原始样本的标签的表示向量施加第二扰动;最大化原始样本的对比学习损失函数;利用反向梯度传播,得到施加了第二扰动的扰动样本的表示向量;最小化原始样本与扰动样本的kl散度;利用反向梯度传播获得原始样本对应的正样本。

8、在本专利技术一些较佳的实施例中,正样本的对比学习损失函数为:其中,为正样本的对比学习损失函数,n为训练样本个数,i为是训练集中的第i个原始样本,zx为样本的文本表示向量,zy为样本的标签表示向量,τ为对比学习中的温度参数,sim为余弦相似度。

9、第二方面,本专利技术提供了一种文本处理装置,包括:文本获取模块,用于获取待预测文本;预处理模块,用于将待预测文本进预处理,得到向量化的待预测文本;标签预测模块,用于将向量化的待预测文本输入预先训练完成的文本处理模型中,输出待预测文本对应的标签;其中,文本处理模型的训练过程包括对原始样本施加扰动以获得扩展样本;文本处理模型的训练样本包括原始样本和扩展样本;文本处理模型的损失函数由原始样本的正确标签与原始样本的预测标签的交叉熵损失函数、样本扩展过程中的对比学习损失函数和样本扩展过程中的kl散度够成。

10、第三方面,本专利技术提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述任一项的文本处理方法。

11、第四方面,本专利技术提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述任一项的文本处理方法。

12、本专利技术带来了以下有益效果:

13、本专利技术提供了一种文本处理方法、装置、电子设备和计算机可读存储介质,该方法包括:获取待预测文本;将待预测文本进预处理,得到向量化的待预测文本;将向量化的待预测文本输入预先训练完成的文本处理模型中,输出待预测文本对应的标签;其中,文本处理模型的训练过程包括对原始样本施加扰动以获得扩展样本;文本处理模型的训练样本包括原始样本和扩展样本;文本处理模型的损失函数由原始样本的正确标签与原始样本的预测标签的交叉熵损失函数、样本扩展过程中的对比学习损失函数和样本扩展过程中的kl散度够成;通过对比学习方法扩充训练样本,并将对比学习损失函数拟合到模型的最终损失函数中,提高了模型的鲁棒性,提高了模型预测的准确性,提升了用户体验。

本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的文本处理方法,其特征在于,通过下述步骤训练获得所述文本处理模型:

3.根据权利要求2所述的文本处理方法,其特征在于,对所述训练数据进行预处理的步骤,包括:

4.根据权利要求3所述的文本处理方法,其特征在于,所述扩展样本包括负样本;

5.根据权利要求4所述的文本处理方法,其特征在于,所述负样本的对比学习损失函数为:

6.根据权利要求3所述的文本处理方法,其特征在于,所述扩展样本包括正样本;

7.根据权利要求6所述的文本处理方法,其特征在于,所述正样本的对比学习损失函数为:

8.一种文本处理装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述权利要求1至7任一项所述的文本处理方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的文本处理方法。

...

【技术特征摘要】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的文本处理方法,其特征在于,通过下述步骤训练获得所述文本处理模型:

3.根据权利要求2所述的文本处理方法,其特征在于,对所述训练数据进行预处理的步骤,包括:

4.根据权利要求3所述的文本处理方法,其特征在于,所述扩展样本包括负样本;

5.根据权利要求4所述的文本处理方法,其特征在于,所述负样本的对比学习损失函数为:

6.根据权利要求3所述的文本处理方法,其特征在于,所述扩展样本包括正样本;

7.根据权利要...

【专利技术属性】
技术研发人员:韩权杰杜新凯吕超孙雅琳
申请(专利权)人:阳光保险集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1