一种文本处理模型训练方法、电子设备及可读存储介质技术

技术编号：38608274 阅读：18 留言：0更新日期：2023-08-26 23:38

本发明专利技术公开了一种文本处理模型训练方法、电子设备及可读存储介质。文本处理模型训练方法包括：对训练集中的训练文本进行分词处理；随机选择训练文本中的至少一个词并进行掩盖处理，得到掩盖文本；对掩盖文本中的被掩盖的词进行预测；将掩盖文本中被掩盖的词替换为被掩盖的词的预测结果，得到增强文本；若训练文本和其对应的增强文本的语义相似度符合预设条件，将增强文本加入到训练集，得到扩充训练集；利用扩充训练集对文本处理模型进行训练。通过上述方式，本发明专利技术能够生成大量扩充文本，提高扩充文本的语义准确性。提高扩充文本的语义准确性。提高扩充文本的语义准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理模型训练方法、电子设备及可读存储介质

[0001]本专利技术涉及文本处理
，特别是涉及一种文本处理模型训练方法、电子设备及可读存储介质。

技术介绍

[0002]近年来，使用深度学习模型极大地提升了文本处理的效率，但是，利用深度学习模型进行文本处理，需要大量的标注数据进行训练，而神深度学习模型的优劣通常依赖于训练数据集的大小和质量，如此在样本量少的数据集上训练深度学习模型往往会产生过拟合现象，使得模型在真实预测场景中的表现能力会大打折扣。

技术实现思路

[0003]本专利技术主要解决的技术问题是提供一种文本处理模型训练方法、电子设备及可读存储介质，能够生成大量扩充文本，提高扩充文本的语义准确性。
[0004]为实现上述技术效果，本专利技术采用的一个技术方案是：提供一种文本处理模型训练方法，文本处理模型训练方法包括：对训练集中的训练文本进行分词处理；随机选择训练文本中的至少一个词并进行掩盖处理，得到掩盖文本；对掩盖文本中的被掩盖的词进行预测；将掩盖文本中被掩盖的词替换为被掩盖的词的预测结果，得到增强文本；若训练文本和其对应的增强文本的语义相似度符合预设条件，将增强文本加入到训练集，得到扩充训练集；利用扩充训练集对文本处理模型进行训练。
[0005]在一实施方式中，对训练集中的训练文本进行分词处理之前包括：确定训练文本中的无关敏感信息，无关敏感信息为与文本处理模型的处理任务不相关的敏感信息；将无关敏感信息从训练文本删除，得到脱敏文本；对训练集中的训练文本进行分词处理，包括：...

【技术保护点】

【技术特征摘要】
1.一种文本处理模型训练方法，其特征在于，包括：对训练集中的训练文本进行分词处理；随机选择所述训练文本中的至少一个词并进行掩盖处理，得到掩盖文本；对所述掩盖文本中的被掩盖的词进行预测；将所述掩盖文本中所述被掩盖的词替换为所述被掩盖的词的预测结果，得到增强文本；若所述训练文本和其对应的所述增强文本的语义相似度符合预设条件，将所述增强文本加入到所述训练集，得到扩充训练集；利用所述扩充训练集对所述文本处理模型进行训练。2.根据权利要求1所述的文本处理模型训练方法，其特征在于，所述对训练集中的训练文本进行分词处理，之前包括：确定所述训练文本中的无关敏感信息，所述无关敏感信息为与所述文本处理模型的处理任务不相关的敏感信息；将所述无关敏感信息从所述训练文本删除，得到脱敏文本；所述对训练集中的训练文本进行分词处理，包括：对所述脱敏文本进行分词处理。3.根据权利要求2所述的文本处理模型训练方法，其特征在于，所述确定所述训练文本中的无关敏感信息，包括：对所述训练文本中的实体信息进行提取；从所述训练文本的所有实体信息中，确定出所述无关敏感信息。4.根据权利要求3所述的文本处理模型训练方法，其特征在于，所述对所述训练文本中的实体信息进行提取，包括：利用命名实体识别方法对所述训练文本中的实体信息进行提取。5.根据权利要求1所述的文本处理模型训练方法，其特征在于，所述对训练集中的训练文本进行分词处理，之后包括：将所述训练文本中的停用词删除，得到去噪文本；所述随机选择所述训练文本中的至少一个词并进行掩盖处理，得到掩盖文本，包括：随机选择所述去噪文本中的至少一个词并进行掩盖处理，得到所述掩盖文本。6.根据权利要求1所述的文本处理模型训练...

【专利技术属性】
技术研发人员：黄鹏伟，陈立力，周明伟，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人