本发明专利技术公开了一种文本处理模型训练方法、电子设备及可读存储介质。文本处理模型训练方法包括:对训练集中的训练文本进行分词处理;随机选择训练文本中的至少一个词并进行掩盖处理,得到掩盖文本;对掩盖文本中的被掩盖的词进行预测;将掩盖文本中被掩盖的词替换为被掩盖的词的预测结果,得到增强文本;若训练文本和其对应的增强文本的语义相似度符合预设条件,将增强文本加入到训练集,得到扩充训练集;利用扩充训练集对文本处理模型进行训练。通过上述方式,本发明专利技术能够生成大量扩充文本,提高扩充文本的语义准确性。提高扩充文本的语义准确性。提高扩充文本的语义准确性。
【技术实现步骤摘要】
一种文本处理模型训练方法、电子设备及可读存储介质
[0001]本专利技术涉及文本处理
,特别是涉及一种文本处理模型训练方法、电子设备及可读存储介质。
技术介绍
[0002]近年来,使用深度学习模型极大地提升了文本处理的效率,但是,利用深度学习模型进行文本处理,需要大量的标注数据进行训练,而神深度学习模型的优劣通常依赖于训练数据集的大小和质量,如此在样本量少的数据集上训练深度学习模型往往会产生过拟合现象,使得模型在真实预测场景中的表现能力会大打折扣。
技术实现思路
[0003]本专利技术主要解决的技术问题是提供一种文本处理模型训练方法、电子设备及可读存储介质,能够生成大量扩充文本,提高扩充文本的语义准确性。
[0004]为实现上述技术效果,本专利技术采用的一个技术方案是:提供一种文本处理模型训练方法,文本处理模型训练方法包括:对训练集中的训练文本进行分词处理;随机选择训练文本中的至少一个词并进行掩盖处理,得到掩盖文本;对掩盖文本中的被掩盖的词进行预测;将掩盖文本中被掩盖的词替换为被掩盖的词的预测结果,得到增强文本;若训练文本和其对应的增强文本的语义相似度符合预设条件,将增强文本加入到训练集,得到扩充训练集;利用扩充训练集对文本处理模型进行训练。
[0005]在一实施方式中,对训练集中的训练文本进行分词处理之前包括:确定训练文本中的无关敏感信息,无关敏感信息为与文本处理模型的处理任务不相关的敏感信息;将无关敏感信息从训练文本删除,得到脱敏文本;对训练集中的训练文本进行分词处理,包括:对脱敏文本进行分词处理。
[0006]在一实施方式中,确定训练文本中的无关敏感信息包括:对训练文本中的实体信息进行提取;从训练文本的所有实体信息中,确定出无关敏感信息。
[0007]在一实施方式中,对训练文本中的实体信息进行提取包括:利用命名实体识别方法对训练文本中的实体信息进行提取。
[0008]在一实施方式中,对训练集中的训练文本进行分词处理之后包括:将训练文本中的停用词删除,得到去噪文本;随机选择训练文本中的至少一个词并进行掩盖处理,得到掩盖文本,包括:随机选择去噪文本中的至少一个词并进行掩盖处理,得到掩盖文本。
[0009]在一实施方式中,若训练文本和其对应的增强文本的语义相似度符合预设条件,将增强文本加入到训练集,得到扩充训练集,包括:通过语义提取模型对训练文本进行语义提取,得到第一文本向量;通过语义提取模型对训练文本对应的增强文本进行语义提取,得到第二文本向量;计算第一文本向量和第二文本向量之间的夹角余弦度,得到训练文本和其对应的增强文本的语义相似度。
[0010]在一实施方式中,将掩盖文本中被掩盖的词替换为被掩盖的词的预测结果,得到
增强文本之后包括:若增强文本对应的语义相似度不符合预设条件,则丢弃增强文本,再返回随机选择训练文本中的至少一个词并进行掩盖处理,得到掩盖文本的步骤,直至得到训练文本的符合预设条件的增强文本。
[0011]在一实施方式中,随机选择训练文本中的至少一个词并进行掩盖处理,得到掩盖文本,包括:基于训练文本的文本长度和预设掩盖比例,确定训练文本的掩盖字数;从训练文本中随机选择至少一个词,其中,随机选择的至少一个词的总字数与掩盖字数的差异在预设范围内;对至少一个词进行掩盖处理,得到掩盖文本。
[0012]为实现上述技术效果,本专利技术采用的另一个技术方案是:提供一种电子设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一项的方法。
[0013]为实现上述技术效果,本专利技术采用的另一个技术方案是:提供一种计算机可读存储介质,计算机可读存储介质中存储有指令/程序数据,指令/程序数据被处理器执行时实现上述任一项的方法。
[0014]本专利技术的有益效果是:区别于现有技术的情况,本专利技术公开了一种文本处理模型训练方法、电子设备及可读存储介质。文本处理模型训练方法包括:对训练集中的训练文本进行分词处理;随机选择训练文本中的至少一个词并进行掩盖处理,得到掩盖文本;对掩盖文本中的被掩盖的词进行预测;将掩盖文本中被掩盖的词替换为被掩盖的词的预测结果,得到增强文本;若训练文本和其对应的增强文本的语义相似度符合预设条件,将增强文本加入到训练集,得到扩充训练集;利用扩充训练集对文本处理模型进行训练。如此能够在对文本语义影响较小的情况下,通过修改非关键词和/或关键词的方式对文本进行扩充,能够生成大量的扩充文本,且具有较强的随机性,可以给文本处理模型提供较为丰富的文本集,以便提高文本处理模型的训练质量。
附图说明
[0015]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
[0016]图1是本专利技术文本处理模型训练方法一实施方式的流程示意图;
[0017]图2是本专利技术文本处理模型训练方法另一实施方式的流程示意图;
[0018]图3是本专利技术文本处理模型训练方法又一实施方式的流程示意图;
[0019]图4是本专利技术电子设备一实施方式的结构示意图;
[0020]图5是本专利技术计算机可读存储介质一实施方式的结构示意图。
具体实施方式
[0021]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的
所有其他实施例,都属于本申请保护的范围。
[0022]请参阅图1,图1是本专利技术文本处理模型训练方法一实施方式的流程示意图,该方法包括:
[0023]步骤101:对训练集中的训练文本进行分词处理。
[0024]具体地,获取训练集,将训练集中的至少部分文本中每一文本作为训练文本进行分词处理。该训练集可以包括不同领域分布的文本,例如新闻文本,小说文本,警情文本等等。
[0025]可选的,可以利用结巴分词技术对训练文本进行分词处理。示例性的,以训练文本为“其参与在网上刷单返现活动被骗”为例,利用结巴分词技术对该文本进行分词处理后的结果为“其/参与/在/网上/刷单/返现/活动/被/骗”。结巴分词技术可以统计每一分词结果的概率,即每一分词结果的合理性。且由于中文语句中以词为具有语义信息的最小单位,因此利用结巴分词技术进行分词处理可以使进行分词处理后的训练文本符合中文的特点,提高分词的准确性。
[0026]可选的,也可以通过语言处理工具对训练集中的训练文本进行分词处理,语言处理工具不限于Jieba、snowNLP、thulac等等。
[0027]步骤102:随机选择训练文本中的至少一个本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本处理模型训练方法,其特征在于,包括:对训练集中的训练文本进行分词处理;随机选择所述训练文本中的至少一个词并进行掩盖处理,得到掩盖文本;对所述掩盖文本中的被掩盖的词进行预测;将所述掩盖文本中所述被掩盖的词替换为所述被掩盖的词的预测结果,得到增强文本;若所述训练文本和其对应的所述增强文本的语义相似度符合预设条件,将所述增强文本加入到所述训练集,得到扩充训练集;利用所述扩充训练集对所述文本处理模型进行训练。2.根据权利要求1所述的文本处理模型训练方法,其特征在于,所述对训练集中的训练文本进行分词处理,之前包括:确定所述训练文本中的无关敏感信息,所述无关敏感信息为与所述文本处理模型的处理任务不相关的敏感信息;将所述无关敏感信息从所述训练文本删除,得到脱敏文本;所述对训练集中的训练文本进行分词处理,包括:对所述脱敏文本进行分词处理。3.根据权利要求2所述的文本处理模型训练方法,其特征在于,所述确定所述训练文本中的无关敏感信息,包括:对所述训练文本中的实体信息进行提取;从所述训练文本的所有实体信息中,确定出所述无关敏感信息。4.根据权利要求3所述的文本处理模型训练方法,其特征在于,所述对所述训练文本中的实体信息进行提取,包括:利用命名实体识别方法对所述训练文本中的实体信息进行提取。5.根据权利要求1所述的文本处理模型训练方法,其特征在于,所述对训练集中的训练文本进行分词处理,之后包括:将所述训练文本中的停用词删除,得到去噪文本;所述随机选择所述训练文本中的至少一个词并进行掩盖处理,得到掩盖文本,包括:随机选择所述去噪文本中的至少一个词并进行掩盖处理,得到所述掩盖文本。6.根据权利要求1所述的文本处理模型训练...
【专利技术属性】
技术研发人员:黄鹏伟,陈立力,周明伟,
申请(专利权)人:浙江大华技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。