训练方法、装置、设备以及计算机可读存储介质制造方法及图纸

技术编号:32891578 阅读:30 留言:0更新日期:2022-04-07 11:38
本公开涉及模型训练领域,并具体涉及一种训练方法、装置、设备以及计算机可读存储介质。训练方法包括:获取第一训练数据集以及所述第一训练数据集的第一预处理结果;利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型;获取第二训练数据集以及所述第二训练数据集的第二预处理结果;以及利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型,其中,所述第一预处理结果是基于与所述第三模型相关的第四模型获得的,且所述第二训练数据集的数量小于所述第一训练数据集的数量。本公开的训练方法利用较少标注的数据集就能获得期望得到的目标模型,降低了处理复杂度和标注成本并加快了开发周期。加快了开发周期。加快了开发周期。

【技术实现步骤摘要】
训练方法、装置、设备以及计算机可读存储介质


[0001]本申请涉及模型训练领域,并且具体涉及一种训练方法、装置、设备以及计算机可读存储介质。

技术介绍

[0002]近年来,随着计算机处理技术的高速发展,使得更精炼快速地捕获文本中的重要信息成为可能。句子压缩是一种将冗长句子转换成精炼简洁的句子的方法。该技术广泛用于主题的自动获取、摘要生成、问答系统等技术中。
[0003]现有的句子压缩方法有:构建关于句子的语法树,通过删减语法树的整个分支来生成压缩句子,或者通过训练基于神经网络的压缩模型来进行句子压缩。通过删减语法树的整个分支来生成压缩句子的方法可能会导致语法问题,而通过训练基于神经网络的压缩模型来进行句子压缩则需要大量的训练数据,人工成本较大。

技术实现思路

[0004]鉴于上述问题,本公开提供了一种训练方法、装置、设备以及计算机可读存储介质。
[0005]根据本公开的一个方面,提供了一种训练方法,包括:获取第一训练数据集以及所述第一训练数据集的第一预处理结果;利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型;获取第二训练数据集以及所述第二训练数据集的第二预处理结果;以及利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型,其中,所述第一预处理结果是基于与所述第三模型相关的第四模型获得的,且所述第二训练数据集的数量小于所述第一训练数据集的数量。
[0006]根据本公开的一个示例,所述利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型包括:利用所述第一训练数据集、所述第一预处理结果以及判别器来训练所述第一模型以获得第二模型,其中所述判别器基于所训练的所述第一模型的输出结果是否符合预定规则来训练所述第一模型。
[0007]根据本公开的一个示例,所述利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型包括:利用所述第二训练数据集、所述第二预处理结果以及判别器来训练所述第二模型以获得第三模型,其中所述判别器基于所训练的所述第二模型的输出结果是否符合预定规则来训练所述第二模型。
[0008]根据本公开的一个示例,所述判别器是基于所述第一模型的输入和输出预先训练得到的。
[0009]根据本公开的一个示例,所述训练方法应用于文本处理领域,所述第二模型、所述第三模型、所述第四模型被用于文本压缩、文本翻译、信息提取和文本生成中的至少一个,所述判别器用于判断输出结果是否符合预定句子规则。
[0010]根据本公开的一个示例,所述第一预处理结果是基于所述第四模型通过以下步骤
获得的压缩结果:接收一个或多个输入语句;从所述一个或多个输入语句中识别一个或多个关键点;以及基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
[0011]根据本公开的一个示例,所述基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果包括:针对所述一个或多个输入语句的每个输入语句构建第一语法树,其中,所述第一语法树中的节点与所述输入语句的词相对应;以及基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果。
[0012]根据本公开的一个示例,所述压缩结果的长度与所述一个或多个关键点的数量成比例,并且其中所述训练方法通过所述第四模型获得不同长度的压缩结果作为所述第一预处理结果。
[0013]根据本公开的一个方面,提供了一种训练装置,包括:第一获取单元,用于获取第一训练数据集以及所述第一训练数据集的第一预处理结果;第一训练单元,用于利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型;第二获取单元,用于获取第二训练数据集以及所述第二训练数据集的第二预处理结果;以及第二训练单元,用于利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型,其中,所述第一预处理结果是基于与所述第三模型相关的第四模型获得的。
[0014]根据本公开的一个示例,第一训练单元利用所述第一训练数据集、所述第一预处理结果以及判别器来训练所述第一模型以获得第二模型,其中所述判别器基于所训练的所述第一模型的输出结果是否符合预定规则来训练所述第一模型。
[0015]根据本公开的一个示例,第二训练单元利用所述第二训练数据集、所述第二预处理结果以及判别器来训练所述第二模型以获得第三模型,其中所述判别器基于所训练的所述第二模型的输出结果是否符合预定规则来训练所述第二模型。
[0016]根据本公开的一个示例,所述判别器是基于所述第一模型的输入和输出预先训练得到的。
[0017]根据本公开的一个示例,所述训练方法应用于文本处理领域,所述第二模型、所述第三模型、所述第四模型被用于文本压缩、文本翻译、信息提取和文本生成中的至少一个,所述判别器用于判断输出结果是否符合预定句子规则。
[0018]根据本公开的一个示例,所述第一预处理结果是基于所述第四模型通过以下步骤获得的压缩结果:接收一个或多个输入语句;从所述一个或多个输入语句中识别一个或多个关键点;以及基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果。
[0019]根据本公开的一个示例,所述基于所述一个或多个关键点对所述一个或多个输入语句进行压缩以获得压缩结果包括:针对所述一个或多个输入语句的每个输入语句构建第一语法树,其中,所述第一语法树中的节点与所述输入语句的词相对应;以及基于所述一个或多个关键点,对所述第一语法树进行压缩以获得压缩结果。
[0020]根据本公开的一个方面,提供了一种训练设备,包括:处理器;以及存储器,其中存储计算机可读指令,其中,在所述计算机可读指令被所述处理器运行时执行训练方法,所述方法包括:获取第一训练数据集以及所述第一训练数据集的第一预处理结果;利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型;获取第二训练数据
集以及所述第二训练数据集的第二预处理结果;以及利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型,其中,所述第一预处理结果是基于与所述第三模型相关的第四模型获得的。
[0021]根据本公开的一个方面,提供了一种用于存储计算机可读程序的计算机可读存储介质,所述程序使得计算机执行如上述任一方面所述的训练方法。
[0022]在本公开的上述方面中,首先基于与期望得到的目标模型作用相同的简易模型获得大量训练数据集,并利用该大量数据集训练目标模型的初始模型,然后利用较少标注的训练数据集对训练后的初始模型进行微调来获得最终目标模型,从而利用较少标注的数据集就能获得期望得到的目标模型,降低了处理复杂度和标注成本并加快了开发周期。
附图说明
[0023]通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练方法,包括:获取第一训练数据集以及所述第一训练数据集的第一预处理结果;利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型;获取第二训练数据集以及所述第二训练数据集的第二预处理结果;以及利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型,其中,所述第一预处理结果是基于与所述第三模型相关的第四模型获得的,且所述第二训练数据集的数量小于所述第一训练数据集的数量。2.根据权利要求1所述的训练方法,其中,所述利用所述第一训练数据集以及所述第一预处理结果训练第一模型以获得第二模型包括:利用所述第一训练数据集、所述第一预处理结果以及判别器来训练所述第一模型以获得第二模型,其中所述判别器基于所训练的所述第一模型的输出结果是否符合预定规则来训练所述第一模型。3.根据权利要求1所述的训练方法,其中,所述利用所述第二训练数据集以及所述第二预处理结果训练所述第二模型以获得第三模型包括:利用所述第二训练数据集、所述第二预处理结果以及判别器来训练所述第二模型以获得第三模型,其中所述判别器基于所训练的所述第二模型的输出结果是否符合预定规则来训练所述第二模型。4.根据权利要求2或3所述的训练方法,其中,所述判别器是基于所述第一模型的输入和输出预先训练得到的。5.根据权利要求2-4任一项所述的训练方法,其中,所述训练方法应用于文本处理领域,所述第二模型、所述第三模型、所述第四模型被用于文本压缩、文本翻译、信息提取和文本生成中的至少一个,所述判别器用于判断输出结果是否符合预定句子规则。6.根据权利要求5所述的训练方法,其中,所述第一预处理结果是基于所述第四模型通过以下步骤获得的压缩结果:接收一个或多个输入语句;从所述一个...

【专利技术属性】
技术研发人员:郭垿宏关雅卓刘巍李安新陈岚中村一成藤本拓池田大志
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1