用于生成训练数据的方法以及装置制造方法及图纸

技术编号:36931955 阅读:9 留言:0更新日期:2023-03-22 18:54
本公开提供了一种用于生成训练数据的方法和装置。该训练数据用于训练目标深度学习模型。在该方法中,获取用户输入的用于目标深度学习模型的原始数据。然后,确定原始数据的类型。原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据。分类数据的标签指示分类数据的类别。会话数据的标签指示会话数据的问答相关性。接着,按照原始数据的类型来生成训练数据。类型来生成训练数据。类型来生成训练数据。

【技术实现步骤摘要】
【国外来华专利技术】用于生成训练数据的方法以及装置


[0001]本公开的实施例涉及计算机
,具体地,涉及用于生成训练数据的方法以及装置。

技术介绍

[0002]深度学习模型是一种机器学习模型,其目的在于建立、模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,如文本、图像、声音等。深度学习模型可以被广泛地应用于各个领域,执行各种各样的任务,例如计算机视觉、语言理解、语音识别、广告推荐、神经搜索等。
[0003]在深度学习技术发展的初始阶段,每个深度学习模型的开发者都需要编写大量的重复代码。为了提高工作效率,这些开发者将他们编写好的代码写成了深度学习框架发布到网络上供其他开发者一起使用。陆续地在网络上出现了不同的深度学习框架。目前流行的深度学习框架有PaddlePaddle、Tensorflow、Caffe、Theano、MXNet、Torch和PyTorch等。随着深度学习技术的发展,一些开发者会将预训练的深度学习模型发布在网络上。在其他开发者需要实现任务时,他们可使用任务数据对预训练的深度学习模型进行微调来获得期望的深度学习模型。在这个微调的过程中,开发者需要根据实际情况处理任务数据以构建训练数据集,并根据个人经验选择损失函数以及进行模型优化。

技术实现思路

[0004]本文中描述的实施例提供了一种用于生成训练数据的方法、装置、电子设备以及存储有计算机程序的计算机可读存储介质。
[0005]根据本公开的第一方面,提供了一种用于生成训练数据的方法。该训练数据用于训练目标深度学习模型。在该方法中,获取用户输入的用于目标深度学习模型的原始数据。然后,确定原始数据的类型。原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据。分类数据的标签指示分类数据的类别。会话数据的标签指示会话数据的问答相关性。接着,按照原始数据的类型来生成训练数据。
[0006]在本公开的一些实施例中,在按照原始数据的类型来生成训练数据的步骤中,如果原始数据是分类数据,则按照分类数据的标签所指示的类别来生成训练数据。
[0007]在本公开的一些实施例中,在按照分类数据的标签所指示的类别来生成训练数据的步骤中,从分类数据中选择部分或全部分类数据作为参考样本。将参考样本中的每个参考样本作为目标参考样本。将具有与目标参考样本相同的类别的分类数据确定为与目标参考样本相关联的正样本。将具有与目标参考样本不同的类别的分类数据确定为与目标参考样本相关联的负样本。然后,将目标参考样本、与目标参考样本相关联的正样本和与目标参考样本相关联的负样本组合成一组训练数据。
[0008]在本公开的一些实施例中,分类数据包括多个标签。分类数据的类别由分类数据的一个或多个标签来确定。
[0009]在本公开的一些实施例中,在按照原始数据的类型来生成训练数据的步骤中,如果原始数据是会话数据,则按照会话数据的标签所指示的问答相关性来生成训练数据。
[0010]在本公开的一些实施例中,每一条会话数据包括一个参考样本以及多个匹配样本。在按照会话数据的标签所指示的问答相关性来生成训练数据的过程中,针对每一条会话数据,将其标签指示肯定的问答相关性的匹配样本作为正样本,并将其标签指示否定的问答相关性的匹配样本作为负样本。然后,将参考样本、正样本和负样本组合成一组训练数据。
[0011]在本公开的一些实施例中,分类数据的标签为一元标签,会话数据的标签为二元标签。
[0012]在本公开的一些实施例中,在按照原始数据的类型来生成训练数据的步骤中,如果原始数据是无标签数据,则使用数据增强技术来生成训练数据。
[0013]在本公开的一些实施例中,在使用数据增强技术来生成训练数据的步骤中,将无标签数据中的每个无标签数据作为参考样本。使用数据增强技术从参考样本生成多个正样本。使用数据增强技术从除了参考样本的无标签数据生成多个负样本。
[0014]在本公开的一些实施例中,在无标签数据是图片的情况下,数据增强技术包括:对图片执行翻转、镜像、裁剪等操作中的一个或多个操作。
[0015]在本公开的一些实施例中,在无标签数据是文字的情况下,数据增强技术包括:对文字执行随机掩码操作。
[0016]在本公开的一些实施例中,在无标签数据是声音段落的情况下,数据增强技术包括:对声音段落执行随机掩码操作。
[0017]根据本公开的第二方面,提供了一种用于生成训练数据的装置。该装置包括:获取模块,用于获取用户输入的用于目标深度学习模型的原始数据;确定模块,用于确定原始数据的类型;以及生成模块,用于按照原始数据的类型来生成训练数据。原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据,分类数据的标签指示分类数据的类别,会话数据的标签指示会话数据的问答相关性。
[0018]根据本公开的第三方面,提供了一种电子设备。该电子设备包括:至少一个处理器;以及存储有计算机程序的至少一个存储器。当计算机程序由至少一个处理器执行时,使得电子设备:获取用户输入的用于目标深度学习模型的原始数据;确定原始数据的类型,原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据,分类数据的标签指示分类数据的类别,会话数据的标签指示会话数据的问答相关性;以及按照原始数据的类型来生成训练数据。
[0019]在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照原始数据的类型来生成训练数据:响应于原始数据是分类数据,按照分类数据的标签所指示的类别来生成训练数据。
[0020]在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照分类数据的标签所指示的类别来生成训练数据:从分类数据中选择部分或全部分类数据作为参考样本;将参考样本中的每个参考样本作为目标参考样本;将具有与目标参考样本相同的类别的分类数据确定为与目标参考样本相关联的正样本;将具有与目标参考样本不同的类别的分类数据确定为与目标参考样本相关联的负样本;以及将目
标参考样本、与目标参考样本相关联的正样本和与目标参考样本相关联的负样本组合成一组训练数据。
[0021]在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照原始数据的类型来生成训练数据:响应于原始数据是会话数据,按照会话数据的标签所指示的问答相关性来生成训练数据。
[0022]在本公开的一些实施例中,每一条会话数据包括一个参考样本以及多个匹配样本。计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照会话数据的标签所指示的问答相关性来生成训练数据:针对每一条会话数据,将其标签指示肯定的问答相关性的匹配样本作为正样本;将其标签指示否定的问答相关性的匹配样本作为负样本;以及将参考样本、正样本和负样本组合成一组训练数据。
[0023]在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得电子设备通过以下操作来按照原始数据的类型来生成训练数据:响应于原始数据是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成训练数据的方法,所述训练数据用于训练目标深度学习模型,所述方法包括:获取用户输入的用于所述目标深度学习模型的原始数据;确定所述原始数据的类型,所述原始数据的所述类型包括有标签的分类数据、有标签的会话数据、以及无标签数据,所述分类数据的标签指示所述分类数据的类别,所述会话数据的标签指示所述会话数据的问答相关性;以及按照所述原始数据的所述类型来生成所述训练数据。2.根据权利要求1所述的方法,按照所述原始数据的所述类型来生成所述训练数据包括:响应于所述原始数据是所述分类数据,按照所述分类数据的标签所指示的类别来生成训练数据。3.根据权利要求2所述的方法,其中,按照所述分类数据的标签所指示的类别来生成训练数据包括:从所述分类数据中选择部分或全部分类数据作为参考样本;将所述参考样本中的每个参考样本作为目标参考样本;将具有与所述目标参考样本相同的类别的分类数据确定为与所述目标参考样本相关联的正样本;将具有与所述目标参考样本不同的类别的分类数据确定为与所述目标参考样本相关联的负样本;以及将所述目标参考样本、与所述目标参考样本相关联的正样本和与所述目标参考样本相关联的负样本组合成一组训练数据。4.根据权利要求2或3所述的方法,其中,所述分类数据包括多个标签,所述分类数据的类别由所述分类数据的一个或多个标签来确定。5.根据权利要求1所述的方法,其中,按照所述原始数据的所述类型来生成所述训练数据包括:响应于所述原始数据是所述会话数据,按照所述会话数据的标签所指示的问答相关性来生成训练数据。6.根据权利要求5所述的方法,其中,每一条会话数据包括一个参考样本以及多个匹配样本,按照所述会话数据的标签所指示的问答相关性来生成训练数据包括:针对每一条会话数据,将其标签指示肯定的问答相关性的匹配样本作为正样本;将其标签指示否定的问答相关性的匹配样本作为负样本;以及将所述参考样本、所述正样本和所述负样本组合成一组训练数据。7.根...

【专利技术属性】
技术研发人员:肖涵王楠王博马克西米利安
申请(专利权)人:极纳人工智能北京有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1