用于生成训练数据的方法以及装置制造方法及图纸

技术编号：36931955 阅读：9 留言：0更新日期：2023-03-22 18:54

本公开提供了一种用于生成训练数据的方法和装置。该训练数据用于训练目标深度学习模型。在该方法中，获取用户输入的用于目标深度学习模型的原始数据。然后，确定原始数据的类型。原始数据的类型包括有标签的分类数据、有标签的会话数据、以及无标签数据。分类数据的标签指示分类数据的类别。会话数据的标签指示会话数据的问答相关性。接着，按照原始数据的类型来生成训练数据。类型来生成训练数据。类型来生成训练数据。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于生成训练数据的方法以及装置

[0001]本公开的实施例涉及计算机
，具体地，涉及用于生成训练数据的方法以及装置。

技术介绍

[0002]深度学习模型是一种机器学习模型，其目的在于建立、模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，如文本、图像、声音等。深度学习模型可以被广泛地应用于各个领域，执行各种各样的任务，例如计算机视觉、语言理解、语音识别、广告推荐、神经搜索等。
[0003]在深度学习技术发展的初始阶段，每个深度学习模型的开发者都需要编写大量的重复代码。为了提高工作效率，这些开发者将他们编写好的代码写成了深度学习框架发布到网络上供其他开发者一起使用。陆续地在网络上出现了不同的深度学习框架。目前流行的深度学习框架有PaddlePaddle、Tensorflow、Caffe、Theano、MXNet、Torch和PyTorch等。随着深度学习技术的发展，一些开发者会将预训练的深度学习模型发布在网络上。在其他开发者需要实现任务时，他们可使用任务数据对预训练的深度学习模型进行微调来获得期望的深度学习模型。在这个微调的过程中，开发者需要根据实际情况处理任务数据以构建训练数据集，并根据个人经验选择损失函数以及进行模型优化。

技术实现思路

[0004]本文中描述的实施例提供了一种用于生成训练数据的方法、装置、电子设备以及存储有计算机程序的计算机可读存储介质。
[0005]根据本公开的第一方面，提供了一种用于生成训练数据的方法。该训练数据用于训练目标深度学习模型。在该方法中...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于生成训练数据的方法，所述训练数据用于训练目标深度学习模型，所述方法包括：获取用户输入的用于所述目标深度学习模型的原始数据；确定所述原始数据的类型，所述原始数据的所述类型包括有标签的分类数据、有标签的会话数据、以及无标签数据，所述分类数据的标签指示所述分类数据的类别，所述会话数据的标签指示所述会话数据的问答相关性；以及按照所述原始数据的所述类型来生成所述训练数据。2.根据权利要求1所述的方法，按照所述原始数据的所述类型来生成所述训练数据包括：响应于所述原始数据是所述分类数据，按照所述分类数据的标签所指示的类别来生成训练数据。3.根据权利要求2所述的方法，其中，按照所述分类数据的标签所指示的类别来生成训练数据包括：从所述分类数据中选择部分或全部分类数据作为参考样本；将所述参考样本中的每个参考样本作为目标参考样本；将具有与所述目标参考样本相同的类别的分类数据确定为与所述目标参考样本相关联的正样本；将具有与所述目标参考样本不同的类别的分类数据确定为与所述目标参考样本相关联的负样本；以及将所述目标参考样本、与所述目标参考样本相关联的正样本和与所述目标参考样本相关联的负样本组合成一组训练数据。4.根据权利要求2或3所述的方法，其中，所述分类数据包括多个标签，所述分类数据的类别由所述分类数据的一个或多个标签来确定。5.根据权利要求1所述的方法，其中，按照所述原始数据的所述类型来生成所述训练数据包括：响应于所述原始数据是所述会话数据，按照所述会话数据的标签所指示的问答相关性来生成训练数据。6.根据权利要求5所述的方法，其中，每一条会话数据包括一个参考样本以及多个匹配样本，按照所述会话数据的标签所指示的问答相关性来生成训练数据包括：针对每一条会话数据，将其标签指示肯定的问答相关性的匹配样本作为正样本；将其标签指示否定的问答相关性的匹配样本作为负样本；以及将所述参考样本、所述正样本和所述负样本组合成一组训练数据。7.根...

【专利技术属性】
技术研发人员：肖涵，王楠，王博，马克西米利安，
申请(专利权)人：极纳人工智能北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人