System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能领域,具体涉及一种数据增强处理方法、装置、设备及存储介质。
技术介绍
1、数据增强(data augmentation)是指在模型训练过程中,通过对训练数据进行各种变换或处理,生成更多的训练样本的方法,目的在于通过增加数据的多样性,提高模型的泛化能力,从而减少模型过拟合。
2、目前,传统的数据增强方法过于依赖人为设计,即通常根据人为经验进行相关数据增强参数的设计,以及数据增强策略和数据增强幅度的选择。例如将相关参数设为固定值,或设计随机在预设范围中取值。然而,这种设计方法使得增强策略固定,缺乏多样性,且缺乏对比和验证,无法评估设计是否合理,若设计过于简单,易使模型过早拟合而失去数据增强的意义;若设计过于困难,易使模型出现过度增强而浪费训练样本。
3、此外,现有的自动数据增强方法多数是基于autoaugment方案,其使用一种搜索算法(如强化学习)进行暴力搜索,从搜索空间中找到最佳增强策略使模型在验证集上达到最高精度,以此自动发现最优的数据增强策略。该类方法依赖验证集,并需要训练多个子模型,对计算资源有较高要求。
技术实现思路
1、为解决现有存在的技术问题,本专利技术实施例提供一种数据增强处理方法、装置、设备及存储介质。
2、为达到上述目的,本专利技术实施例的技术方案是这样实现的:
3、第一方面,本专利技术实施例提供了一种数据增强处理方法,所述方法包括:按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略,所
4、基于所述第一增强策略对第一训练数据进行增强处理,得到第二训练数据;
5、利用所述第二训练数据对第一模型进行训练,获得第二参数,所述第二参数表示所述第二训练数据对于模型训练的难易程度;
6、根据所述第二参数更新所述第一参数和/或更新数据库中的元素,基于更新后的第一参数和/或更新的数据库获得第二增强策略,以根据所述第二增强策略进行数据增强处理。
7、上述方案中,所述按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略之前,所述方法还包括:初始化所述数据库;所述数据库包括:包含多个增强操作的第一数据库、包含每个增强操作的增强幅度的第二数据库和包含多个训练数据的第三数据库;所述增强操作包括操作范围和操作取值;
8、其中,所述第一数据库中还包括每个增强操作对应的第一更新参数;所述第二数据库中还包括每个增强幅度对应的第二更新参数;所述第三数据库中还包括每个训练数据对应的第三更新参数;所述第一更新参数、所述第二更新参数和所述第三更新参数中包括:第一参数、抽样参数、抽样参数阈值和难易度阈值。
9、上述方案中,所述数据库还包括一个或多个第四数据库,所述第四数据库包括至少一个操作对象,以及每个操作对象对应的第四更新参数,所述第四更新参数中包括:第一参数、抽样参数、抽样参数阈值和难易度阈值。
10、上述方案中,所述按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略,包括:基于所述第一更新参数中的第一参数,从所述第一数据库中获取增强操作;所述增强操作的数量满足大于或等于0且小于或等于所述第一数据库中的增强操作总数;在所述增强操作的数量大于0的情况下,基于所述第二更新参数中的第一参数,从所述第二数据库中获取每个增强操作对应的增强幅度;根据所述增强操作和对应的增强幅度,生成第一增强策略。
11、上述方案中,所述按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略,包括:基于所述第一更新参数中的第一参数,从所述第一数据库中获取增强操作;所述增强操作的数量满足大于或等于0且小于或等于所述第一数据库中的增强操作总数;在所述增强操作的数量大于0的情况下,基于所述第二更新参数中的第一参数,从所述第二数据库中获取每个增强操作对应的增强幅度;基于所述第四更新参数中的第一参数,从所述第四数据库中获取一个或多个操作对象;根据所述增强操作、对应的增强幅度和所述一个或多个操作对象,生成第一增强策略。
12、上述方案中,所述基于所述第一增强策略对第一训练数据进行增强处理,包括:基于所述第三更新参数中的第一参数,从所述第三数据库中获取第一训练数据;基于所述第一增强策略对第一训练数据进行增强处理。
13、上述方案中,所述根据所述第二参数更新所述第一参数和/或更新数据库中的元素,包括:根据所述第二参数和难易度阈值更新所述抽样参数;根据更新后的抽样参数和抽样参数阈值更新所述第一参数和/或更新数据库中的元素。
14、上述方案中,所述难易度阈值包括第一阈值和第二阈值,所述第一阈值大于所述第二阈值;所述根据所述第二参数和难易度阈值更新所述抽样参数,包括:当所述第二参数大于所述第一阈值时,基于所述抽样参数与第一值之和更新所述抽样参数;当所述第二参数小于所述第二阈值时,基于所述抽样参数与所述第一值之差更新所述抽样参数。
15、上述方案中,所述抽样参数阈值包括第三阈值和第四阈值,所述第三阈值大于所述第四阈值;所述根据更新后的抽样参数和抽样参数阈值更新所述第一参数和/或更新数据库中的元素,包括:当所述更新后的抽样参数大于所述第三阈值或者小于所述第四阈值时,删除所述数据库中所述更新后的抽样参数对应的元素;当所述更新后的抽样参数小于或等于所述第三阈值且大于或等于所述第四阈值时,根据所述更新后的抽样参数更新所述第一参数。
16、上述方案中,所述根据所述更新后的抽样参数更新所述第一参数,包括:当所述更新后的抽样参数大于更新前的抽样参数时,增大所述第一参数;当所述更新后的抽样参数小于更新前的抽样参数时,减小所述第一参数。
17、第二方面,本专利技术实施例还提供了一种数据增强处理装置,所述装置包括:第一处理单元、第二处理单元、第三处理单元和更新单元;其中,
18、所述第一处理单元,用于按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略,所述第一参数表示抽取到元素的概率;
19、所述第二处理单元,用于基于所述第一增强策略对第一训练数据进行增强处理,得到第二训练数据;
20、所述第三处理单元,用于利用所述第二训练数据对第一模型进行训练,获得第二参数,所述第二参数表示所述第二训练数据对于模型训练的难易程度;
21、所述更新单元,用于根据所述第二参数更新所述第一参数和/或更新数据库中的元素,基于更新后的第一参数和/或更新的数据库获得第二增强策略,以根据所述第二增强策略进行数据增强处理。
22、第三方面,本专利技术实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本专利技术实施例所述方法的步骤。
23、第六方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术实施例所述方法的步骤。
24、第七方面,本专利技术实施例还提供了一种本文档来自技高网...
【技术保护点】
1.一种数据增强处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述数据库还包括一个或多个第四数据库,所述第四数据库包括至少一个操作对象,以及每个操作对象对应的第四更新参数,所述第四更新参数中包括:第一参数、抽样参数、抽样参数阈值和难易度阈值。
4.根据权利要求2所述的方法,其特征在于,所述按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略,包括:
5.根据权利要求3所述的方法,其特征在于,所述按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略,包括:
6.根据权利要求2所述的方法,其特征在于,所述基于所述第一增强策略对第一训练数据进行增强处理,包括:
7.根据权利要求2所述的方法,其特征在于,所述根据所述第二参数更新所述第一参数和/或更新数据库中的元素,包括:
8.根据权利要求7所述的方法,其特征在于,所述难易度阈值包括第
9.根据权利要求7所述的方法,其特征在于,所述抽样参数阈值包括第三阈值和第四阈值,所述第三阈值大于所述第四阈值;所述根据更新后的抽样参数和抽样参数阈值更新所述第一参数和/或更新数据库中的元素,包括:
10.根据权利要求9所述的方法,其特征在于,所述根据所述更新后的抽样参数更新所述第一参数,包括:
11.一种数据增强处理装置,其特征在于,所述装置包括:第一处理单元、第二处理单元、第三处理单元和更新单元;其中,
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至10任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10任一项所述方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现根据权利要求1至10任一项所述的方法。
...【技术特征摘要】
1.一种数据增强处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述数据库还包括一个或多个第四数据库,所述第四数据库包括至少一个操作对象,以及每个操作对象对应的第四更新参数,所述第四更新参数中包括:第一参数、抽样参数、抽样参数阈值和难易度阈值。
4.根据权利要求2所述的方法,其特征在于,所述按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略,包括:
5.根据权利要求3所述的方法,其特征在于,所述按照第一参数对数据库中的元素进行加权抽样,获得第一增强策略,包括:
6.根据权利要求2所述的方法,其特征在于,所述基于所述第一增强策略对第一训练数据进行增强处理,包括:
7.根据权利要求2所述的方法,其特征在于,所述根据所述第二参数更新所述第一参数和/或更新数据库中的元素,包括:
8.根据权利要求7所述的方法,其特征在于,所述难易度阈值包括第一阈值和第...
【专利技术属性】
技术研发人员:沈瑶,张世磊,高莹莹,
申请(专利权)人:中国移动通信有限公司研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。