System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种模型生成方法、装置、设备及存储介质制造方法及图纸_技高网

一种模型生成方法、装置、设备及存储介质制造方法及图纸

技术编号:40280936 阅读:7 留言:0更新日期:2024-02-07 20:35
本发明专利技术公开了一种模型生成方法、装置、设备及存储介质,属于软件技术领域。所述方法包括:基于接收到的新数据集,提取对应的测试集;其中所述测试集能够表征新数据集的数据分布;基于测试集的数据特征,从预设的模型库中确定多个相似样本集,以及每个相似样本集对应的客户数据集和稳定模型;其中,所述模型库中配置有多个稳定模型,稳定模型对应有客户数据集,所述相似样本集是从客户数据集中提取得到的;基于相似样本集、客户数据集计算控制参数;其中所述控制参数用于控制后续步骤中对全连接层某一类别下权重参数的修改;基于相似样本集对应的多个稳定模型和控制参数,生成对应于新数据集的稳定模型。

【技术实现步骤摘要】

本专利技术涉及一种模型生成方法、装置、设备及存储介质,属于软件。


技术介绍

1、常规的神经网络任务面向的客户需求都有一定的相似性,例如一家ai公司可能拥有多个同行业客户,而这些客户都有着相似的目标检测任务需求。在满足不同客户的服务同时,也积累了大量的数据以及模型。在遇到新的同行业客户时,能否在不泄露过往数据的情况下,辅助新客户模型的训练是一项挑战。

2、新的数据往往都是未标注的,而人工标注的成本往往都是巨大的,训练人员或者客户只能提供少量的标注数据作为测试集,而剩余大量的未标注训练集依然是个问题。自训练通过现有模型预测新数据的标签,再将预测置信度高的训练样本投入到新模型的训练中,并重复预测与训练的过程。自训练能够一定程度上解决人工标注的麻烦,但自训练的前提是初始的模型能够一定程度的预测新数据。

3、因此,如何在不标注或者少标注新数据情况下,利用已有的训练数据、训练好的模型生成新数据的模型是需要解决的技术问题。


技术实现思路

1、目的:鉴于以上技术问题中的至少一项,本专利技术提供一种模型生成方法、装置、设备及存储介质,在接收到新数据集时,可以基于已有的模型和数据集,直接生成对应新数据集的模型,而不需要对新数据集进行人工标注,可以极大节省数据标注、模型训练的人力成本和时间成本。

2、技术方案:为解决上述技术问题,本专利技术采用的技术方案为:

3、第一方面,本专利技术提供了一种模型生成方法,所述方法包括:

4、基于接收到的新数据集,提取对应的测试集;其中所述测试集能够表征新数据集的数据分布;

5、基于测试集的数据特征,从预设的模型库中确定多个类别的相似样本集,以及每个相似样本集对应的客户数据集和稳定模型;其中,所述模型库中配置有多个稳定模型,稳定模型对应有客户数据集,所述相似样本集是从客户数据集中提取得到的;

6、基于相似样本集、客户数据集计算控制参数;其中所述控制参数用于控制后续步骤中对全连接层某一类别下权重参数的修改;

7、基于相似样本集对应的多个稳定模型和控制参数,生成对应于新数据集的稳定模型。

8、在一些实施例中,所述新数据集是新客户的数据集,或者是老客户的新应用场景下的数据集。

9、在一些实施例中,所述稳定模型表示为能够直接部署在应用场景中的模型;客户数据集是对应于应用场景下的数据集;

10、进一步地,每个稳定模型都是由对一个经过预先训练的基础模型进行微调得到的;其中微调所采用的训练数据是针对应用场景所需要的数据采集得到。

11、在一些实施例中,在模型库中,每个稳定模型对应有具体的客户标识以及客户数据集;所述客户标识是对应于应用场景的,同一个客户标识能对应有一个或多个应用场景;若同一个客户标识对应有多个应用场景,每个应用场景的客户数据集是不同的。

12、在一些实施例中,从预设的模型库中确定多个类别的相似样本集,包括:

13、将测试集按照分类的类别进行拆分,得到多个类别,每个类别对应多个数据;所述数据为图像数据、文本数据或语音数据;

14、基于不同类别的数据的特征表达,从不同的客户数据集中寻找相似的客户数据,以构成相似样本集。

15、在一些实施例中,从特征表达的相似度的角度,从不同的客户数据集中寻找相似的客户数据,具体包括:

16、将新数据集对应的测试集、客户数据集的特征向量均映射到同一个的特征空间中进行比较特征的相似度;

17、若所述数据为图像数据,在进行映射之前,基于标注将测试集中的目标以及客户数据集中的目标裁剪出来,得到包括有目标的各个图像对应的子图像;基于测试集中各个图像、各个客户数据集中的各个图像对应的子图像,采用同样的方法生成对应的图像特征,实现将图像特征均映射到同一个的特征空间中;

18、若所述数据为文本数据,采用词嵌入的方法,将每个词映射到一个连续的向量空间,词之间的语义相似度会转化为向量之间的距离;对于是文本段的文本数据,通过将一个文本段中所有的词的词向量取平均的方法,获得对应的向量表示;或直接将将文本数据输入至bert预训练语言模型中,通过预训练语言模型生成对应的文本向量;

19、若所述数据为文本数据或者是语音数据,对语音数据进行预处理,对预处理后的语音数据进行特征提取生成语音特征;或使用深度学习模型进行进一步的特征提取和映射;或者直接使用预训练语音模型生成对应的向量。

20、在一些实施例中,基于相似样本集对应的多个稳定模型多个稳定模型和控制参数,生成对应于新数据集的稳定模型,包括:

21、从相似样本集对应的多个稳定模型中选择一个稳定模型作为初始模型;

22、提取各个稳定模型的全连接层的权重参数,得到多个权重参数矩阵;

23、按照类别从各个权重参数矩阵中抽取对应的学习向量,并结合控制参数计算对应类别的学习向量;

24、将各个类别的学习向量进行组合得到新的权重参数矩阵,使用新的权重参数矩阵替换初始模型中的全连接层的权重参数矩阵,得到对应于新数据集的稳定模型。

25、在一些实施例中,所述控制参数包括:相似样本集与客户数据集的交并比iouj以及客户数据集中被涵盖的相似样本数量sj与对应的客户数据集所有样本dataj的比值coveragej;按照类别从各个权重参数矩阵中抽取对应的学习向量,并结合控制参数计算对应类别的学习向量,包括:

26、vnew=∑(iouj*max(0.5,coveragej))vj

27、式中,vnew为对应类别的学习向量,vj为第j个稳定模型的全连接层中某一类别的学习向量,是权重参数矩阵中关于这一类别一列的权重参数。

28、进一步地,相似样本集与客户数据集的交并比iouj,包括:

29、

30、式中,kn表示相似样本集中的数据量,dataj表示为多个客户数据集中,第j个客户数据集中数据量。

31、进一步地,客户数据集中被涵盖的相似样本数量sj与对应的客户数据集所有样本dataj的比值coveragej,包括:

32、

33、式中,sj表示为多个客户数据集中,第j个客户数据集中被涵盖的数据量;dataj表示为多个客户数据集中,第j个客户数据集中的数据量。

34、8.根据权利要求1所述的模型生成方法,其特征在于,生成对应于新数据集的稳定模型之后,还包括:

35、汇总各个类别的相似样本集作为微调数据集;

36、使用该微调数据集对所述对应于新数据集的稳定模型进行微调训练。

37、9.根据权利要求1所述的模型生成方法,其特征在于,生成对应于新数据集的稳定模型之后,还包括使用自训练的方法提高所述对应于新数据集的稳定模型的准确率,具体包括:

38、构建训练数据,其中所述训练数据包括:(1)微调数据集,通过汇总各个类别的相似样本集形成;(2)本文档来自技高网...

【技术保护点】

1.一种模型生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的模型生成方法,其特征在于,所述新数据集是新客户的数据集,或者是老客户的新应用场景下的数据集;

3.根据权利要求1所述的模型生成方法,其特征在于,从预设的模型库中确定多个类别的相似样本集,包括:

4.根据权利要求3所述的模型生成方法,其特征在于,从特征表达的相似度的角度,从不同的客户数据集中寻找相似的客户数据,具体包括:

5.根据权利要求1所述的模型生成方法,其特征在于,基于相似样本集对应的多个稳定模型多个稳定模型和控制参数,生成对应于新数据集的稳定模型,包括:

6.根据权利要求1所述的模型生成方法,其特征在于,所述控制参数包括:相似样本集与客户数据集的交并比iouj以及客户数据集中被涵盖的相似样本数量Sj与对应的客户数据集所有样本Dataj的比值Coveragej;按照类别从各个权重参数矩阵中抽取对应的学习向量,并结合控制参数计算对应类别的学习向量,包括:

7.根据权利要求6所述的模型生成方法,其特征在于,相似样本集与客户数据集的交并比iouj,包括:

8.根据权利要求1所述的模型生成方法,其特征在于,生成对应于新数据集的稳定模型之后,还包括:

9.根据权利要求1所述的模型生成方法,其特征在于,生成对应于新数据集的稳定模型之后,还包括使用自训练的方法提高所述对应于新数据集的稳定模型的准确率,具体包括:

10.一种模型生成装置,其特征在于,所述装置包括:

...

【技术特征摘要】

1.一种模型生成方法,其特征在于,所述方法包括:

2.根据权利要求1所述的模型生成方法,其特征在于,所述新数据集是新客户的数据集,或者是老客户的新应用场景下的数据集;

3.根据权利要求1所述的模型生成方法,其特征在于,从预设的模型库中确定多个类别的相似样本集,包括:

4.根据权利要求3所述的模型生成方法,其特征在于,从特征表达的相似度的角度,从不同的客户数据集中寻找相似的客户数据,具体包括:

5.根据权利要求1所述的模型生成方法,其特征在于,基于相似样本集对应的多个稳定模型多个稳定模型和控制参数,生成对应于新数据集的稳定模型,包括:

6.根据权利要求1所述的模型生成方法,其特征在于,所述控制参数包括:相似样本...

【专利技术属性】
技术研发人员:唐琦松吴鑫林平谢涛
申请(专利权)人:上海艺赛旗软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1