筛查模型的训练方法、装置及存储介质制造方法及图纸

技术编号:21606947 阅读:29 留言:0更新日期:2019-07-13 18:42
本发明专利技术实施例提出一种筛查模型的训练装置、方法及计算机可读存储介质。其中筛查模型的训练装置包括:聚类单元,用于利用聚类算法对源领域数据进行划分,将源领域划分为多个子领域;学习单元,用于在多个所述子领域分别进行迁移学习,得到多个用于对目标领域数据进行分类的子领域分类器;集成单元,用于将多个所述子领域分类器进行集成,得到目标领域分类器。本发明专利技术实施例由于在多个子领域进行了更细粒度的知识迁移,因而能够得到效果更好的分类器,同时通过多源迁移学习减少了目标领域中的数据标注成本。

Training methods, devices and storage media for screening models

【技术实现步骤摘要】
筛查模型的训练方法、装置及存储介质
本专利技术涉及信息
,尤其涉及一种筛查模型的训练方法、装置及计算机可读存储介质。
技术介绍
目前常用的人工智能筛查系统,在部署到新的应用环境中时,由于新的应用环境使用的筛查机型不一样,数据来源也不一样,例如图像的亮度、对比度可能都不同,直接使用源领域数据会影响性能。因此需要在新的应用环境中收集大规模的标注数据用于训练筛查模型,从而得到预测性能较高的筛查模型。这一迁移过程的数据收集和标注的成本较高。另外,由于数据获取设备的不同,例如拍摄设备的多样性以及拍摄角度、光照条件等方面的不同,源领域的数据可能服从不同的数据分布。这些数据互相之间存在的分布差异会导致源领域训练的分类器在新的应用环境中难以得到令人满意的效果。目前针对新的应用环境部署筛查系统的方式包括以下几种:(1)收集大量的数据,然后请专家进行人工标注,得到带有标记的训练数据,从而学习到分类器。(2)直接利用已有的源领域标注数据训练得到分类器,对新的应用环境中的数据进行分类。(3)利用单源迁移学习技术,利用带有标注的源领域数据和无标注的目标领域数据,学习到能够用于对目标领域数据进行分类的分类器。以上部署方式的主要缺陷包括:(1)对新的应用环境中的数据进行人工标注的方法,需要花费大量人力物力和时间,数据标注的成本较高。此外,这种方法没有有效利用已有的源领域数据。(2)直接利用已有的源领域标注数据的方法,由于已有的源领域标注数据和新环境中的数据来自不同的采集设备和人群,因而数据之间存在较大的分布差异。这种差异往往导致源领域训练的分类器在新的应用环境中难以得到令人满意的效果。(3)单源迁移学习的方法,由于在源领域数据采集过程中,设备、光照条件、人群、拍摄人员操作手法等方面的不同,在源领域中也可能存在多个子领域,各个子领域数据互相之间存在一定的分布差异。采用单源迁移学习算法,会忽略这种领域内部的子领域之间的分布差异,因而制约了源领域分类器的性能。
技术实现思路
本专利技术实施例提供一种筛查模型的训练方法、装置及计算机可读存储介质,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种筛查模型的训练装置,包括:聚类单元,用于利用聚类算法对源领域数据进行划分,将源领域划分为多个子领域;学习单元,用于在多个所述子领域分别进行迁移学习,得到多个用于对目标领域数据进行分类的子领域分类器;集成单元,用于将多个所述子领域分类器进行集成,得到目标领域分类器。在一种实施方式中,所述聚类单元用于:对所述源领域数据进行特征提取;利用聚类算法对所述特征进行聚类分析,从而将源领域划分为多个子领域。在一种实施方式中,所述学习单元包括:第一训练子单元,用于在多个所述子领域分别训练源领域编码器和所述子领域分类器;第二训练子单元,用于在多个所述子领域分别利用生成式对抗网络训练领域分类器和目标领域编码器;其中,所述源领域编码器的输入信息包括来源于所述子领域的第一样本,所述源领域编码器的输出信息包括从所述第一样本中提取的特征向量;所述子领域分类器用于对所述特征向量进行分类;所述目标领域编码器的输入信息包括来源于所述目标领域的第二样本,所述目标领域编码器的输出信息包括从所述第二样本中提取的特征向量;所述领域分类器用于判别输入的特征向量来源于所述子领域或所述目标领域。在一种实施方式中,所述第二训练子单元用于:将所述源领域编码器输出的特征向量和所述目标领域编码器输出的特征向量输入到所述领域分类器,由所述领域分类器判别输入的特征向量来源于所述子领域或所述目标领域;若所述领域分类器无法判别输入的特征向量来源于所述子领域或所述目标领域,则将所述目标领域编码器和所述子领域分类器用于对目标领域数据进行分类。在一种实施方式中,所述集成单元用于:将多个所述子领域分类器的分类结果的平均值,作为所述目标领域分类器的分类结果。第二方面,本专利技术实施例提供了一种筛查模型的训练方法,包括:利用聚类算法对源领域数据进行划分,将源领域划分为多个子领域;在多个所述子领域分别进行迁移学习,得到多个用于对目标领域数据进行分类的子领域分类器;将多个所述子领域分类器进行集成,得到目标领域分类器。在一种实施方式中,利用聚类算法对源领域数据进行划分,将源领域划分为多个子领域,包括:对所述源领域数据进行特征提取;利用聚类算法对所述特征进行聚类分析,从而将源领域划分为多个子领域。在一种实施方式中,在多个所述子领域分别进行迁移学习,得到多个用于对目标领域数据进行分类的子领域分类器,包括:在多个所述子领域分别训练源领域编码器和所述子领域分类器;在多个所述子领域分别利用生成式对抗网络训练领域分类器和目标领域编码器;其中,所述源领域编码器的输入信息包括来源于所述子领域的第一样本,所述源领域编码器的输出信息包括从所述第一样本中提取的特征向量;所述子领域分类器用于对所述特征向量进行分类;所述目标领域编码器的输入信息包括来源于所述目标领域的第二样本,所述目标领域编码器的输出信息包括从所述第二样本中提取的特征向量;所述领域分类器用于判别输入的特征向量来源于所述子领域或所述目标领域。在一种实施方式中,在多个所述子领域分别利用生成式对抗网络训练领域分类器和目标领域编码器,包括:将所述源领域编码器输出的特征向量和所述目标领域编码器输出的特征向量输入到所述领域分类器,由所述领域分类器判别输入的特征向量来源于所述子领域或所述目标领域;若所述领域分类器无法判别输入的特征向量来源于所述子领域或所述目标领域,则将所述目标领域编码器和所述子领域分类器用于对目标领域数据进行分类。在一种实施方式中,将多个所述子领域分类器进行集成,得到目标领域分类器,包括:将多个所述子领域分类器的分类结果的平均值,作为所述目标领域分类器的分类结果。第三方面,本专利技术实施例提供了一种筛查模型的训练装置,所述装置的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述装置的结构中包括处理器和存储器,所述存储器用于存储支持所述装置执行上述筛查模型的训练方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口,用于与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储筛查模型的训练装置所用的计算机软件指令,其包括用于执行上述筛查模型的训练方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:由于在多个子领域进行了更细粒度的知识迁移,因而能够得到效果更好的分类器,同时通过多源迁移学习减少了目标领域中的数据标注成本。上述技术方案中的另一个技术方案具有如下优点或有益效果:利用生成式对抗网络及多源迁移学习算法,能够学习到领域之间共享的特征子空间,从而减小了不同领域数据分布之间的差异。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅本文档来自技高网
...

【技术保护点】
1.一种筛查模型的训练装置,其特征在于,包括:聚类单元,用于利用聚类算法对源领域数据进行划分,将源领域划分为多个子领域;学习单元,用于在多个所述子领域分别进行迁移学习,得到多个用于对目标领域数据进行分类的子领域分类器;集成单元,用于将多个所述子领域分类器进行集成,得到目标领域分类器。

【技术特征摘要】
1.一种筛查模型的训练装置,其特征在于,包括:聚类单元,用于利用聚类算法对源领域数据进行划分,将源领域划分为多个子领域;学习单元,用于在多个所述子领域分别进行迁移学习,得到多个用于对目标领域数据进行分类的子领域分类器;集成单元,用于将多个所述子领域分类器进行集成,得到目标领域分类器。2.根据权利要求1所述的装置,其特征在于,所述聚类单元用于:对所述源领域数据进行特征提取;利用聚类算法对所述特征进行聚类分析,从而将源领域划分为多个子领域。3.根据权利要求1所述的装置,其特征在于,所述学习单元包括:第一训练子单元,用于在多个所述子领域分别训练源领域编码器和所述子领域分类器;第二训练子单元,用于在多个所述子领域分别利用生成式对抗网络训练领域分类器和目标领域编码器;其中,所述源领域编码器的输入信息包括来源于所述子领域的第一样本,所述源领域编码器的输出信息包括从所述第一样本中提取的特征向量;所述子领域分类器用于对所述特征向量进行分类;所述目标领域编码器的输入信息包括来源于所述目标领域的第二样本,所述目标领域编码器的输出信息包括从所述第二样本中提取的特征向量;所述领域分类器用于判别输入的特征向量来源于所述子领域或所述目标领域。4.根据权利要求3所述的装置,其特征在于,所述第二训练子单元用于:将所述源领域编码器输出的特征向量和所述目标领域编码器输出的特征向量输入到所述领域分类器,由所述领域分类器判别输入的特征向量来源于所述子领域或所述目标领域;若所述领域分类器无法判别输入的特征向量来源于所述子领域或所述目标领域,则将所述目标领域编码器和所述子领域分类器用于对目标领域数据进行分类。5.根据权利要求1至4中任一项所述的装置,其特征在于,所述集成单元用于:将多个所述子领域分类器的分类结果的平均值,作为所述目标领域分类器的分类结果。6.一种筛查模型的训练方法,其特征在于,包括:利用聚类算法对源领域数据进行划分,将源领域划分为多个子领域;在多个所述子领域分别进行迁移学习,得到多个用于对目标领域数据进行分类的子领域分类器;将多个所述子领域分类器进行集成,得到目标领域分...

【专利技术属性】
技术研发人员:孙旭杨叶辉王磊许言午黄艳
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1