筛查模型的训练方法、装置及存储介质制造方法及图纸

技术编号：21606947 阅读：29 留言：0更新日期：2019-07-13 18:42

本发明专利技术实施例提出一种筛查模型的训练装置、方法及计算机可读存储介质。其中筛查模型的训练装置包括：聚类单元，用于利用聚类算法对源领域数据进行划分，将源领域划分为多个子领域；学习单元，用于在多个所述子领域分别进行迁移学习，得到多个用于对目标领域数据进行分类的子领域分类器；集成单元，用于将多个所述子领域分类器进行集成，得到目标领域分类器。本发明专利技术实施例由于在多个子领域进行了更细粒度的知识迁移，因而能够得到效果更好的分类器，同时通过多源迁移学习减少了目标领域中的数据标注成本。

Training methods, devices and storage media for screening models

全部详细技术资料下载

【技术实现步骤摘要】
筛查模型的训练方法、装置及存储介质
本专利技术涉及信息
，尤其涉及一种筛查模型的训练方法、装置及计算机可读存储介质。
技术介绍
目前常用的人工智能筛查系统，在部署到新的应用环境中时，由于新的应用环境使用的筛查机型不一样，数据来源也不一样，例如图像的亮度、对比度可能都不同，直接使用源领域数据会影响性能。因此需要在新的应用环境中收集大规模的标注数据用于训练筛查模型，从而得到预测性能较高的筛查模型。这一迁移过程的数据收集和标注的成本较高。另外，由于数据获取设备的不同，例如拍摄设备的多样性以及拍摄角度、光照条件等方面的不同，源领域的数据可能服从不同的数据分布。这些数据互相之间存在的分布差异会导致源领域训练的分类器在新的应用环境中难以得到令人满意的效果。目前针对新的应用环境部署筛查系统的方式包括以下几种：(1)收集大量的数据，然后请专家进行人工标注，得到带有标记的训练数据，从而学习到分类器。(2)直接利用已有的源领域标注数据训练得到分类器，对新的应用环境中的数据进行分类。(3)利用单源迁移学习技术，利用带有标注的源领域数据和无标注的目标领域数据，学习到能够用于对目标领域数据进行分类的分类器。以上部署方式的主要缺陷包括：(1)对新的应用环境中的数据进行人工标注的方法，需要花费大量人力物力和时间，数据标注的成本较高。此外，这种方法没有有效利用已有的源领域数据。(2)直接利用已有的源领域标注数据的方法，由于已有的源领域标注数据和新环境中的数据来自不同的采集设备和人群，因而数据之间存在较大的分布差异。这种差异往往导致源领域训练的分类器在新的应用环境中难以得到令人满意的...

【技术保护点】
1.一种筛查模型的训练装置，其特征在于，包括：聚类单元，用于利用聚类算法对源领域数据进行划分，将源领域划分为多个子领域；学习单元，用于在多个所述子领域分别进行迁移学习，得到多个用于对目标领域数据进行分类的子领域分类器；集成单元，用于将多个所述子领域分类器进行集成，得到目标领域分类器。

【技术特征摘要】
1.一种筛查模型的训练装置，其特征在于，包括：聚类单元，用于利用聚类算法对源领域数据进行划分，将源领域划分为多个子领域；学习单元，用于在多个所述子领域分别进行迁移学习，得到多个用于对目标领域数据进行分类的子领域分类器；集成单元，用于将多个所述子领域分类器进行集成，得到目标领域分类器。2.根据权利要求1所述的装置，其特征在于，所述聚类单元用于：对所述源领域数据进行特征提取；利用聚类算法对所述特征进行聚类分析，从而将源领域划分为多个子领域。3.根据权利要求1所述的装置，其特征在于，所述学习单元包括：第一训练子单元，用于在多个所述子领域分别训练源领域编码器和所述子领域分类器；第二训练子单元，用于在多个所述子领域分别利用生成式对抗网络训练领域分类器和目标领域编码器；其中，所述源领域编码器的输入信息包括来源于所述子领域的第一样本，所述源领域编码器的输出信息包括从所述第一样本中提取的特征向量；所述子领域分类器用于对所述特征向量进行分类；所述目标领域编码器的输入信息包括来源于所述目标领域的第二样本，所述目标领域编码器的输出信息包括从所述第二样本中提取的特征向量；所述领域分类器用于判别输入的特征向量来源于所述子领域或所述目标领域。4.根据权利要求3所述的装置，其特征在于，所述第二训练子单元用于：将所述源领域编码器输出的特征向量和所述目标领域编码器输出的特征向量输入到所述领域分类器，由所述领域分类器判别输入的特征向量来源于所述子领域或所述目标领域；若所述领域分类器无法判别输入的特征向量来源于所述子领域或所述目标领域，则将所述目标领域编码器和所述子领域分类器用于对目标领域数据进行分类。5.根据权利要求1至4中任一项所述的装置，其特征在于，所述集成单元用于：将多个所述子领域分类器的分类结果的平均值，作为所述目标领域分类器的分类结果。6.一种筛查模型的训练方法，其特征在于，包括：利用聚类算法对源领域数据进行划分，将源领域划分为多个子领域；在多个所述子领域分别进行迁移学习，得到多个用于对目标领域数据进行分类的子领域分类器；将多个所述子领域分类器进行集成，得到目标领域分...

【专利技术属性】
技术研发人员：孙旭，杨叶辉，王磊，许言午，黄艳，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人