一种基于主动学习的染色体多分类方法技术

技术编号：41422748 阅读：2 留言：0更新日期：2024-05-28 20:22

本发明专利技术公开了一种基于主动学习的染色体多分类方法，其包括分类模型f，所述分类模型使用已经标注的染色体数据集D<supgt;l</supgt;和未标注的染色体数据集D<supgt;u</supgt;进行训练，所述标注的染色体数据集D<supgt;l</supgt;中包括若干个已经预先标注染色体类别的染色体样本，所述未标注的染色体数据集D<supgt;u</supgt;包括若干个未标注染色体类别的染色体样本；然后将染色体样本混合前的特征和染色体混合后的特征输入到分类器中，分别得到染色体样本混合前的染色体类别和混合后的染色体类别，然后筛选出发生标签翻转的样本，作为需要人工筛选的高价值目标，从而大大减少了需要人工标注的样本数量，提高了标注的效率和成本。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能领域，尤其涉及一种基于主动学习的染色体多分类方法。

技术介绍

1、基于主动学习的染色体多分类方法是指利用特征混合的主动学习策略选择染色体数据中最具信息量的染色体图像进行标注，从而实现在降低染色体样本标注成本的同时保证模型达到预期性能。该方法主要基于计算机视觉中的主动学习方法。

2、现有技术的缺陷和不足：

3、在染色体中期相中包含大量的染色体，将所有的单条染色体根据不同类别染色体的形态结构进行分类需要耗费大量的时间和精力，而一些染色体由于玻片制作和细胞分裂时期不固定等原因导致形态结构的差异较小，使分类难度增大，分类准确度降低。

4、标注数据稀缺性：传统的监督学习方法通常需要大量标注样本来训练模型。染色体核型的分类标注任务具有很强的专业性和复杂性，需要医学图像领域经验丰富的专家进行图像标注，因此获取高质量标注样本的经济和时间成本十分高昂。由于获取到的训练数据较少，导致现有模型很难真正学习到各类染色体的特征。且现有方法缺乏有效的机制来应对标记样本数量不足的问题，导致模型的泛化性能受到制约。

5、特征提取的局限性：传统的方法通常依赖于手工设计的特征，这些特征可能无法充分表达染色体图像的复杂结构和变化。同时在手工设计特征的过程中，受限于先验知识和经验，无法充分提取染色体图像中的潜在特征，会存在信息损失和失真的问题，导致模型的性能和泛化能力不足。

技术实现思路

1、本专利技术的目的在于提供一种解决或部分解决上述技术问题的基于

2、为实现上述目的，本专利技术提供如下技术方案：

3、一种基于主动学习的染色体多分类方法，其包括分类模型，所述分类模型使用已经标注的染色体数据集和未标注的染色体数据集进行训练，所述标注的染色体数据集中包括若干个已经预先标注染色体类别的染色体样本，所述未标注的染色体数据集包括若干个未标注染色体类别的染色体样本，训练所述分类模型包括以下步骤：

4、s1. 使用已经标注的染色体数据集训练所述分类模型，并得到其中每个染色体类别的平均特征；所述分类模型由进行特征提取的卷积神经网络和分类器组成；

5、s2. 遍历未标注的染色体数据集中的所有染色体样本，由进行特征提取的卷积神经网络，提取每个染色体样本特征得到每个染色体样本混合前的特征，其中包括其染色体类别的伪标签；

6、s3. 根据染色体样本特征以及其对应染色体类别的平均特征计算染色体样本的混合系数；其中，为交叉熵损失函数，为分类器，为混合系数，为损失函数的梯度，为矩阵点乘运算符；

7、s4. 由混合系数求解所述未标注的染色体数据集中每个染色体样本的染色体混合后特征；

8、s5. 将染色体样本混合前的特征和染色体混合后的特征输入到分类器中，分别得到染色体样本混合前的染色体类别和混合后的染色体类别；

9、s6.比较染色体样本混合前的染色体类别和混合后的染色体类别，如果不一致，则将该染色体样本作为高价值样本，加入候选样本集。

10、优选的，所述分类器为多层感知器或残差神经网络。

11、优选的，还包括以下步骤：

12、s7. 候选样本集聚类为个簇，是预先设定的预算数;

13、s8. 选择每个聚类簇的中心样本，进行标注得到新标注的样本；

14、s9. 将新标注的样本加入已经标注的染色体数据集中，以得到新的已经标注的染色体数据集，并从未标注的染色体数据集中移除新标注的样本。

15、本专利技术将染色体样本混合前的特征和染色体混合后的特征输入到分类器中，分别得到染色体样本混合前的染色体类别和混合后的染色体类别，然后筛选出发生标签翻转的样本，作为需要人工筛选的高价值目标，从而大大减少了需要人工标注的样本数量，提高了标注的效率和成本。

本文档来自技高网...

【技术保护点】

1.一种基于主动学习的染色体多分类方法，其包括分类模型，其特征在于，所述分类模型使用已经标注的染色体数据集和未标注的染色体数据集进行训练，所述标注的染色体数据集中包括若干个已经预先标注染色体类别的染色体样本，所述未标注的染色体数据集包括若干个未标注染色体类别的染色体样本，训练所述分类模型包括以下步骤：

2.根据权利要求1所述的一种基于主动学习的染色体多分类方法，其特征在于：所述分类器为多层感知器或残差神经网络。

3.根据权利要求1所述的一种基于主动学习的染色体多分类方法，其特征在于：还包括以下步骤：

【技术特征摘要】

1.一种基于主动学习的染色体多分类方法，其包括分类模型，其特征在于，所述分类模型使用已经标注的染色体数据集和未标注的染色体数据集进行训练，所述标注的染色体数据集中包括若干个已经预先标注染色体类别的染色体样本，所述未标注的染色体数据集包括若干个未标注染色体类别的染色...

【专利技术属性】
技术研发人员：李娜，胡敬栋，苏俊楷，
申请(专利权)人：笑纳科技苏州有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人