当前位置: 首页 > 专利查询>豪夫迈专利>正文

用于组织图像分类的多实例学习器制造技术

技术编号:34083091 阅读:12 留言:0更新日期:2022-07-11 19:20
本发明专利技术涉及一种对组织图像进行分类方法。所述方法包括:

【技术实现步骤摘要】
【国外来华专利技术】用于组织图像分类的多实例学习器


[0001]本专利技术涉及数字病理学领域,更特别地涉及图像分析领域。

技术介绍

[0002]已知有几种图像分类方法可用于将数字病理图像分类为不同的类别,诸如“健康组织”或“癌组织”等。例如,Sertan Kaymaka等人在“Breast cancer image classification using artificial neural networks”,《Procedia Computer Science》,第120卷,2017年,第126

131页中,描述了一种使用反向传播神经网络(BPPN)对乳腺癌诊断图像进行自动分类的方法。
[0003]然而,申请人已观察到,就乳房X光检查图像中癌症相关的节结的早期检测而言提供良好结果的各种机器学习技术未能对其他类型的组织切片的图像,特别是全视野载玻片图像进行分类。
[0004]与使用现有机器学习方法进行图像分类相关联的另一个问题是,经训练的机器学习程序通常就像是黑箱。在决定给某个患者施用潜在有效但副作用强烈的药物是否可行时,不得不完全或部分依赖这个“黑箱”,而不能以语言表述潜在的“决策逻辑”,这对于医生和患者来说都是不尽如人意的。
[0005]MAXIMILIAN ILSE等人的:“Attention

based Deep Multiple Instance Learning”,ARXIV.ORG,CORNELL UNIVERSITY LIBRARY,201OLIN LIBRARY CORNELL UNIVERSITY ITHACA,NY 14853,2018年2月13日,XP081235680,描述了基于注意力的多实例学习器(MIL)在组织病理学数据集上的应用。
[0006]匿名出版物“DEEP MULTIPLE INSTANCE LEARNING WITH GAUSSIAN WEIGHTING”,ICLR 2020Conference Blind Submission,2019年9月25日(2019

09

25),第1

10页,XP055698116,从URL:https://openreview.netiattachment?id=Bklrea4KwS&name=original.pdf在2020

05

25检索自互联网,描述了一种深度多实例学习(MIL)方法,其经过端到端训练以根据弱监督执行分类。MIL方法被实现为双流神经网络,专门用于实例分类和加权任务,利用高斯径向基函数通过在包内局部地对实例进行比较以及跨包全局地对实例进行比较来归一化实例权重。

技术实现思路

[0007]本专利技术目的是提供一种经改进的对组织图像进行分类的方法以及一种如独立权利要求中指出的对应图像分析系统。在从属权利要求中给出了本专利技术的实施例。如果本专利技术的实施例不是互相排斥的,则可以彼此自由地组合。
[0008]在一个方面,本专利技术涉及一种用于对组织图像进行分类的方法。该方法包括:
[0009]‑
通过图像分析系统接收多个数字图像;每个数字图像描绘了患者的组织样品;
[0010]‑
通过图像分析系统将每个所接收的图像拆分成一组图像块;
[0011]‑
针对块中的每个块,通过图像分析系统,计算特征向量,该特征向量包括从块中
选择性地提取的图像特征;
[0012]‑
提供多实例学习(MIL)程序,该多实例学习程序被配置成使用模型来基于从任何输入图像的所有块中提取的特征向量将所述任何输入图像分类为至少两个不同类别中的一个类别的成员;
[0013]‑
针对块中的每个块,计算确定性值(根据本专利技术的实施例在本文中称为“c”),该确定性值指示模型关于块的特征向量对从中导出块的图像的分类的贡献的确定性;
[0014]‑
针对图像中的每个图像:
[0015]●
通过MIL程序使用基于确定性值的池化函数用于将从图像中提取的特征向量聚合成全局特征向量作为图像的块的确定性值的函数,并且从全局特征向量计算聚合的预测值(根据本专利技术的实施例在本文中称为“ah”);或
[0016]●
通过MIL程序从图像的特征向量中的每个特征向量计算预测值,并且通过MIL程序使用基于确定性值的池化函数用于将图像的预测值聚合成聚合的预测值(根据本专利技术的实施例在本文中称为“ah”)作为图像的块的确性值的函数;以及
[0017]‑
通过MIL程序将图像中的每个图像基于聚合的预测值分类为至少两个不同类别中的一个类别的成员。
[0018]由于以下多种原因,这些特征可能是有益的:
[0019]多实例学习(MIL)程序是弱监督学习程序的一种形式,其被配置成从训练集学习,其中训练实例被布置在称为包的集合中,并且其中针对整个包提供标签,而包中的单独实例的标签是未知的。因此,MIL程序只需要弱注释的训练数据。该类型的数据在医学成像中尤其常见,因为对单独图像区域进行注释以提供充分注释的训练数据非常耗时且因此成本高昂。此外,暗示(具有高预测值使)数字图像属于特定类别的成员(例如,描绘健康组织的图像/描绘原发性肿瘤的图像/描绘转移的图像)的组织结构有时是病理学家所未知的或者无法察觉的。因此,使用MIL程序对数字组织图像进行分类可能具有以下优势:弱注释的训练数据足以训练能够准确地对数字组织图像进行分类的MIL程序。此外,经训练的MIL程序将能够准确地对数字组织图像进行分类,即使是在人类注释者(例如病理学家)不了解对组织的类别隶属关系具有高度预测性的组织结构并且因此无法选择具有组织区域(具有和不具有该组织结构)的无偏比的训练图像的情况下。
[0020]此外,使用具有基于确定性值的池化函数的MIL程序将模型不确定性合并到分类中。申请人已观察到,这大大提高了分类准确度,特别是在组织载玻片图像分析领域,特别是当组织载玻片图像是全视野载玻片图像时。
[0021]当MIL程序被用于解决计算病理学的问题时,要用作训练图像的全视野载玻片图像(WSI)被赋予全局标签(例如,指示活体组织检查中是否存在肿瘤细胞)。然后通过从训练WSI中对图像块进行采样来从训练WSI中提取多个实例,并将其分组到包中,其中每个包都含有从特定训练WSI中提取的块并具有该载玻片图像的全局标签。
[0022]在许多情况下,只有一小部分实例(块)将含有针对WSI标签的证据,例如当肿瘤位于活体组织检查的一小部分中时。此外,包的大小(每个训练WSI的块的数量)可能非常大,因为全分辨率的WSI中的组织的尺寸很大(在数千个实例或以上的量级)。这些因素形成具有挑战性的MIL环境。随着包变得更大,包中的负实例群体越大,包被错误分类的可能性就越大,因为有更多机会找到正类别的证据。深度学习模型的不稳定性质增加了这种可能性,
其中输入图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于对组织图像(212、712

718、822

282)进行分类的方法(100),所述方法包括:

通过图像分析系统(200)接收(102)多个数字图像(212、712

718、822

282),所述数字图像中的每个数字图像描绘患者的组织样品;

通过所述图像分析系统将每个所接收的图像拆分(104)成一组图像块(216、902

906、940、942);

针对所述块中的每个块,通过所述图像分析系统,计算(106)特征向量(220),所述特征向量(220)包含从所述块中选择性地提取的图像特征;

提供(108)多实例学习(MIL)程序(226),所述多实例学习程序(226)被配置为使用模型来基于从任何输入图像的所有块中提取的特征向量将所述输入图像分类为至少两个不同类别中的一个类别的成员;

针对所述块中的每个块,计算(110)确定性值(221),所述确定性值指示所述模型关于所述块的特征向量对从中导出所述块的图像的分类的贡献的确定性;

针对所述图像中的每个图像:
·
通过所述MIL程序(226)使用基于确定性值的池化函数(996)以作为所述图像的所述块的确定性值(221)的函数来将从所述图像中提取的特征向量聚合(111)成全局特征向量(995),并且从所述全局特征向量计算(112)聚合的预测值(997);或
·
通过所述MIL程序从所述图像的所述特征向量(220)中的每个特征向量计算(113)预测值(998),并且通过所述MIL程序(226)使用(114)基于确定性值的池化函数(996)以作为所述图像的所述块的确性值的函数来将所述图像的所述预测值聚合成聚合的预测值(997);以及

通过所述MIL程序将所述图像中的每个图像基于所述聚合的预测值分类(116)为所述至少两个不同类别中的一个类别的成员。2.根据权利要求1所述的方法,其进一步包括:

经由GUI将分类结果输出至用户;和/或

将所述分类结果输出到另一应用程序。3.根据前述权利要求中任一项所述的方法,

其中所述MIL程序为二进制MIL程序,

其中至少两个类别包括称为“正类别”的第一类别和称为“负类别”的第二类别,

其中如果MIL模型针对所述图像中的任何一个图像的所述块中的至少一个块预测这个块的特征向量包括针对所述“正类别”的证据,则这个图像分类为所述“正类别”,

其中如果所述MIL模型针对所述图像中的任何一个图像的所有的所述块预测其各自的特征向量均不包括针对所述“正类别”的证据,则这个图像分类为所述“负类别”。4.根据前述权利要求中任一项所述的方法,所述基于确定性值的池化函数在测试时使用,所述MIL程序的提供(108)包括:

在从一组训练图像生成的一组训练块中提取特征向量;

对所述MIL程序进行关于所述特征向量的训练,从而在训练时使用与在测试时使用的基于确定性值的池化函数相同的基于确定性值的池化函数,或者在训练时使用与在测试时使用的基于确定性值的池化函数不同的另一基于确定性值的池化函数,
其中优选地,在训练时使用的所述基于确定性值的池化函数为基于确定性值的最大池化函数或基于确定性值的均值池化函数,并且其中在测试时使用的所述基于确定性值的池化函数为基于确定性值的最大池化函数。5.根据前述权利要求中任一项所述的方法,其中所述基于确定性值的池化函数为基于确定性值的最大池化函数,其中对于所述图像中的每个图像,所述基于确定性值的池化函数的使用包括子方法a)、b、c)或d),所述子方法分别包括:

a1)以针对所述块中的每个块计算出的确定性值(c,221)对这个块的预测值(h,998)进行加权,从而获得加权的预测值(wh,228);

a2)识别针对所述图像的所有的所述块计算出的所有加权的预测值的最大值(wh
最大
);以及

a3)使用最大加权的预测值(wh
最大
)作为所述聚合的预测值(997);或

b)使用具有最大确定性值(c
最大
)的块的预测值(h,998)作为所述聚合的预测值(997);或

c1)以针对所述块中的每个块计算出的所述确定性值(c,221)对这个块的特征向量(fv,220)进行加权,从而获得加权的特征向量(wfv);

c2)识别针对所述图像的所有的所述块计算出的所有加权的特征向量的最大值(wfv
最大
);或

d)使用具有所述最大确定性值(c
最大
)的块的特征向量(fv)作为所述全局特征向量(995)。6.根据前述权利要求中任一项所述的方法,其中所述基于确定性值的池化函数为基于确定性值的均值池化函数,其中对于所述图像中的每个图像,所述基于确定性值的池化函数的使用包括:

以针对所述块中的每个块计算出的所述确定性值(c)对这个块的所述特征向量(fv)进行加权,从而获得加权的特征向量(wfv);以及计算所述全局特征向量作为所述图像的所有的所述加权的特征向量(wfv)的均值;或

以针对所述块中的每个块计算出的所述确定性值(c)对这个块的所述预测值(h)进行加权,从而获得加权的预测值(wh);计算所述图像的所述加权的预测值的均值;以及使用计算的均值作为所述聚合的预测值。7.根据前述权利要求中任一项所述的方法,其中所述MIL程序是神经网络,并且其中在所述神经网络的模型的训练和/或测试时使用丢弃技术计算所述确定性值。8.根据权利要求7所述的方法,其中所述确定性值被计算为蒙特

卡洛丢弃(MC Dropout)。9.根据前述权利要求中任一项所述的方法,其中所述丢弃技术和/或所述基于确定性值的池化函数在所述模型的测试时使用,而不是在所述模型的训练时使用。10.根据权利要求8或9所述的方法,其中所述神经网络包括一个或多个失活丢弃层,其中失活丢弃层是在训练时激活并在测试时失活的丢弃层,所述方法包括在测试时重新激活一个或多个丢弃层;或其中在训练时的所述神经网络没有任何丢弃层,所述方法包括在测试时向所述神经网络添加一个或多个丢弃层;
其中在测试时针对所述块中的任一块计算确定性值进一步包括:

针对所述块中的每个块,基于从所述块中提取的特征向量多次计算预测值(h
d
),其中每次计算所述预测值(h
d
)时,一个或多个重新激活或添加的丢弃层丢弃所述网络的节点的不同子集;

...

【专利技术属性】
技术研发人员:E
申请(专利权)人:豪夫迈
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1