本发明专利技术提供可用于在多维数据中对目标群体设门的自动设门方法,其中所述目标群体仅为所述数据中可鉴定的群体的子集。将所述群体建模为多变量概率分布的有限混合,优选正态分布或t分布。使用期望最大化(EM)算法评估为所述数据提供模型分布的最佳拟合的分布参数,期望最大化(EM)算法还包括动态邻域阈值选取,其能够实现对所述数据中存在的群簇的子集设门。
【技术实现步骤摘要】
【国外来华专利技术】混合模型密度设门中的邻域阈值选取
技术介绍
本专利技术总体上涉及在多维数据中定位群簇(cluster)的方法。本专利技术尤其可用于鉴定由细胞计量术,更具体地,流式细胞仪生成的数据中对应于细胞或颗粒群体的群簇。相关技术描述诸如流式细胞仪和扫描细胞仪的颗粒分析仪是众所周知的分析工具,其能实现基于诸如光散射和荧光的光学参数来表征颗粒。在流式细胞仪中,例如,在液体悬浮液中的颗粒(如分子、结合分析物的珠或个体细胞)经过检测区域,在所述检测区域中颗粒暴露于通常来自一个或多个激光器的激发光,测量颗粒的光散射和荧光性质。颗粒或其组分通常被标记有荧光染料以便于检测,通过使用光谱特性不同的荧光染料标记不同颗粒或组分,可同时检测大量不同颗粒或组分。通常,有多个光检测器,其一针对待测量的每个散射参数,其一针对待检测的每种不同染料。获得的数据包括针对每个光散射参数和荧光发射的所测量的信号。细胞仪还包括记录所测数据和分析该数据的装置。例如,通常使用连接至检测电子设备的计算机来进行数据存储和分析。数据通常以列表形式存储,其中每一行对应一个颗粒的数据,而列对应于每一测得的参数。使用标准文件形式(如“FCS”文件形式)存储来自流式细胞仪的数据可便于使用单独的程序和机器分析数据。使用当前的分析方法,所述数据通常以二维(2D)图形式展示以便于可视化,但其它方法可用于将多维数据可视化。用流式细胞仪测量的参数通常包括颗粒沿着主要向前方散射的激发光,称为前向散射(FSC),颗粒沿着主要侧向散射的激发光,称为侧向散射(SSC),以及在光谱的一个或多个频道(频率范围)内由荧光分子发射的光,称为FL1、FL2等,或在该频道内主要检测的荧光染料发射的光。通过来自用染料标记的抗体标记各种细胞蛋白产生的散射参数和荧光发射可以鉴定不同的细胞类型。流式细胞仪和扫描细胞仪均可商购,例如可购自BDBiosciences(SanJose,CA)。流式细胞术在本领域的各种文献有详细描述,包括例如,Landy等人(eds.),ClinicalCytometry,AnnalsoftheNewYorkAcademyofSciencesVolume677(1993);Bauer等人(eds),ClinicalCytometry:PrinciplesandApplications,Williams&Wilkins(1993;Ormerod(ed.),Cytometry:APracticalApproach,OxfordUniv.Press(1997);Jaroszeski等人(eds.),CytometryProtocols,MethodsinMolecularBiologyNo.91,HumanaPress(1997);以及PracticalCytometry,4thed.,Wiley-Liss(2003);通过引用方式将上述文献全部并入本文。荧光显微成像描述于,例如,Pawley(ed),HandbookofBiologicalConfocalMicroscopy,2ndEdition,PlenumPress(1989),通过引用方式将其并入本文。通过多色流式细胞术进行细胞(或其它颗粒)分析获得的数据是多维的,其中每个细胞对应于由所测参数确定的多维空间中的一个点。细胞或颗粒群体被鉴定为所述数据空间中的点的群簇。群簇以及群体的鉴定可以通过在所述数据的一个或多个二维图(也称为“散布图”或“点图”)中显示的群周围设门来手动进行。或者,可以鉴定群簇,并可以自动确定限定所述群体的界限的门。文献中描述了许多自动设门的方法。参见,例如,美国专利4,845,653、5,627,040、5,739,000、5,795,727、5,962,238、6,014,904、6,944,338,以引用的方式将每篇文献并入本文。鉴定数据中对应于群体的群簇的混合模型法已经有过描述。混合模型法的分类是基于将数据建模为分布的有限混合,使其中的每个组分分布对应于不同的群体。最常见的是,将所述组分分布假定为多变量高斯(Gaussian)(正态)分布或t分布。使分布的混合适合于所述数据的一种方法学包括使用期望最大化(EM)算法估计对应于群簇的分布的参数。每个事件(来自单个细胞或颗粒的数据)被分类为其最可能归属的群簇的一个成员。使用多变量混合建模来对流式细胞术生成的数据设门描述于例如,Boedgheimer等人,Cytometry73A:421-429,2008;Chan等人,Cytometry73A:693-701,2008;以及Lo等人,Cytometry73A:321-332,2008,将每篇文献以引用的方式并入本文。更常见的是,使用模式识别来鉴定群体描述于Boddy等人,Cytometry44:195-209,2001,将其以引用的方式并入本文。专利技术概述本专利技术提供可用于对多维数据中的群簇或群体设门的自动设门方法。上述方法尤其可用于鉴定多维流式细胞术数据中的细胞或颗粒的群体。本专利技术方法能够实现对目标群体特定设门,所述目标群体仅为所述数据中可鉴定出的群体子集,这种情况存在于很多流式细胞术应用中。在本专利技术的方法中,将所述数据建模为参数分布的有限混合,其中每个组分分布对应于不同的群体。因此,通过多变量概率分布,优选多变量正态分布或t分布对所述数据中被识别为一个簇的每个目标群体建模。从所述数据中估计对于所述数据提供分布最佳拟合的分布参数。评估对应于目标群体的每个分布的参数后,基于所述分布确定限定具体群的界限的门。使用期望最大化(EM)算法评估对数据提供模型分布的最佳拟合的分布参数,期望最大化(EM)算法还包括邻域阈值选取,其能够实现对所述数据中存在的群簇的子集设门。EM算法是一种迭代优化方法,其用于根据测量数据估计未知参数。EM方法在期望步骤(″E-步骤″)和最大化步骤(″M-步骤″)之间交替。E-步骤(下文会更详细描述)根据模型参数来更新与每个组分相关的每个事件的后验概率。M-步骤根据所有事件的后验概率来更新模型参数。重复该过程直至模型参数的估计值收敛到所需的程度。EM算法(在没有本专利技术的改进的情况下)是众所周知的,且在文献中广泛描述。例如,参见BasfordandMcLachlan,Appl.Statist.34(3):282-289,1985;PeelandMcLachlan,StatisticsandComputing10:339-348,2000;Boedgheimer等人Cytometry73A:421-429,2008;Chanetal.,Cytometry73A:693-701,2008;以及Loetal.,Cytometry73A:321-332,2008,将每篇文献以引用的方式并入本文。在本专利技术的EM方法中,M-步骤(下文会更详细描述)根据仅事件的子集的后验概率来更新模型参数。仅使用来自落入至少一个模型分布的邻域内的事件的数据来实施M-步骤中分布的参数估计值的更新。通过距所述分布中心的预定阈值距离来限定分布的邻域,该距离取决于在此前的M-步骤中估计值的分布参数。在优选的实施方案中,限定邻域,使得所有符合马氏距离(Mahalanobisdistance)平方的函数的本文档来自技高网...
【技术保护点】
在含有至少G个群簇的p?维数据中对多个(G个)群簇进行设门的方法,其中所述数据获自对N个事件的组的测量,所述方法包括:a)使用G个p?维参数分布的混合对所述数据建模;b)提供所述p?维参数分布的参数的初始估计值;c)使用迭代期望最大化(EM)算法,估计每个所述p?维参数分布的更新的参数,其中所述EM方法包括如下步骤:i)针对每个事件,计算所述事件是每个所述参数分布的成员的后验概率,ii)确定在至少一个所述分布的邻域内的所述事件的子集I,iii)根据来自步骤i)的子集I中每个事件的后验概率,计算每个所述参数的更新的估计值,其中所述EM算法至少迭代一次;以及d)使用更新的参数估计值确定来自每个所述分布的门。
【技术特征摘要】
【国外来华专利技术】2011.03.21 US 13/053,1091.在含有至少G个群簇的p-维数据中对G个群簇进行设门的方法,其中所述数据获自对N个事件的组的测量,所述方法包括:通过处理器,使用G个p-维参数分布的混合对所述数据建模;通过处理器,提供所述p-维参数分布的参数的初始估计值;通过处理器,迭代地估计每个所述p-维参数分布的更新的参数,其中所述估计过程包括:针对每个事件,计算所述事件是每个所述参数分布的成员的后验概率,基于事件位置与各自分布的中心点的比较,确定在至少一个所述分布的邻域内的所述事件的子集,其中所述事件的鉴定出的子集中包括的事件数目少于所述组中的事件数目,以及根据对所述事件的鉴定出的子集中每个事件计算出的后验概率,计算每个p-维参数分布的每个参数的更新的估计值,其中所述估计至少迭代一次,并且其中所述后验概率的后续计算是基于所述参数的更新的估计值;以及在所述迭代估计后,通过处理器,使用更新的参数估计值确定来自每个所述分布的门。2.根据权利要求1所述的方法,其中如果来自一个分布的事件的马氏距离平方值的单调函数符合预定阈值条件,则该事件被确定为在该分布的邻域内。3.根据权利要求2所述的方法,其中所述p-维参数分布函数为p-维高斯分布。4.根据权利要求3所述的方法,其中基于来自一个分布的事件的马氏距离平方值和预定阈值的比较,确定该事件在分布函数的邻域内。5.根据权利要求2所述的方法,其中所述p-维参数分布函数为p-维t分布。6.根据权利要求5所述的方法,其中基于关于模型分布组分的事件的权重和预定阈值的比较,确定事件在分布函数的邻域内。7.根据权利要求1所述的方法,其中所述估计被迭代两次。8.根据权利要求1所述的方法,其中所述分布的中心点是基于所述分布的形状确定的。9.根据权利要求8所述的方法,其中所述形状被提供为所述分布的方差-协方差矩阵。10.用于进行计算机辅助流式细胞测量术试验的系统,所述系统包括流式细胞仪;数据存储器,所述数据存储器配置用于储存在所述流式细胞仪中进行流式...
【专利技术属性】
技术研发人员:祝远新,唐孟湘,
申请(专利权)人:贝克顿迪金森公司,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。