用于使用支持向量机分析流式细胞术数据的方法和系统技术方案

技术编号:5062305 阅读:199 留言:0更新日期:2012-04-11 18:40
提供了一种用于接收流式细胞术数据的输入并使用一个或多个支持向量机分析所述数据以产生输出的自动方法和系统,其中,所述流式细胞术数据被分类成两种或多种类别。所述一个或多个支持向量机使用捕获输入数据内的分布式数据的内核。这种分布式内核通过使用两个分布之间的距离函数(散度)来构造。在优选的实施方案中,使用了基于Bhattacharya亲和性的内核。所述分布式内核应用于从被怀疑有骨髓增生异常综合症的患者获得的流式细胞术数据的分类。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及用于使用支持向量机自动分析分布式数据特别是流式细胞术数据的 方法。
技术介绍
流式细胞术是悬浮在流动的液流中的微小颗粒的特征的测量。聚焦的激光光束 照亮每一个移动的颗粒,并且光在所有的方向散射。放置在交点前面或垂直于激光光束的 检测器接收散射光的脉冲,产生被输入到计算机分析器中用于解释的信号。所检测的前向 散射光的总量取决于颗粒尺寸和折射率,但与如激光器所看见的颗粒的横截面面积紧密相 关,而侧向散射光的量可指示形状或粒度。流式细胞术的最广泛使用的应用之一是用于医疗诊断学的细胞分析,其中,所 关注的颗粒是悬浮在含盐溶液中的细胞。如果所关注的细胞标志可以用荧光染料标 记,那么细胞的另外的性质例如表面分子或细胞内组分也可以被准确地定量;例如,抗 体-荧光染料结合物可用来连接到特定的表面或细胞内受体。通过借助于靠着表面标 志的荧光标记的单克隆抗体的使用来描述在不同的发展阶段的细胞的特征的免疫分型 (Immunophenotyping)是流式细胞术的最普遍的应用之一。已发展了连接到特定的结构 (例如DNA、线粒体)或对局部的化学性质(例如Ca++浓度、pH等)敏感的其它染料。虽然流式细胞术在医疗诊断学中被广泛地使用,它在非医疗应用例如水分析或其 它液体分析中也是有用的。例如,可分析海水以识别细菌或其它有机体的存在或类型,可以 分析牛奶以检验微生物,以及可以对粒状污染物或添加剂检验燃料。所使用的激光光束具有合适的颜色,以激发选定的一种或多种荧色物。所发射 的荧光的量可与正在讨论的细胞标志的表达相关联。每一种流式细胞仪通常能够根据其 配置同时检测许多不同的荧色物。在一些仪器中,通过使用以不同波长发射的激光器, 可以同时分析多种荧色物。例如,可从Becton Dickinson (Franklin Lakes, NJ)获得的 FACSCalibur 流式细胞术系统是多色流式细胞仪,此多色流式细胞仪配置成用于四色操 作。一系列光电倍增管收集来自每一个细胞的荧光发射,并且在计算机上收集和分析随后 的电事件,计算机将荧光强度值分配到在流式细胞术标准(FCS)数据文件中的每一个信 号。数据的分析涉及识别在多维空间中的多边形区域的交集或并集,其用来过滤数据或对 数据“设门(gating) ”,并且限定事件的分组的子集用于进一步的分析或分类。国际分析细胞协会(ISAC)已采纳了对FCM数据的一般表示的FCS数据文件标准。 记录贯穿细胞仪的样本的测量的所有主要分析仪器都支持这个标准,允许研究者和临床医 生在很多市场上可买到的仪器和软件中间选择而不会遇到主要的数据兼容性问题。然而, 这个标准没有描述用于计算的后处理和数据分析的协议。5由于存在于流式细胞术分析中的大量的数据,通过人工过程充分利用数据常常很 难。数据的高维数也使得使用传统的统计方法和学习技术例如人工神经网络不可行。支持 向量机是能够处理高维数据的基于内核的机器学习技术。它在使用适当地设计的内核处理 流式数据中可能是有效的工具。内核在现代机器学习技术例如支持向量机(SVM)中起着关键的作用。用于分类的 支持向量机被定义为在特征空间中的最佳超平面,此特征空间通常是高维的(甚至无限维 的)内积空间。在特征空间中,最佳超平面的构造需要被映射的输入向量的内积。定义在 输入空间上的核函数提供计算内积的有效方法,而事实上不将输入映射到特征空间。内核 定义了在两个向量之间的相似性测量。SVM方法的优势是其仅基于内核的自然的相似性测 量来获得隐含模式而不使用显式特征提取的能力。在许多应用例如图像识别和流式细胞术数据分析中,输入数据通常是高维数的并 且是大量的。这种数据的重要特征通常在于某些空间中点的分布,而不是个别的点的孤立 的值。标准内核(例如多项式内核和高斯内核)对这种类型的数据通常是无效的,因为标 准内核同等地处理所有的向量分量,使得大的输入量趋向于使内核对特定问题的基本结构 和分布特征不敏感。作为结果,它们并不非常适合于分布式数据。例如,已报导了使用径 向基函数(RBF)内核的流式细胞术数据的SVM分析,径向基函数内核的例子是高斯内核 和 B-样条函数内核。(见 Rajwa,B.等人的 “AutomatedClassif ication of Bacterial Particles in Flow by Multiangle ScatterMeasurement and Support Vector Machine Classifier”,Cytometry Part A,73A =369-379(2008)。)所描述的方法需要使用“增强型散 射-检测系统”以获得所报导的高分类准确性。此外,作者得出结论,如果问题的维数高于 2,那么可能不容易解释SVM结果。这种限制最小化了这种技术的实际应用。Toedling等人 在“Automated in-silico detection of cell populations inflow cytometry readouts and its application to leukemia disease monitoring”,BMC Bioinformatics,7 :282, June 2006中描述了通过将单一的细胞分配到预先定义的组中使用径向基函数内核来检测 白血病细胞的流式细胞术数据的SVM分析。事实上,SVM分析取代了手工设门,但是没有考 虑数据的任何式分布特征。因此,仍需要一种用于分析流式细胞术数据和其它类型的分布式数据的方法,这 些分布式数据包括基本结构内的重要信息和分布,并能够用于更高维数。本专利技术目的在于 这样的方法。专利技术的简要概述根据本专利技术,使用SVM内核来分析流式细胞术数据,SVM内核是特别为具有分布 性质的数据创建的。输入数据P集是在空间中的大量点的集合。例如,图像可被看作是在 2-维空间中的点的集合。在适当的标准化后,ρ可被看作是概率分布。为了定义关于两个 这种输入数据P和q的内核以捕获分布趋势,定义关于P和q的函数,以测量两个完整的分 布之间的相似性,而不仅是在分布中的单独的点。支持向量机的实例通常在美国专利第6,760,715号、第7,117,188号和第 6,996,549号中公开,这些专利连同其它专利一起在此通过引用被并入,支撑向量机用来分 析流式细胞术数据,所述流式细胞术数据由常规的商业流式细胞术装置产生。用于实施流 式细胞术测量的示例性的系统在美国专利第5,872,627号和第4,284,412号中被描述,以上专利在此通过引用被并入。在此描述的特定的实施例中,数据涉及医疗诊断学的应用,特 别是用于检测血液疾病,例如骨髓增生异常综合症(MDS)。流式细胞术免疫分型已被证明是 用于造血细胞中定量和定性异常的检测的精确和高度敏感的方法,甚至在组合的形态学和 细胞遗传学是非诊断的时。根据本专利技术,提供了用于接收流式细胞术数据的输入并使用一个或多个支持向量 机分析所述数据以产生输出的自动方法和系统,其中,所述流式细胞术数据被分类成两种 或多种类别。所述一个或多个支持向量机使用捕获输入数据内的分布式数据的内核。这 种分布式内核通过使用两个分布之间的距离函数(散度)来构造。测量两个概率分本文档来自技高网...

【技术保护点】
一种用于流式细胞术数据的分析和分类的方法,其中,所述流式细胞术数据包括描述所述数据的多个特征,所述方法包括:将包括流式细胞术数据的输入数据集下载到包括处理器和存储设备的计算机系统中,其中,所述处理器被编程以执行至少一个支持向量机,并执行以下步骤:使用一个或多个特征选择算法来预处理所述输入数据集的第一部分,以选择所述多个特征的特征子集;使用所选择的特征子集,使用所述输入数据集的所述第一部分来训练包括分布式内核的支持向量机;使用所选择的特征子集以所述输入数据集的第二部分检验所训练的支持向量机,以确定是否实现了最优解;如果未实现最优解,重复训练和检验的步骤直至达到最优解;一旦达到最优解,就将实时数据集输入到所述计算机系统中;使用所训练和所检验的支持向量机,使用所选择的特征子集来处理所述实时数据集,以产生包括所述流式细胞术数据到两个不同种类之一的分类的结果;以及在显示设备处产生具有流式细胞术数据分类的识别的输出显示。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:宏章
申请(专利权)人:医疗探索公司
类型:发明
国别省市:US[]

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利