本发明专利技术提供了一种对流式细胞仪数据进行快速自动分群的方法,所述方法包括以下步骤:步骤一,采用主成分分析法处理流失细胞数据,包括以下子步骤:1)对样本矩阵X进行标准化,得到标准化矩阵X*;2)求出其相关系数矩阵并进行特征分解,得到特征值(λ1≥λ2≥…≥λp)和其对应的特征向量a1,a2,…,ap;3)根据主成分方差贡献率确定主成分的个数k;4)根据前k个主成分对应的特征向量U=[λ1,λ2…λk],得到样本数据对k个主成分向量构成的特征向量矩阵W=X*U;步骤二,利用改进后的K‑means算法对流式细胞进行聚类,得到类群标签;步骤三,设置贡献率最大的主成分作为坐标轴绘制散点图;步骤四,实现自动分群。
【技术实现步骤摘要】
本专利技术涉及生物医学检测领域,具体涉及一种对流式细胞仪数据进行快速自动分群的方法。
技术介绍
流式细胞仪(FlowCytometer)已成为进行生物研究及临床诊断最重要的工具,流式细胞术(FlowCytometry)是一种能够对悬浮的细胞或者其他微粒进行多参数、快速分析或分选的技术。流式细胞仪能够检测单个细胞的多种理化性质,同时从该细胞获得代表细胞体积、粒度的散射光信号(SC)和代表各抗原含量的多种荧光脉冲信号(FL),并提取信号的峰值、脉宽及面积等特征参数。每个细胞诱导得到散射光和荧光信号以单个事件(event)的形式被记录下来,所有的事件汇聚成被测细胞群完整的流式数据。流式细胞数据分析是流式细胞术中的难点之一,其主要目的是识别和划分样本中的亚群细胞。在进行流式细胞数据分析时,通常使用能够显示两个测量通道参数的二维散点图对得到的数据进行可视化分析,该参数可以为前向散射光(SSC)、侧向散射光(FSC)或荧光信号。但是二维散点图每次只能对两个维度的参数进行分析,由于多参数流式数据维度高,数据量大,若流式数据参数个数为n,随机选择两个参数作为横、纵坐标,能够绘制的散点图数目为通常情况下,在随机选择坐标轴参数绘制的散点图中,细胞亚群的区分并不明显,需要操作者具备较高水平的专业知识并选取特定的参数组合进行分析才能获得较理想的分群结果,过程繁琐、耗时长。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供一种对流式细胞仪数据进行快速自动分群的方法,所述方法包括以下步骤:步骤一,采用主成分分析法处理流失细胞数据,包括以下子步骤:1)对样本矩阵X进行标准化,得到标准化矩阵X*;2)求出其相关系数矩阵并进行特征分解,得到特征值(λ1≥λ2≥…≥λp)和其对应的特征向量a1,a2,…,ap;3)根据主成分方差贡献率确定主成分的个数k;4)根据前k个主成分对应的特征向量U=[λ1,λ2…λk],得到样本数据对k个主成分向量构成的特征向量矩阵W=X*U;步骤二,利用改进后的K-means算法对流式细胞进行聚类,得到类群标签;步骤三,设置贡献率最大的主成分作为坐标轴绘制散点图;步骤四,实现自动分群。优选地,所述步骤二具体包括:确定一个数据点作为第一个初始聚类中心,选取与第一个聚类中心距离最大的数据点作为第二个聚类中心,选取距离前两个聚类中心距离最大的数据点为第三个聚类中心,以此类推,最终确定n个初始聚类中心;最后对各个数据点到初始聚类中现聚类。心的距离进行迭代运算实现聚类。应当理解,前述大体的描述和后续详尽的描述均为示例性说明和解释,并不应当用作对本专利技术所要求保护内容的限制。附图说明参考随附的附图,本专利技术更多的目的、功能和优点将通过本专利技术实施方式的如下描述得以阐明,其中:图1为本专利技术的对流式细胞仪数据进行快速自动分群的方法的流程图;图2为利用传统人工分群方法绘制二维散点图得到的结果示意图;图3为利用本专利技术的PCA方法处理后得到的主成分的贡献率及累计贡献率;图4为利用本专利技术的的方法得到的分群结果示意图。具体实施方式通过参考示范性实施例,本专利技术的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本专利技术并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本专利技术的具体细节。在下文中,将参考附图描述本专利技术的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。本专利技术提出将主成分分析法(PCA)运用到多参数流式数据分析中,通过对流式数据进行降维处理及体征提取,利用最能体现不同亚群细胞之间差别的两个主成分变量作为二维散点图的横、纵坐标轴,对样本进行散点图分群分析。PCA是一种常用的多元统计分析技术,它根据方差最大化原理,通过线性变换选出较少的重要变量代替原始的多个变量,降低了数据维度并最大化保存数据的有效信息量。PCA算法首先对样本矩阵X进行标准化,得到标准化矩阵X*;然后求出其相关系数矩阵并进行特征分解,得到特征值(λ1≥λ2≥…≥λp)和其对应的特征向量a1,a2,…,ap;接下来根据主成分方差贡献率确定主成分的个数k;最后,根据前k个主成分对应的特征向量U=[λ1,λ2…λk],得到样本数据对k个主成分向量构成的特征向量矩阵W=X*U。多参数流式细胞数据具有数据量大、维度高等特点,PCA方法能够降低流式细胞数据的维度及冗余信息,选取主成分变量作为新的特征变量,自动设置坐标轴,绘制散点图,实现自动分群。K-means算法是典型的基于距离进行聚类的算法,该算法快速、简单、效率高。本方法利用改进后的K-means算法实现细胞的自动设门。算法的改进主要表现在初始化聚类中心的位置的确定,传统的K-means聚类算法常常随机选择n个值作为初始聚类中心,导致聚类结果并不稳定。本方法为:先确定一个数据点作为第一个初始聚类中心,然后选取与第一个聚类中心距离最大的数据点作为第二个聚类中心,接下来选取距离前两个聚类中心距离最大的数据点为第三个聚类中心,以此类推,最终确定n个初始聚类中心;最后对各个数据点到初始聚类中心的距离进行迭代运算实现聚类。本专利技术方提供的法能够实现流式细胞仪数据自动分群,无需人工设置散点图的坐标轴,通过将处理后得到的前两个或三个贡献率最大的主成分自动设置为坐标轴,便能够实现自动流式细胞数据的自动分群。此外,通过利用改进后的Kmeans聚类算法对处理后的流式数据进行聚类分析,得到流式细胞数据各事件的分类标签,实现不同亚群细胞的圈门。图1为本专利技术的对流式细胞仪数据进行快速自动分群的方法的流程图。本方法自动分群结果与传统人工分群结果一致,分析时间远远低于人工分析的时间,提高了细胞分群的效率,同时提高了分群结果的可靠性,本方法在多参数流式细胞数据分析中有较好的应用前景,同时能够应用于其他生物医学数据分析领域中。图2为利用传统人工分群方法绘制二维散点图得到的结果示意图。图3为利用本专利技术的PCA方法处理后得到的主成分的贡献率及累计贡献率。图4为利用本专利技术的方法得到的分群结果示意图。从图2和图4对比来看,利用本专利技术的分群效果要由于传动的人工分群方法。采用人体外周血淋巴细胞的流式细胞实验数据为处理对象,样本包含4811个细胞以及淋巴细胞的3种表面分化抗原(CD3+、CD19+和CD56+)。每个细胞的流式数据包括11个参数,分别为脉冲高度(FITC-H,PE-H,APC-H),脉冲面积(FSC-A,SSC-A,FITC-A,PE-A,APC-A)和脉冲宽度(FITC-W,PE-W,APC-W)。表1贡献率最大的主成分PC0和PC1的特征值和特征向量Tab.1CharacteristicvalueandcharacteristicvectorofPC1andPC2表2:PCA分群结果准确率结合这里披露的本专利技术的说明和实践,本专利技术的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的,本专利技术的真正范围和主旨均由权利要求所限定。本文档来自技高网...
【技术保护点】
一种对流式细胞仪数据进行快速自动分群的方法,所述方法包括以下步骤:步骤一,采用主成分分析法处理流失细胞数据,包括以下子步骤:1)对样本矩阵X进行标准化,得到标准化矩阵X*;2)求出其相关系数矩阵并进行特征分解,得到特征值(λ1≥λ2≥…≥λp)和其对应的特征向量a1,a2,…,ap;3)根据主成分方差贡献率确定主成分的个数k;4)根据前k个主成分对应的特征向量U=[λ1,λ2…λk],得到样本数据对k个主成分向量构成的特征向量矩阵W=X*U;步骤二,利用改进后的K‑means算法对流式细胞进行聚类,得到类群标签;步骤三,设置贡献率最大的主成分作为坐标轴绘制散点图;步骤四,实现自动分群。
【技术特征摘要】
1.一种对流式细胞仪数据进行快速自动分群的方法,所述方法包括以下步骤:步骤一,采用主成分分析法处理流失细胞数据,包括以下子步骤:1)对样本矩阵X进行标准化,得到标准化矩阵X*;2)求出其相关系数矩阵并进行特征分解,得到特征值(λ1≥λ2≥…≥λp)和其对应的特征向量a1,a2,…,ap;3)根据主成分方差贡献率确定主成分的个数k;4)根据前k个主成分对应的特征向量U=[λ1,λ2…λk],得到样本数据对k个主成分向量构成的特征向量矩阵W=X...
【专利技术属性】
技术研发人员:张文昌,祝连庆,娄小平,潘志康,孟晓辰,刘超,董明利,
申请(专利权)人:北京信息科技大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。