一种流式细胞数据快速自动分群及圈门方法技术

技术编号:14905581 阅读:1605 留言:0更新日期:2017-03-29 20:14
本发明专利技术提供了一种流式细胞数据快速自动分群及圈门方法,所述方法包括以下步骤:步骤一,用核主成分分析处理流式细胞数据;步骤二,通过余弦相似度的K‑means聚类方法实现细胞圈门;步骤三,绘制二维或三维散点图,将处理后得到的核主成分设置为坐标轴;步骤四,不同亚群细胞之间根据细胞分类标签进行圈门,完成细胞自动分群。

【技术实现步骤摘要】

本专利技术涉及生物医学检测领域,具体涉及一种针对流式细胞仪检测淋巴细胞并对淋巴细胞数据进行快速自动分群的方法。
技术介绍
随着精准医疗和基因生物学的发展,流式细胞仪(FlowCytometer)已成为进行生物研究及临床诊断最重要的工具,广泛应用于生物学和生物医学研究中。血液中淋巴细胞免疫表型(亚群)分析是流式细胞术(FCM)最主要的临床应用之一。传统流式细胞数据分析是流式细胞术中的难点之一,其主要目的是识别和划分样本中的亚群细胞。在进行淋巴细胞免疫表型(亚群)分析时,传统的分析方法通常使用能够显示两个测量通道参数的二维散点图,以人工设门的方式对数据进行分析,二维散点图的坐标轴参数可以为前向散射光(SSC)、侧向散射光(FSC)或各通道的荧光信号(FL)。传统人工流式细胞数据分析方法所绘制的二维散点图每次只能显示两个维度的参数,若流式数据参数个数为n,随机选择两个参数作为横、纵坐标,可能需要绘制的散点图数目为,分析过程繁琐、效率低、耗时长且浪费资源;对操作者的要求较高。通常情况下,在随机选择坐标轴参数绘制的散点图中,细胞亚群的区分并不明显,需要操作者具备较高水平的专业知识,并采用多个散点图组合的方式才能获得理想的分群结果;分群结果具有主观性,容易受到操作者经验的影响,可重复性差。目前很多学者针对于流式数据的自动分析方法进行了探索,但是大部分分析方法侧重于实现细胞的自动圈门,在设门之前,仍需要操作者根据相关背景知识和样本染色策略人工设置散点图的坐标轴参数,未实现真正意义上的自动分群。
技术实现思路
为了解决上述问题,本专利技术的目的在于提供一种细胞数据快速自动分群及圈门方法,包括以下步骤:步骤一,用核主成分分析处理流式细胞数据,包括以下子步骤:1)输入待分析流式细胞数据;2)数据标准化;3)确定核函数及核参数,计算核矩阵;4)获得核矩阵的特征值和特征向量;5)根据累计贡献率的大小,选取最大的几个特征值所对应的特征向量作为投影方向;6)进行核主成分分析映射,获得降维后的数据;步骤二,通过余弦相似度的K-means聚类方法实现细胞圈门,包括以下子步骤:7)根据数据相关信息,确定聚类个数C;8)计算数据向量之间的夹角余弦值,找到余弦相似度最小的两个数据点作为初始质心,然后找寻与前两个初始质心所在向量间夹角最大的数据向量作为第三个初始质心,依次确定C个初始质心;9)计算其余的数据点与初始质心的夹角余弦值,根据余弦相似度,将数据点归类到最近的类群中;10)更新每个类群的质心;11)若各质心之间的余弦相似度大于给定误差阈值,循环执行9)、10)步;若达到迭代次数或类群质心不发生改变,结束聚类;步骤三,绘制二维或三维散点图,将处理后得到的核主成分设置为坐标轴;步骤四,不同亚群细胞之间根据细胞分类标签进行圈门,完成细胞自动分群。优选地,所述步骤2)具体包括:对流式细胞样本矩阵X进行标准化处理,得到标准化后的矩阵X*,对标准化后的数据进行非线性变换Φ(x),将样本数据映射到高维空间。优选地,所述步骤3)具体包括:选定径向基核函数K(xi,x)=exp(-||x-xi||2/2δ2)中的参数,对标准化后的样本矩阵X*进行非线性变换,得到核矩阵K。优选地,所述步骤4)具体包括:采用奇异值分解(SKD)算法求核矩阵K的特征值(λ1≥λ2≥…≥λp)和其对应的特征向量a1,a2,…,ap。优选地,所述步骤5)具体包括:根据方差累计百分比确定主成分个数p,并对前p个非零特征值对应的特征向量进行规范化。优选地,所述步骤6)具体包括:在高维特征空间对流式数据进行特征向量上的投影,将得到的主分量作为新的特征参数,并将其设置为散点图的坐标轴,实现自动分群。应当理解,前述大体的描述和后续详尽的描述均为示例性说明和解释,并不应当用作对本专利技术所要求保护内容的限制。附图说明参考随附的附图,本专利技术更多的目的、功能和优点将通过本专利技术实施方式的如下描述得以阐明,其中:图1为根据本专利技术的流式细胞数据快速自动分群及圈门方法的流程图;图2为利用传统人工分群方法绘制二维散点图得到的结果示意图;图3(a)为利用本专利技术方法处理得到的二维散点图分群结果示意图;图3(b)为利用本专利技术方法处理得到的三维散点图分群结果示意图;图4为淋巴细胞染色策略示意图。具体实施方式通过参考示范性实施例,本专利技术的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而,本专利技术并不受限于以下所公开的示范性实施例;可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本专利技术的具体细节。在下文中,将参考附图描述本专利技术的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。本专利技术的流式细胞数据快速自动分群及圈门方法以实现流式细胞数据的自动分群为目标,主要针对现有的流式细胞数据分析技术存在的不足,提出一种能够对多参数流式细胞数据进行快速自动分群的方法。图1为根据本专利技术的流式细胞数据快速自动分群及圈门方法的流程图。该方法利用核主成分分析(KPCA)对多参数流式细胞数据进行处理,提取流式数据中的非线性特征,将流式细胞数据非线性映射到高维的Mercer特征空间中,选取最大的几个特征值所对应的特征向量,作为数据投影方向,在特征空间对多参数流式细胞数据进行降维,得到新的主成分特征变量。每个主成分都是数据在某一个方向上的投影,在不同方向上这些数据方差的大小由其特征值决定。选取最能体现不同亚群细胞之间差别的主成分变量作为坐标轴,绘制二维或三维散点图。此外,在自动设门方面,设计了余弦相似度和K-means聚类算法相结合的分类器,实现样本的自动设门。整体过程无需再对二维或三维散点图坐标轴进行设置,便可实现了多参数流式细胞数据的自动分群。同时,分群结果避免了收到人为因素的影响,增强了分群结果的可靠性和可重复性,提高了分群效率。图2为利用传统人工分群方法绘制二维散点图得到的结果示意图;图3(a)为利用本专利技术方法处理得到的二维散点图分群结果示意图;图3(b)为利用本专利技术方法处理得到的三维散点图分群结果示意图。从图2及图3(a)、3(b)可以看出,利用本专利技术的方法能达到更好的分群效果。本专利技术利用核主成分分析法对流式细胞数据处理具体主要步骤如下:第1步:对流式细胞样本矩阵X进行标准化处理,得到标准化后的矩阵X*;第2步:对标准化后的数据进行非线性变换Φ(x),将样本数据映射到高维空间;第3步:选定径向基核函数K(xi,x)=exp(-||x-xi||2/2δ2)中的参数,对标准化后的样本矩阵X*进行非线性变换,得到核矩阵K;第4步:采用奇异值分解(SKD)算法求核矩阵K的特征值(λ1≥λ2≥…≥λp)和其对应的特征向量a1,a2,…,ap;第5步:根据方差累计百分比确定主成分个数p,并对前p个非零特征值对应的特征向量进行规范化;第6步:在高维特征空间对流式数据进行特征向量上的投影,将得到的主分量作为新的特征参数,并将其设置为散点图的坐标轴,实现自动分群。将处理后的每个样本细胞的数据均看作为一个n维向量,同类向量之间的夹角应小于不同类向量之间的夹角,因此本专利技术方法采用夹角余弦相似度衡量二者之间的相似程度,同时结合K-means聚类方法对流式细胞数据进行聚类分析,得到个细胞事本文档来自技高网...
一种流式细胞数据快速自动分群及圈门方法

【技术保护点】
一种流式细胞数据快速自动分群及圈门方法,所述方法包括以下步骤:步骤一,用核主成分分析处理流式细胞数据,包括以下子步骤:1)输入待分析流式细胞数据;2)数据标准化;3)确定核函数及核参数,计算核矩阵;4)获得核矩阵的特征值和特征向量;5)根据累计贡献率的大小,选取最大的几个特征值所对应的特征向量作为投影方向;6)进行核主成分分析映射,获得降维后的数据;步骤二,通过余弦相似度的K‑means聚类方法实现细胞圈门,包括以下子步骤:7)根据数据相关信息,确定聚类个数C;8)计算数据向量之间的夹角余弦值,找到余弦相似度最小的两个数据点作为初始质心,然后找寻与前两个初始质心所在向量间夹角最大的数据向量作为第三个初始质心,依次确定C个初始质心;9)计算其余的数据点与初始质心的夹角余弦值,根据余弦相似度,将数据点归类到最近的类群中;10)更新每个类群的质心;11)若各质心之间的余弦相似度大于给定误差阈值,循环执行9)、10)步;若达到迭代次数或类群质心不发生改变,结束聚类;步骤三,绘制二维或三维散点图,将处理后得到的核主成分设置为坐标轴;步骤四,不同亚群细胞之间根据细胞分类标签进行圈门,完成细胞自动分群。...

【技术特征摘要】
2016.10.21 CN 20161091735561.一种流式细胞数据快速自动分群及圈门方法,所述方法包括以下步骤:步骤一,用核主成分分析处理流式细胞数据,包括以下子步骤:1)输入待分析流式细胞数据;2)数据标准化;3)确定核函数及核参数,计算核矩阵;4)获得核矩阵的特征值和特征向量;5)根据累计贡献率的大小,选取最大的几个特征值所对应的特征向量作为投影方向;6)进行核主成分分析映射,获得降维后的数据;步骤二,通过余弦相似度的K-means聚类方法实现细胞圈门,包括以下子步骤:7)根据数据相关信息,确定聚类个数C;8)计算数据向量之间的夹角余弦值,找到余弦相似度最小的两个数据点作为初始质心,然后找寻与前两个初始质心所在向量间夹角最大的数据向量作为第三个初始质心,依次确定C个初始质心;9)计算其余的数据点与初始质心的夹角余弦值,根据余弦相似度,将数据点归类到最近的类群中;10)更新每个类群的质心;11)若各质心之间的余弦相似度大于给定误差阈值,循环执行9)、10)步;若达到迭代次数或类群质心不发生改变,结束聚类;步骤三,绘制二维或三维散点图,将处理后得到的核主成分设置为坐标轴;步...

【专利技术属性】
技术研发人员:董明利马闪闪潘志康娄小平张帆刘超祝连庆
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1