用于分析数据集的系统和方法技术方案

技术编号:23474583 阅读:22 留言:0更新日期:2020-03-06 15:20
提供了用于分析数据集的系统和方法,其中获得表示多个克隆类型的数据集。所述数据集包含所述多个克隆类型中每个克隆类型的多个重叠群。每个重叠群包括链类型的指示、条形码(指示构建所述重叠群的多个细胞中的特定细胞)和共有序列。针对每个相应克隆类型,确定表示所述相应克隆类型的所述多个重叠群的百分比、绝对数或比例。在显示器的第一部分上提供第一二维可视化。所述可视化的一条轴线代表单独克隆类型,并且另一条轴线代表表示所述相应克隆类型的所述多个重叠群的所述百分比、所述绝对数或所述比例。在所述第一可视化的同时,还显示所述多个克隆类型的列表。

Systems and methods for analyzing data sets

【技术实现步骤摘要】
【国外来华专利技术】用于分析数据集的系统和方法相关申请的交叉引用本申请要求于2017年5月19日提交的题为“用于分析数据集的系统和方法(SystemsandMethodsforAnalyzingDatasets)”的美国临时专利申请号62/508,947和于2017年11月7日提交的题为“用于分析数据集的系统和方法”的美国临时专利申请号62/582,866的优先权,所述专利申请中的每一个通过引用结合在此。
本说明书描述了与分析数据集有关的技术。
技术介绍
数据集中模式的发现促进了许多技术应用,如在生物学领域对RNA提取协议的验证和使得在单个细胞中对mRNA进行mRNA测序的相关方法。此类技术使得在单个数据集中的数百甚至数千个单个细胞中进行高通量转录物鉴定和基因测序。因此,在本领域中,已经产生了包含属性值(例如映射到特定细胞中的单独基因的转录物读段(transcriptread))的数据集。尽管这是本领域的重大进步,但是需要解决许多技术问题以使此类数据更加有用。特别是,适应性人类免疫系统由B细胞和T细胞构成。在T细胞和B细胞发育过程中,这些细胞表达用于识别病原体的独特异二聚体受体。这些受体链中的每一条都是通过体细胞重新布置过程产生的,体细胞重新布置过程将TCR基因和BCR基因的不同片段连接并产生新型基因。这种连接过程是不精确的,因为在连接位点插入了非模板核苷酸(N核苷酸),以及参与重新布置的种系基因中3'-和5'-核苷酸缺失。这种随机核苷酸插入或缺失的区域称为第三互补决定区(CDR3)。所得的CDR3具有对所述特定B细胞或T细胞及其所有子代具有特异性的独特核苷酸序列。因此,所述受体的克隆类型性质。CDR3为这些受体中与完整可溶性抗原(B细胞)或细胞内加工抗原相互作用最密切的部分,这些抗原以在MHC分子(T细胞)中加载的免疫原性肽的形式存在。见Yassai等人,2009,“T细胞受体克隆类型命名法(AclonotypenomenclatureforT-cellreceptors)”,《免疫遗传学(Immunogenetics)》,61,第493-502页。考虑到产生大量数据的能力,本领域需要用于分析此类数据的改进的系统和方法。
技术实现思路
在本公开中提供了用于解决上述分析数据集存在的问题的技术解决方案(例如,计算系统、方法和非暂时性计算机可读存储介质)。下文呈现了本专利技术的概述,以便提供对本专利技术的一些方面的基本理解。此概述不是本专利技术的广泛概要。此概述并不旨在标识本专利技术的关键/关键要素或描绘本专利技术的范围。此概述的唯一目的是以简化的形式呈现本专利技术的概念中的一些作为对之后所呈现的更加详细的说明的序言。本公开的一个方面提供了一种系统,其包括一个或多个处理核、存储器和显示器,所述存储器存储用于执行用于使用所述一个或多个处理核分析一个或多个数据集的方法的指令。所述方法包括获得表示来自单个第一对象的第一多个细胞的第一数据集。所述第一数据集表示第一多个克隆类型。所述第一数据集包含所述第一多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:所述相应重叠群的链类型的指示;来自多个条形码的针对所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第一多个细胞中的相应细胞相关联;以及所述相应细胞的mRNA的重叠群共有序列。在所述方法中,使用所述第一数据集确定所述第一多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例。在所述显示器的第一部分上提供第一二维可视化。所述第一二维可视化的第一轴线代表所述第一多个克隆类型中的单独克隆类型,并且所述第一二维可视化的第二轴线代表表示相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例。在所述显示器的第二部分上提供所述第一多个克隆类型的列表。在一些实施例中,所述第一可视化为条形图。在一些实施例中,所述第一多个克隆类型中的相应克隆类型在所述二维可视化的所述第二轴线上按具有所述相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例排序。在一些实施例中,所述第一多个克隆类型中的相应克隆类型在所述列表中按具有所述相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例排序。在一些实施例中,所述第一多个细胞中的多于一个细胞具有所述第一多个克隆类型中的同一克隆类型。在一些实施例中,所述第一多个细胞中的多于十个细胞具有所述第一多个克隆类型中的同一克隆类型。在一些实施例中,所述第一多个克隆类型包括25个克隆类型,并且所述第一多个细胞包含所述第一多个克隆类型中的每个克隆类型的至少一个细胞。在一些实施例中,所述第一多个克隆类型包括100个克隆类型,并且所述第一多个细胞包含所述第一多个克隆类型中的每个克隆类型的至少一个细胞。在一些实施例中,所述第一多个细胞由来自所述单个第一对象的B细胞组成。在一些实施例中,所述列表包含所述第一多个克隆类型中的第一克隆类型的所述多个重叠群中的第一重叠群的以下各项:所述第一重叠群中的V片段的标识符;所述第一重叠群中的J区的标识符;和所述第一重叠群中的C区的标识符。在一些此类实施例中,所述第一重叠群用于α链或γ链。在一些实施例中,所述第一重叠群用于β链或δ链,并且所述第一重叠群进一步包含所述第一重叠群中的D区的标识符。在一些实施例中,所述方法进一步包括在所述显示器上提供可供性(affordance),所述可供性允许用户将在所述第一二维可视化和所述列表中显示的克隆类型的数量限制为小于所述第一数据集中的所述第一多个克隆类型的数量。在一些实施例中,所述方法进一步包括提供第一可供性,其中当用户切换所述第一可供性时,所述第一二维可视化的显示被第二二维可视化代替,同时保持所述第一多个克隆类型的所述列表。在此类实施例中,所述第二二维可视化提供用于选择由所述第一数据集表示的淋巴细胞受体的一个或多个基因的第一过滤器,所述第二二维可视化还提供用于一个或多个链类型的第二过滤器。所述第二二维可视化的第一轴线表示一个或多个单独基因。所述第二二维可视化的第二轴线表示所述第一数据集中存在的包含所述一个或多个单独基因——不论所述一个或多个单独基因如何结合到克隆类型中——的所述多个重叠群的所述百分比、所述绝对数或所述比例。当用户切换所述第一过滤器时,选择所述一个或多个基因的同一性。当用户切换所述第二过滤器时,选择一个或多个链类型,由此将所述第一数据集中存在的包含所述一个或多个单独基因的所述多个重叠群的所述百分比、所述绝对数或所述比例限制为由所述第二过滤器标识的所述一个或多个链类型中包含所述一个或多个单独基因的那些重叠群。在一些此类实施例中,所述第一多个细胞由来自所述单个第一对象的B细胞组成,并且所述一个或多个基因为V基因、D基因、J基因和C基因的任意组合。在一些实施例中,所述第一多个细胞中的相应细胞的所述第一数据集中的所述第一多个克隆类型中的第一克隆类型的所述多个重叠群中的第一重叠群的长度介于600与800个碱基之间,并且通过本文档来自技高网
...

【技术保护点】
1.一种系统,其包括一个或多个处理核、存储器和显示器,所述存储器存储用于执行用于使用所述一个或多个处理核分析一个或多个数据集的方法的指令,所述方法包括:/n获得表示来自单个第一对象的第一多个细胞的第一数据集,其中/n所述第一数据集表示第一多个克隆类型,/n所述第一数据集包含所述第一多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:/n所述相应重叠群的链类型的指示;/n来自多个条形码的针对所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第一多个细胞中的相应细胞相关联;以及/n所述相应细胞的mRNA的重叠群共有序列;/n使用所述第一数据集确定所述第一多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例;/n在所述显示器的第一部分上提供第一二维可视化,其中所述第一二维可视化的第一轴线代表所述第一多个克隆类型中的单独克隆类型,并且所述第一二维可视化的第二轴线代表表示相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例;以及/n在所述显示器的第二部分上提供所述第一多个克隆类型的列表。/n

【技术特征摘要】
【国外来华专利技术】20170519 US 62/508,947;20171107 US 62/582,8661.一种系统,其包括一个或多个处理核、存储器和显示器,所述存储器存储用于执行用于使用所述一个或多个处理核分析一个或多个数据集的方法的指令,所述方法包括:
获得表示来自单个第一对象的第一多个细胞的第一数据集,其中
所述第一数据集表示第一多个克隆类型,
所述第一数据集包含所述第一多个克隆类型中的每个相应克隆类型的多个重叠群,其中所述多个重叠群中的每个相应重叠群包括:
所述相应重叠群的链类型的指示;
来自多个条形码的针对所述相应重叠群的条形码,其中所述条形码与构建所述相应重叠群的所述第一多个细胞中的相应细胞相关联;以及
所述相应细胞的mRNA的重叠群共有序列;
使用所述第一数据集确定所述第一多个克隆类型中的每个相应克隆类型的表示所述相应克隆类型的所述第一多个细胞的百分比、绝对数或比例;
在所述显示器的第一部分上提供第一二维可视化,其中所述第一二维可视化的第一轴线代表所述第一多个克隆类型中的单独克隆类型,并且所述第一二维可视化的第二轴线代表表示相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例;以及
在所述显示器的第二部分上提供所述第一多个克隆类型的列表。


2.根据权利要求1所述的系统,其中所述第一可视化为条形图。


3.根据权利要求1或2所述的系统,其中所述第一多个克隆类型中的相应克隆类型在所述二维可视化的所述第二轴线上按具有所述相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例排序。


4.根据权利要求1到3中任一项所述的系统,其中所述第一多个克隆类型中的相应克隆类型在所述列表中按具有所述相应克隆类型的所述第一多个细胞的所述百分比、所述绝对数或所述比例排序。


5.根据权利要求1到4中任一项所述的系统,其中所述第一多个细胞中的多于一个细胞具有所述第一多个克隆类型中的同一克隆类型。


6.根据权利要求1到5中任一项所述的系统,其中所述第一多个细胞中的多于十个细胞具有所述第一多个克隆类型中的同一克隆类型。


7.根据权利要求1到6中任一项所述的系统,其中所述第一多个克隆类型包括25个克隆类型,并且其中所述第一多个细胞包含所述第一多个克隆类型中的每个克隆类型的至少一个细胞。


8.根据权利要求1到6中任一项所述的系统,其中所述第一多个克隆类型包括100个克隆类型,并且其中所述第一多个细胞包含所述第一多个克隆类型中的每个克隆类型的至少一个细胞。


9.根据权利要求1到8中任一项所述的系统,其中所述第一多个细胞由来自所述单个第一对象的B细胞组成。


10.根据权利要求9所述的系统,其中所述列表包含所述第一多个克隆类型中的第一克隆类型的所述多个重叠群中的第一重叠群的以下各项:
所述第一重叠群中的V片段的标识符;
所述第一重叠群中的J区的标识符;和
所述第一重叠群中的C区的标识符。


11.根据权利要求10所述的系统,其中所述第一重叠群用于α链或γ链。


12.根据权利要求10所述的系统,其中所述第一重叠群用于β链或δ链,并且其中所述第一重叠群进一步包含所述第一重叠群中的D区的标识符。


13.根据权利要求1所述的系统,其中所述方法进一步包括:
在所述显示器上提供可供性(affordance),所述可供性允许用户将在所述第一二维可视化和所述列表中显示的克隆类型的数量限制为小于所述第一数据集中的所述第一多个克隆类型的数量。


14.根据权利要求1所述的系统,其中所述方法进一步包括提供第一可供性,其中
当用户切换所述第一可供性时,所述第一二维可视化的显示被第二二维可视化代替,同时保持所述第一多个克隆类型的所述列表,
所述第二二维可视化提供用于选择由所述第一数据集表示的淋巴细胞受体的一个或多个基因的第一过滤器,
所述第二二维可视化提供用于一个或多个链类型的第二过滤器,
所述第二二维可视化的第一轴线表示所述一个或多个单独基因,并且所述第二二维可视化的第二轴线表示所述第一数据集中存在的包含所述一个或多个单独基因——不论所述一个或多个单独基因如何结合到克隆类型中——的所述多个重叠群的所述百分比、所述绝对数或所述比例,
当用户切换所述第一过滤器时,选择所述一个或多个基因的同一性,并且
当用户切换所述第二过滤器时,选择一个或多个链类型,由此将所述第一数据集中存在的包含所述一个或多个单独基因的所述多个重叠群的所述百分比、所述绝对数或所述比例限制为由所述第二过滤器标识的所述一个或多个链类型中包含所述一个或多个单独基因的那些重叠群。


15.根据权利要求14所述的系统,其中
所述第一多个细胞由来自所述单个第一对象的B细胞组成,并且
所述一个或多个基因为V基因、D基因、J基因和C基因的任意组合。


16.根据权利要求1所述的系统,其中
所述第一多个细胞中的相应细胞的所述第一数据集中的所述第一多个克隆类型中的第一克隆类型的所述多个重叠群中的第一重叠群的长度介于600与800个碱基之间,并且通过覆盖所述第一重叠群的多个序列读段来确定,
所述多个序列读段的平均读段长度小于600个碱基,并且
所述多个序列读段中的每个序列读段具有相同的唯一分子标识符。


17.根据权利要求1到8中任一项所述的系统,其中所述第一多个细胞由来自所述单个第一对象的B细胞组成。


18.根据权利要求1到17中任一项所述的系统,其中所述单个第一对象为哺乳动物。


19.根据权利要求1到17中任一项所述的系统,其中所述单个第一对象为哺乳动物、爬行动物、鸟类、两栖动物、鱼类(fish)、有蹄动物、反刍动物、牛科动物、马科动物、山羊类、绵羊类、猪、骆驼科动物、猴、猿、熊科动物、家禽、狗、猫、大鼠、鱼(fish)、海豚、鲸或鲨鱼。


20.根据权利要求1所述的系统,其中所述方法进一步包括提供第一可供性,其中
当用户切换所述第一可供性时,所述第一二维可视化的显示被第二二维可视化代替,同时保持所述第一多个克隆类型的所述列表,
所述第二二维可视化提供用于选择由所述第一数据集表示的淋巴细胞受体的基因对的第一过滤器,
所述第二二维可视化提供用于一个或多个链类型的第二过滤器,
所述第二二维可视化的第一轴线表示所述基因对中的第一单独基因,并且所述第二二维可视化的第二轴线表示所述基因对中的第二单独基因,并且其中所述第二二维可视化中的多个二维单元格中与所述第一轴线和所述第二轴线相交的每个相应单元格指示由所述第一数据集中的所述第二过滤器指定的所述一个或多个链类型的重叠群的数量,所述第一数据集包含所述相应二维单元格的所述第一轴线上的所述相应基因和所述第二轴线上的所述相应基因。


21.根据权利要求20所述的系统,其中
所述第二二维可视化为热图,并且
所述热图提供以颜色编码格式提供由所述第一数据集中的所述第二过滤器指定的所述一个或多个链类型的重叠群的数量的数字指示的量表,所述第一数据集包含所述第二二维可视化的所述多个二维单元格中的每个二维单元格的所述第一轴线上的所述相应基因和所述第二轴线上的所述相应基因。


22.根据权利要求1所述的系统,其中所述方法进一步包括:
在所述显示器上提供一个或多个可供性,其中所述一个或多个可供性被配置成接收用户指定的选择标准;以及
响应于接收到所述用户指定的选择标准,将所述列表限制为所述第一多个克隆类型中与所述选择标准匹配的那些克隆类型,其中所述选择标准为至少一个重叠群、至少一个条形码、至少一个氨基酸序列或至少一个核酸序列。


23.根据权利要求22所述的系统,其中所述方法进一步包括:
响应于接收到所述用户指定的选择标准,进一步将所述第一二维可视化限于显示所述第一多个克隆类型中与所述选择标准匹配的那些克隆类型。


24.根据权利要求22所述的系统,其中所述选择标准包含通配符,由此匹配多于一个重叠群、条形码、氨基酸序列或核酸序列。


25.根据权利要求1所述的系统,其中
所述列表包含多个行,并且
所述多个行中的每个相应行指定所述第一多个克隆类型中的克隆类型的所述多个重叠群中的重叠群的链类型的指示,并且
所述方法进一步包括:
响应于用户对所述多个行中的某一行的选择,用由所选行表示的链的汇总信息板代替所述第一二维可视化的显示,同时保持所述列表的显示。


26.根据权利要求25所述的系统,其中所述汇总信息板包括:
参考序列,所述参考序列为所选链类型的公开精选序列,
来自所述第一数据集中包含所述所选链类型的所有重叠群的共有序列,
所述第一数据集中包含所述所选链类型的每个相应重叠群的表示,并且
所述板中的所述参考序列、所述共有序列、每个相应重叠群的每个表示占据所述板中的不同行,并且彼此按顺序对齐。


27.根据权利要求26所述的系统,其中相应重叠群的表示包含一个或多个指示符,其中所述一个或多个指示符包含所述相应重叠群的起始密码子、所述相应重叠群与所述共有序列之间的错配、所述相应重叠群中相对于所述共有序列所引起的缺失、所述相应重叠群的终止密码子或所述相应重叠群的编码区。


28.根据权利要求26所述的系统,其中响应于选择所述共有序列,所述方法进一步包括以被配置成供用户剪切并粘贴到在所述系统上运行的单独分开的应用中的格式显示整个共有序列。


29.根据权利要求26所述的系统,其中响应于选择在所述汇总信息板中显示的重叠群的表示,所述方法进一步包括显示关于所选重叠群的信息,所述信息包含以下中的一个或多个:所述重叠群的条形码、所述重叠群的标识符、支持所述重叠群的唯...

【专利技术属性】
技术研发人员:A·Y·王J·梅林K·吴P·雷夫金
申请(专利权)人:一零X基因组学有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1