System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 三维碱基识别方法及装置、基因测序仪及存储介质制造方法及图纸_技高网

三维碱基识别方法及装置、基因测序仪及存储介质制造方法及图纸

技术编号:40991710 阅读:9 留言:0更新日期:2024-04-18 21:33
本发明专利技术公开一种三维碱基识别方法及装置、基因测序仪及存储介质,所述方法包括:获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像;将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像;基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。

【技术实现步骤摘要】

本专利技术涉及基因,特别涉及一种基于三维模型的碱基识别方法及装置、基因测序仪及计算机可读存储介质。


技术介绍

1、测序仪是一种广泛用于基因组测序的测序仪器,它可以快速、准确地测定dna序列。目前测序仪的测序算法已经从不依赖数据集的传统测序算法发展到了依赖数据集进行训练得到基于深度学习的测序算法。深度学习是一种基于包括训练样本及标签的数据集对深度学习网络进行训练,在训练过程中以标签为训练目标训练深度学习网络,并获得训练样本对应的经过深度学习网络拟合的相似标签。因此,深度学习的效果取决于数据集与网络模型两个方面,其中数据集是基础,获得一个完备且具有表征能力的数据集更有利于提高基于深度学习的测序算法的碱基识别精度。

2、基因测序是指分析待测数据的dna片段的碱基序列,也就是腺嘌呤(a)、胸腺嘧啶(t)、胞嘧啶(c)与鸟嘌呤(g)的排列方式,基因测序的输入图像为包含多种碱基类型的碱基簇的图像。在基因样本染色后,在特定激光下激发荧光,被镜头捕捉。通过不同激光功率激发基因样本散发不同亮度的荧光,可以得到不同激光功率下捕获的四张荧光图像,即a碱基荧光图像、t碱基荧光图像、c碱基荧光图像及g碱基荧光图像。对捕获的荧光图像中的亮度进行分析以实现对待测数据中的每个碱基簇的碱基类别的识别。但由于不同激光功率下捕获的四张图像中,每张荧光图像只包含一种碱基类型的碱基的信息,信息量有限。而且由于激光功率不同,四张图像背景亮度也不同,会有高功率捕获图像整体比低功率捕获图像更亮的情况,这样就会造成不同碱基类型的荧光图像间的背景差距较大。在训练深度学习网络模型时由于训练样本间的较大的背景差异,会让深度学习网络模型更关注背景差异带来的分类结果,而不是基因簇本身亮度差异带来的分类结果,使深度学习网络模型不易收敛,从而增加了训练难度。

3、目前,基因测序技术主要可分为三代,第一代测序技术sanger法是基于dna合成反应的测序技术,又称为sbs法、末端终止法,由sanger1975年提出,并于1977发表第一个完整的生物体基因组序列。第二代测序技术是以illumina平台为代表的测序,实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展。第三代测序技术是nanopore纳米孔测序技术,是单分子实时测序的新一代技术,主要是通过ssdna或rna模板分子通过纳米孔而带来的电信号变化推测碱基组成进行实时测序。

4、第二代基因测序技术中,利用荧光显微镜成像技术,将荧光分子的信号保存到图像中,通过解码图像的荧光信号来获得碱基序列。为了实现对不同碱基的区分,需要使用滤光片获取测序芯片在不同频率下荧光强度的图像,以获得荧光分子发光的频谱特征。同一场景下需要拍摄多张图像,通过对这些图像进行定位和配准,提取点信号并进行亮度信息分析处理,得到碱基序列。随着二代测序技术的发展,测序仪产品现在都配有实时处理测序数据的软件。不同的测序平台会采用不同的光学系统和荧光染料,因此荧光分子发光的频谱特征会有差异。如果算法无法得到适当的特征或者找到合适的参数以处理这些不同的特征,就可能导致碱基分类出现较大误差,从而影响测序质量。

5、此外,二代测序技术利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,如图1。通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,如图2。在dna测序中,常用的荧光标记为四种,将这四种荧光标记同时加入一个循环(cycle)中,并利用相机拍摄荧光信号的图像。由于每个荧光标记都对应一种特定的波长,因此我们能够在图像中分离出不同荧光标记对应的荧光信号,进而得到对应的荧光图像,如图3。在此过程中,可以对相机进行对焦调整以及采样参数设置,以确保所得到的tif灰度图像质量达到最优。然而,在实际应用过程中,荧光图像中碱基簇的亮度总是受到多种因素的干扰,主要包括图像内碱基簇的之间的串扰(spatial crosstalk),通道内的串扰(crosstalk)和循环之间的串扰(phasing、prephasing)。已知的碱基识别技术主要是对串扰和强度进行归一化,但矫正方法不尽相同。通过每个周期内的crosstalk矩阵和phasing与prephasing比率来矫正荧光光强度值,去除串扰噪声,然后通过4个通道的光强值来识别碱基,如图4。然而,现有的碱基识别技术只能对已知的亮度干扰因素,如通道间的亮度串扰,cycle间提前反应或延迟反应导致的phasing和prephasing现象进行矫正,无法校正其它未知的生化或者环境的影响造成的亮度干扰,导致识别精度不高,当样本密度越高时,碱基簇越密集,碱基簇之间的亮度串扰越严重,导致测序准确度大大降低。现有的这些机器学习的方法多采用二维卷积网络对包括多种碱基类型的荧光图像的输入图像进行处理,这种做法无法充分挖掘不同循环间图像之间的关联信息(如phasing、prephasing),及不同循环不同碱基类型间的图像信息,影响最后的碱基识别精度。


技术实现思路

1、为了解决现有存在的技术问题,本专利技术实施例提供一种基于三维模型的碱基识别方法、装置、设备及计算机可读存储介质,能够使碱基识别模型更好地理解荧光图像在循环时序信息上的潜在信息,可以减少前后循环时序信息之间的反应提前效应干扰、反应滞后反应干扰以及g碱基淬灭干扰,从而提高碱基识别精度。

2、第一方面,提供一种基于三维模型的碱基识别方法,包括:

3、获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像;

4、将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像;

5、基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。

6、第二方面,提供一种基于三维模型的碱基识别装置,包括:

7、获取模块,用于获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像;

8、拼接模块,用于将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像;

9、识别模块,用于基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。

10、第三方面,提供一种基因测序仪,包括存储器本文档来自技高网...

【技术保护点】

1.一种基于三维模型的碱基识别方法,其特征在于,包括:

2.如权利要求1所述的基于三维模型的碱基识别方法,其特征在于,所述基于所述三维荧光图像形成三维输入数据包括:

3.如权利要求2所述的基于三维模型的碱基识别方法,其特征在于,一个三维子图像对应测序芯片上一个指示碱基信号采集单元中心位置的碱基信号模板点位置;所述基于碱基信号采集单元将所述三维荧光图像剪裁成多个三维子图像包括:

4.如权利要求2所述的基于三维模型的碱基识别方法,其特征在于,所述通过所述碱基识别模型中用于碱基识别的预测网络基于每个三维子图像对应的三维特征图进行碱基识别,输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果包括:

5.如权利要求1所述的基于三维模型的碱基识别方法,其特征在于,所述方法还包括:

6.如权利要求5所述的基于三维模型的碱基识别方法,其特征在于,一个三维子样本图像对应测序芯片上一个指示碱基信号采集单元中心位置的碱基信号模板点位置,一个三维子样本图像包括一个碱基信号模板点位置处对应的多个循环下的子样本荧光图像。

7.如权利要求5所述的基于三维模型的碱基识别方法,其特征在于,所述损失函数采用交叉熵损失函数,所述损失函数的公式为:

8.一种基于三维模型的碱基识别装置,其特征在于,包括:

9.一种基因测序仪,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7任一项所述方法的步骤。

...

【技术特征摘要】

1.一种基于三维模型的碱基识别方法,其特征在于,包括:

2.如权利要求1所述的基于三维模型的碱基识别方法,其特征在于,所述基于所述三维荧光图像形成三维输入数据包括:

3.如权利要求2所述的基于三维模型的碱基识别方法,其特征在于,一个三维子图像对应测序芯片上一个指示碱基信号采集单元中心位置的碱基信号模板点位置;所述基于碱基信号采集单元将所述三维荧光图像剪裁成多个三维子图像包括:

4.如权利要求2所述的基于三维模型的碱基识别方法,其特征在于,所述通过所述碱基识别模型中用于碱基识别的预测网络基于每个三维子图像对应的三维特征图进行碱基识别,输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果包括:

5.如权利要求1所述的基于三维模型的碱基识别方法,其特征在于,所述方法还包括:

6.如权利要...

【专利技术属性】
技术研发人员:彭宽宽陈伟周祎楠王谷丰赵陆洋
申请(专利权)人:深圳赛陆医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1