使用机器学习技术分析纳米孔信号制造技术

技术编号：29417724 阅读：19 留言：0更新日期：2021-07-23 23:08

使用机器学习技术分析在包括一系列聚合物单元的聚合物相对于纳米孔易位期间从所述聚合物导出的信号。输出一系列权重分布，每个权重分布包括关于一组标签上的标签之间的转换的权重，所述一组标签表示所述聚合物中的可能类型的聚合物单元。来自所述权重分布的所述一系列聚合物单元的估计值。关于所述转换的权重的使用提高了所述技术的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】使用机器学习技术分析纳米孔信号
本专利技术涉及对在聚合物(例如但不限于多核苷酸)相对于纳米孔易位期间从聚合物导出的信号的分析。
技术介绍
用于使用纳米孔估计聚合物中的聚合物单元的靶序列的测量系统是已知的，其中聚合物相对于纳米孔易位。系统的一些性质取决于纳米孔中的聚合物单元，并且进行所述性质的测量。性质取决于相对于纳米孔易位的聚合物单元的身份，并且因此，随时间变化的信号允许估计聚合物单元的序列。与孔的尺寸相比，每个聚合物单元可以非常小，从而允许多个聚合物单元在给定时间段内影响信号。由于聚合物链与纳米孔的相互作用、如缠绕或堆叠等链内性质或聚合物单元与用于控制其易位的任何系统之间的相互作用，也可以存在更长远的影响。信号形成必须被解码以估计潜在的聚合物单元的读段。这种纳米孔测量系统可以提供表示范围为数百到数十万(并且可能更多)个核苷酸的多核苷酸的连续长读段的信号。使用纳米孔的这种类型的测量系统具有相当大的前景，特别是在对如DNA或RNA等多核苷酸进行测序的领域中，并且已经成为最近发展的主题。然而，对聚合物单元的估计的准确度受到极其敏感的测量系统的限制。实际上，具有高准确度的估计需要机器学习技术，并且本专利技术涉及改善这种分析以增加估计准确度。早期分析技术使用了隐马尔可夫模型(HiddenMarkovModel，HMM)，所述模型显式地对包括连续聚合物单元组的可能的k聚体进行建模。最近已经开发了使用递归神经网络(RNN)的技术。RNN的使用可以通过将远程信息考虑在内来提高准确度。随着读取速度的提高，RN...

【技术保护点】
1.一种分析在聚合物相对于纳米孔易位期间从所述聚合物导出的信号的方法，所述聚合物包括属于一组可能类型的聚合物单元的一系列聚合物单元，/n所述方法包括：/n使用输出一系列权重分布的机器学习技术来分析所述信号，每个权重分布包括关于一组标签上的标签之间的转换的权重，所述一组标签包含表示所述可能类型的聚合物单元的标签；以及/n从所述权重分布导出所述一系列聚合物单元的估计值。/n

【技术特征摘要】
【国外来华专利技术】20181128 GB 1819378.91.一种分析在聚合物相对于纳米孔易位期间从所述聚合物导出的信号的方法，所述聚合物包括属于一组可能类型的聚合物单元的一系列聚合物单元，
所述方法包括：
使用输出一系列权重分布的机器学习技术来分析所述信号，每个权重分布包括关于一组标签上的标签之间的转换的权重，所述一组标签包含表示所述可能类型的聚合物单元的标签；以及
从所述权重分布导出所述一系列聚合物单元的估计值。

2.根据权利要求1所述的方法，其中不允许标签之间的至少一个转换并且允许其它转换，所述权重分布各自包括关于被允许的转换的权重。

3.根据权利要求2所述的方法，其中所述权重分布各自包括关于不被允许的转换的零权重。

4.根据权利要求2或3所述的方法，其中导出所述一系列聚合物单元的估计值的步骤将表示是否允许或不允许标签之间的转换的转换矩阵考虑在内。

5.根据权利要求2到4中任一项所述的方法，其中
所述一组标签包含关于每种类型的聚合物单元的第一标签和第二标签，所述第一标签表示所述类型的聚合物单元的实例的开始，并且所述第二标签表示所述类型的聚合物单元的所述实例中的停留，其中
允许任何其它类型的聚合物单元从每个第一标签转换到所述第一标签，
允许相同类型的聚合物单元从每个第一标签转换到所述第一标签，
允许相同类型的聚合物单元从每个第一标签转换到所述第二标签，
不允许任何其它类型的聚合物单元从每个第一标签转换到所述第二标签，
允许相同类型的聚合物单元从每个第二标签转换到所述第一标签或允许任何其它类型的聚合物单元从每个第二标签转换到所述第一标签，并且
允许相同类型的聚合物单元从每个第二标签转换到所述第二标签，并且
不允许任何其它类型的聚合物单元从每个第二标签转换到所述第二标签。

6.根据权利要求2到5中任一项所述的方法，其中所述一组可能类型的聚合物单元包含总是以聚合物单元的已知序列出现的类型的聚合物单元，允许与所述已知序列一致的转换并且不允许与所述已知序列相反的转换。

7.根据前述权利要求中任一项所述的方法，其中所述一系列聚合物单元中的相同类型的聚合物单元的连续实例以编码形式表示。

8.根据权利要求7所述的方法，其中所述标签包含关于每种类型的聚合物单元的多个标签，其中关于每种类型的聚合物单元的所述多个标签表示所述一系列聚合物单元中所述类型的聚合物单元的连续实例。

9.根据权利要求8所述的方法，其中用于每种类型的聚合物单元的所述多个标签具有预先确定的循环顺序，由此通过所述预先确定的循环顺序允许标签之间的一些转换并且通过所述预先确定的循环顺序不允许之间的其它转换，所述权重分布各自包含关于通过所述预先确定的循环顺序允许的转换的权重。

10.根据权利要求8或9所述的方法，其中用于每种类型的聚合物单元的所述多个标签是用于每种类型的聚合物单元的两个标签。

11.根据权利要求7所述的方法，其中所述一系列聚合物单元中的相同类型的聚合物单元的连续实例以游程长度编码形式表示。

12.根据权利要求11所述的方法，其中所述标签包含关于每种类型的聚合物单元的不同游程长度的多个标签。

13.根据权利要求11所述的方法，其中
所述标签包含关于每种类型的聚合物单元的标签，并且
对于每种类型的聚合物单元，所述权重分布包括在相同类型的聚合物单元的连续实例的可能长度上的另外的权重。

14.根据权利要求13所述的方法，其中对于每种类型的聚合物单元，所述另外的权重包括在相同类型的聚合物单元的连续实例的一组可能长度上的权重的分类分布。

15.根据权利要求13所述的方法，其中对于每种类型的聚合物单元，所述另外的权重包括在相同类型的聚合物单元的连续实例的可能长度上的参数化分布的参数。

16.根据权利要求13到15中任一项所述的方法，其中(a)对于给定聚合物单元的类型和先前聚合物单元的类型的可能对、(b)对于给定聚合物单元的类型和后续聚合物单元的类型的可能对，或(c)对于给定聚合物单元的类型、先前聚合物单元的类型和后续聚合物单元的类型的可能三联体，所述权重分布包括在相同类型的聚合物单元的连续实例的可能长度上的另外的权重。

17.根据前述权利要求中任一项所述的方法，其中所述可能类型的聚合物单元包含具有未修饰形式和经修饰形式的类型的聚合物单元。

18.根据权利要求17所述的方法，其中所述一组标签包含关于具有未修饰形式和经修饰形式的所述类型的聚合物单元的标签。

19.根据权利要求18所述的方法，其中对于具有所述未修饰形式和所述经修饰形式的所述类型的聚合物单元中的每个聚合物单元的所述未修饰形式和所述经修饰形式，每个权重分布包括另外的权重。

20.根据前述权利要求中任一项所述的方法，其中所述一组标签包含至少一个表示每种类型的聚合物单元的标签。

21.根据前述权利要求中任一项所述的方法，其中所述一组标签进一步包含至少一个表示所述一系列聚合物单元中的空白和/或停留的标签。

22.根据前述权利要求中任一项所述的方法，其中所述机器学习技术是包括至少一个递归层的神经网络。

23.根据权利要求22所述的方法，其中所述至少一个递...

【专利技术属性】
技术研发人员：蒂莫西·L·马辛厄姆，
申请(专利权)人：牛津纳米孔科技公司，
类型：发明
国别省市：英国;GB

全部详细技术资料下载我是这个专利的主人