学习系统、确定系统和预测系统以及学习方法、确定方法和预测方法技术方案

技术编号：43398425 阅读：24 留言：0更新日期：2024-11-19 18:15

本发明专利技术的一方式提供一种学习系统、确定系统和预测系统以及学习方法、确定方法和预测方法。在DNA的甲基化测定中，存在亚硫酸氢盐转化的不完全性的问题(问题1)、在几个不同的生物标记序列/基因一起扩增时产生偏差的问题(问题2)及非甲基化信号的过度扩增的程度依赖于基因序列本身和用于测定的化学物质这一问题(问题3)。在本发明专利技术的一方式中，提供一种在存在3个问题时学习测定误差特性并且使所学习的误差特性反映到生物标记选择基准的系统和与该系统对应的方法。解决在存在问题1～3的组合时的对DNA的甲基化的测定误差特性评价的问题，形成本发明专利技术的主要新颖性。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】

本专利技术涉及一种测定生物标记的值的技术。

技术介绍

1、在dna(deoxyribonucleic acid：脱氧核糖核酸)中，已知发生被称为“甲基化”的现象。甲基化是指基于甲基分子与胞嘧啶化学键合的修饰。该胞嘧啶(c：cytosine)与鸟嘌呤(g：guanine)、腺嘌呤(a：adenine)、胸腺嘧啶(t：thymine)一起构成了构成dna的4个必需核酸碱基。核酸碱基的任意序列被称为“核苷酸序列”，对蛋白质等的重要信息进行编码的核苷酸序列被称为“基因组序列”或“基因”。

2、在人体中，在dna链上胞嘧啶紧与鸟嘌呤连接的位置(称为“cpg位点”)上，甲基化尤其常见。甲基化状态影响基因的激活或抑制化，某些基因的cpg位点的甲基化状态形成许多疾病的重要的生物标记。通常，为了制作疾病诊断的定量模型，使用从几个生物标记候选序列的组合获得的数据。因此，测定生物标记的dna甲基化变得重要。

3、在dna的测定过程中，数据出现错误，对任何推测/预测的可靠性都会带来影响。用于将生物标记的选择最佳化的以往的研究在测定工艺中假设仅有极少的错误，仅将焦点集中在可利用的数据的预测值上。作为这种方法的例子，已知有一种特征选择算法，其依赖于来自(artificial intelligence(人工智能)分类器的性能之类的)定量模型的输出信号来确定是否使用生物标记序列作为用于分类的特征。

4、关于这种以往的技术，例如在专利文献1中记载有从代表性的生物标记数据选择生物标记集进行评价的内容。并且，在非专利文献1中记载有

5、以往技术文献

6、专利文献1：日本特表2017-523437号公报

7、非专利文献

8、非专利文献1：“measuring and mitigating pcr bias in microbiome data”、justin d.silverman等、[2022年3月22日检索]、互联网(https://www.biorxiv.org/content/10.1101/604025v1)

技术实现思路

1、专利技术要解决的技术课题

2、在下一部分中，对所要学习生物标记序列(sequence：序列)的测定误差特性的现有研究进行详细讨论。对这些现有研究和与它们相关的问题进行讨论，并进行各个阶段的详细说明。

3、[dna的甲基化测定]

4、将甲基化测定的概要示于图1中。在甲基化的测定中，血液样品10被亚硫酸氢盐转化，通过pcr装置扩增基因/信号，并通过新时代测序仪等进行测定。这些一系列的测定顺序构成湿式实验协议20(wet experiment protocol)。

5、[step1：亚硫酸氢盐转化]

6、为了区分cm(甲基化胞嘧啶)和cu(非甲基化胞嘧啶)，使用亚硫酸氢盐转化(bisulfite conversion)的追加步骤。在亚硫酸氢盐转化中，cu转化为尿嘧啶(u：uracil)，cm仍为cm。若所转化的样品被序列化，则cm作为c(胞嘧啶)而读出，另一方面，尿嘧啶作为胸腺嘧啶而读出。由此，能够区分胞嘧啶的甲基化状态。

7、[问题1：亚硫酸氢盐转化中的问题]

8、该顺序的理想结果为cu被转化为100％的尿嘧啶、cm完全不会转化为尿嘧啶(转化为0％，cm仍为cm)。但是，在化学反应的性质上，转化的成功(或不成功)的程度是概率论的，定量研究是困难的。以下将这种亚硫酸氢盐转化的不完全性称为“问题1”。

9、[step2：pcr扩增]

10、该阶段可以理解为测定的信号扩增阶段。标准上(即，不是为了进行甲基化而是为了进行亚硫酸氢盐转化)，各个“信号”是感兴趣的基因或序列。在原始数据中，这种序列的数量非常少，因此所派生的信号较弱。因此，认为通过多次复制原始序列，能够增加序列数而扩增信号。例如，将pcr前的基因1的信号强度称为g1_pre，将pcr后的信号强度称为g1_post。另外，实际上，将焦点集中在同时扩增多个基因/信号上。因此，关于基因2，以与基因1相同的方式定义g2_pre和g2_post。

11、现在，若首先进行上述step1，则即使是仅1个基因，也可获得2个信号。例如，基因1具有几个被转化为包含尿嘧啶的其他序列的、作为非甲基化具有cpg的序列。同样地，cpg被甲基化的序列不会被转化。这是常见的，在肝脏和胃的dna的混合物中被发现。在这种混合物中，有可能对肝脏重要的基因在肝细胞中未被甲基化，但在胃细胞中被甲基化(因此被抑制)。因此，关于基因1，将pcr前信号的强度和pcr后信号的强度设为g1_u_pre及g1_u_post(在未被甲基化的情况)、设为g1_m_pre及g1_m_post(在被甲基化的情况)，将所解密的序列设为g1_m_pre及g1_m_post。

12、[问题2：单亚硫酸氢盐协议中的pcr偏差]

13、即使扩增相同基因的信号，亚硫酸氢盐转化也会成为2个信号类型。因此，g1_u_post/g1_u_pre＝g1_m_post/g1_m_pre不成立。已知即使在g1_u_pre＝g1_m_pre的情况下，扩增后成为g1_u_post/g1_u_pre＞g1_m_post/g1_m_pre(即，非甲基化基因相对于甲基化基因过度扩增)。但是，这种非甲基化信号的过度扩增的程度依赖于基因序列本身和测定中使用的化学物质。以下，将该问题称为“问题2”。

14、[问题3：pcr扩增中的问题]

15、pcr的理想结果为g1_post/g1_pre＝g2_post/g2_pre。但是，实际上，某种基因序列比其他基因序列容易测定而该等价性不成立。将这种在一起扩增了几个不同的生物标记序列/基因的情况下产生的偏差称为多重化协议中的“pcr偏差”(以下，称为“问题3”)。

16、[以往技术中的对应]

17、对上述的问题1～3的以往技术中的对应进行说明。在以往技术中，关于问题1，定量研究中通常不需要极端的准确度，因此未考虑亚硫酸氢盐转化的成功程度。并且，关于问题3，在迄今为止的微生物学的研究中，以乘法的方式考虑pcr的效果。即，在以往的技术中，认为若1次pcr循环后的基因1的信号强度为j，则2次循环后的信号强度为j2，x次循环后的信号强度同样为jx。使用该假设，pcr被模型化为使用了多项逻辑-通常线性模型的对数线性过程。“批次效应”(针对每个批次显示出稍微不同的偏差特性的样本的pcr)等其他协变量也包含在概率论方法中。模型在“训练”所生成的校准数据之后，用于校准pcr偏差。

18、并且，关于问题2，单一协议设定中的测定误差和偏差的特征化更简单，因此在一部分的pcr数据中，为了发现偏差的程度而进行线性回归。在计算出线性回归估计量之后，能够使用该方程式来校准这种偏本文档来自技高网...

【技术保护点】

1.一种学习系统，其学习测定协议变量与作为生物标记序列的结果而产生的误差特性的关系，所述学习系统具备处理器，

2.根据权利要求1所述的学习系统，其中，

3.根据权利要求1或2所述的学习系统，其中，

4.一种确定系统，其具备处理器，其中，

5.根据权利要求4所述的确定系统，其中，

6.一种预测系统，其预测基因序列的测定误差特性，所述预测系统具备处理器，

7.根据权利要求6所述的预测系统，其中，

8.一种学习方法，其由具备处理器且学习测定协议变量与作为生物标记序列的结果而产生的误差特性的关系的学习系统执行，其中，

9.根据权利要求8所述的学习方法，其中，

10.根据权利要求8或9所述的学习方法，其中，

11.一种确定方法，其由具备处理器的确定系统执行，其中，

12.根据权利要求11所述的确定方法，其中，

13.一种预测方法，其由具备处理器且预测基因序列的测定误差特性的预测系统执行，其中，

14.根据权利要求13所述的预测方法，其中，

...

【技术特征摘要】
【国外来华专利技术】