System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种使用AptaGenDiff生成模型生成Aptamer序列的方法技术_技高网

一种使用AptaGenDiff生成模型生成Aptamer序列的方法技术

技术编号:41229768 阅读:2 留言:0更新日期:2024-05-09 23:46
本发明专利技术公开了一种使用AptaGenDi ff生成模型生成Aptamer序列的方法,包括以下步骤:针对公开数据集中SELEX筛选得到的适配体序列进行去重处理;将原始适配体序列进行编码;利用AptaGenDi ff,使用潜在空间的分布作为条件参与扩散模型的去噪过程,进而生成与原始序列具有相近亲和力的适配体序列;利用生成的可能具有亲和力的序列作为新的适配体序列,用于补充SELEX初始文库。通过结合扩散模型和变分自动编码器,模型能够以某一蛋白的部分具有亲和力的适配体序列作为数据进行模型训练,不断采样获取可能具有高亲和力的新序列,用于补充SELEX初始文库。

【技术实现步骤摘要】

本专利技术涉及生物,尤其涉及一种使用aptagendiff生成模型生成aptamer序列的方法。


技术介绍

1、aptamer(适配体)是一种合成的单链核酸短链,它能够高度特异地结合多种不同的靶标,包括金属离子、化合物、蛋白质、细胞和整个微生物。相较于传统抗体,aptamer在多方面具有优势,如保质期长、批次间差异小、免疫原性低或无,以及可以通过灵活的化学修饰来增强稳定性和靶向亲和力。这些特性使aptamer在治疗、药物输送、诊断、功能基因组学和生物传感等领域具有广泛的应用前景。

2、aptamer的序列是其对靶标的高度特异结合的关键影响因素。这些核酸序列在selex(systematic evolution of ligands by exponential enrichment,指数富集配体的系统进化)技术中发挥着关键的作用。selex是一个迭代的过程,它用于体外开发aptamer。在selex中,每轮迭代包括文库的设计、靶标的制备、反筛、正筛、结合/未结合序列的分离、逆转录(对于rna适配体)、pcr扩增、单链dna分离(对于dna适配体)和转录(对于rna适配体)等步骤。其中,文库设计通常通过搜索具有理想结合属性的序列的大型库完成。

3、深度学习技术通过多层神经网络进行数据处理和分析,在计算机视觉、自然语言处理、语音识别、推荐系统等多个领域具有重要作用。深度学习技术衍生出大量分支,与本文技术方案密切相关的主要有两种:扩散模型(diffusion model)和变分自动编码器(variational autoencoder,vae)

4、扩散模型是近年来最受研究者关注的生成模型之一,能够根据训练样本生成不存在于训练集中的新数据,其已经在图像生成等领域展现出了优越的性能。扩散模型的灵感来源于非平衡热力学,其核心思想是缓慢地将噪声添加到数据中,逐渐得到呈现高斯分布的噪声数据,在加噪过程中使用神经网络跟进学习去噪过程,从而使扩散模型具有从噪声中生成新数据的能力。

5、变分自动编码器同样是一种生成模型,深受变分贝叶斯和概率图模型(graphicalmodel)的启发。其核心思想是将输入数据通过编码器转换为潜在空间中的概率分布,然后对该分布使用重参数化技巧(reparameterization trick)并通过解码器完成生成任务。这样的架构不仅允许变分自编码器学习数据的压缩表示,还可以生成与原始数据相似的新数据样本。

6、以上提到,selex技术需要通过搜索具有理想结合属性的序列的大型库来进行初始文库设计,然而,这些库实际上仅限于理论序列空间的一小部分。目前已经有一些技术可以进行序列生成工作,得到不在大型库中的可能具有较高蛋白质亲和力的aptamer序列。

7、mlpd:使用机器学习和粒子显示(particle display)引导aptamer序列生成

8、mlpd技术结合了计算机技术和物理实验,是一种具有较好可靠性的序列生成方法。其从传统的文库开始,该库可以被视为来自可能具有高亲和力的适体空间的样本,首先使用粒子显示技术根据目标浓度和荧光值测量文库中每个适体候选的相对亲和力,从而为机器学习模型生成训练数据;然后通过粒子显示技术获取的数据训练打分模型,该打分模型主要由卷积层和全连接层组成;再对已有的aptamer序列进行随机突变,使用训练好的打分模型判断突变后的模型亲和力,选择出分数较高的突变序列;最后使用粒子显示技术再次检查突变序列的相对亲和力,将合格的序列作为生成得到的新序列加入文库中。理论上,mlpd技术能够迭代进行上述过程,不断获取新的序列,直至得到满足selex技术所需的高质量候选者。

9、raptgen:使用变分自编码器进行aptamer序列生成

10、变分自动编码器是深度学习技术中常用的生成模型,raptgen方法基于变分自动编码器的理念构建模型进行aptamer序列生成。raptgen方法的训练数据是与蛋白质对应的具有较高亲和力的多条序列。对于输入模型的序列数据,首先使用由卷积层构成的编码器将其映射为潜在空间中的概率分布,然后使用重参数化技巧和由卷积层和全连接层构成的解码器获取转移概率、插入概率和删除概率,最后通过概要隐式马尔可夫模型(profilehidden markov model,phmm)进行aptamer序列生成,获得不存在于训练集中的新序列。

11、综上所述,现有的技术方案中,mlpd技术依赖于实验数据,对序列进行多次相对亲和力检测的成本较高;raptgen技术实际上是通过深度学习技术获取了phmm算法所需的参数,再使用该算法进行序列生成,并未形成端到端的模型,也无法进行条件生成。


技术实现思路

1、为了克服上述现有技术所述的至少一个缺陷,本专利技术提供一种使用aptagendiff生成模型生成aptamer序列的方法,其可解决现有技术成本高且无法进行条件生成的问题。

2、本专利技术为解决其问题所采用的技术方案是:

3、一种使用aptagendiff生成模型生成aptamer序列的方法,包括以下步骤:

4、s1、针对公开数据集中selex筛选得到的aptamer序列进行去重处理;

5、s2、将原始aptamer序列进行one-hot编码;

6、s3、利用深度学习模型aptagendiff,包括编码器、扩散模型的加噪过程、重参数化技巧、扩散模型的去噪过程,将序列映射到潜在空间的分布,并进行训练;

7、s4、在训练过程中,使用潜在空间的分布作为条件参与扩散模型的去噪过程,进而生成与原始序列具有相近亲和力的aptamer序列;

8、s5、利用生成的可能具有亲和力的序列作为新的aptamer序列补充selex初始文库。

9、通过采用上述方案,构建端到端的序列生成模型,能够直接根据随机生成的序列中生成具有较高亲和力的aptamer序列。

10、进一步地,s3步骤中所述的编码器用于将输入原始aptamer序列的one-hot编码映射到潜在空间的分布,参与扩散的去噪过程,进行端到端的模型训练。

11、通过采用上述方案,方便后续序列生成。

12、进一步地,s3步骤中的所述重参数化技巧具体包括如下步骤:

13、b1、在训练过程中,编码器将输入序列映射到潜在空间的分布;

14、b2、使用卷积神经网络学习数据分布的均值μ和方差σ;

15、b3、使用公式z=μ+σ☉ε获取潜在空间的分布,z就是序列在潜在空间的坐标,ε是标准正态分布。

16、b4、得到的采样点即为潜在空间中的一个样本。

17、通过采用上述方案,通过引入重参数化,模型的整体结构仍然是可微分的。这是因为采样过程中引入的随机性被映射为一个确定性的可导过程。由于模型的可微性,可以使用梯度下降等优化算法对模型参数进行更新,从而实现对整个模型的训练。另外重本文档来自技高网...

【技术保护点】

1.一种使用AptaGenDiff生成模型生成Aptamer序列的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种使用AptaGenDiff生成模型生成Aptamer序列的方法,其特征在于,S3步骤中所述的编码器用于将输入原始Aptamer序列的one-hot编码映射到潜在空间的分布,参与扩散的去噪过程,进行端到端的模型训练。

3.根据权利要求2所述的一种使用AptaGenDiff生成模型生成Aptamer序列的方法,其特征在于,S3步骤中的所述重参数化技巧具体包括如下步骤:

4.据权利要求3述的一种使用AptaGenDiff生成模型生成Aptamer序列的方法,其特征在于,S3步骤中的所述扩散模型的去噪过程具体包括如下步骤:

5.据权利要求2所述的一种使用AptaGenDiff生成模型生成Aptamer序列的方法,其特征在于,C3步骤中所述的去除噪声干扰的具体包括如下步骤:

6.据权利要求5述的一种使用AptaGenDiff生成模型生成Aptamer序列的方法,其特征在于,S2步骤中所述的one-hot编码中,每个核苷酸表示为4个可能碱基中的二进制,每个碱基在特定位置时为1,其他三位为0。

...

【技术特征摘要】

1.一种使用aptagendiff生成模型生成aptamer序列的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种使用aptagendiff生成模型生成aptamer序列的方法,其特征在于,s3步骤中所述的编码器用于将输入原始aptamer序列的one-hot编码映射到潜在空间的分布,参与扩散的去噪过程,进行端到端的模型训练。

3.根据权利要求2所述的一种使用aptagendiff生成模型生成aptamer序列的方法,其特征在于,s3步骤中的所述重参数化技巧具体包括如下步骤:

4.据权...

【专利技术属性】
技术研发人员:程昭文王振燕鹏举李晓林
申请(专利权)人:杭州灵思智康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1