System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于scGPT的小分子跨模态生成方法技术_技高网

基于scGPT的小分子跨模态生成方法技术

技术编号:39988400 阅读:11 留言:0更新日期:2024-01-09 02:04
一种基于scGPT的小分子跨模态生成方法,用基因编码器与分子编码器分别对预处理后的基因转录谱与小分子数据编码并提取出特征后,用一个全连接层将两种模态映射到同一维度空间中并通过对比学习进行基因模态与小分子模态的多模态匹配;再将对齐后的基因向量通过自回归模型将基因模态转成小分子模态,最后将小分子向量还原成SMILES与Mol格式输出。本发明专利技术通过输入所需的基因表达谱和对照基因表达谱,得到能够诱导所需转录组谱的候选分子。

【技术实现步骤摘要】

本专利技术涉及的是一种神经网络应用领域的技术,具体是一种基于单细胞基础模型(scgpt)的小分子跨模态生成方法。


技术介绍

1、基于表型的药物设计是生物信息学的重要研究内容,表型包含基因表达谱,细胞图等。现有的基于表型找药通过比较输入与收录的基因表达差异间的相似度,来寻找潜在的小分子药物,它受限数据库的大小与质量。


技术实现思路

1、本专利技术针对现有技术泛化能力差的问题进行优化,提出一种基于scgpt的小分子跨模态生成方法,通过输入所需的基因表达谱和对照基因表达谱,得到能够诱导所需转录组谱的候选分子。

2、本专利技术是通过以下技术方案实现的:

3、本专利技术涉及一种基于scgpt的小分子跨模态生成方法,用基因编码器与分子编码器分别对预处理后的基因转录谱与小分子数据编码并提取出特征后,用一个全连接层将两种模态映射到同一维度空间中并通过对比学习进行基因模态与小分子模态的多模态匹配;再将对齐后的基因向量通过自回归模型将基因模态转成小分子模态,最后将小分子向量还原成smiles与mol格式输出。

4、所述的基因编码器采用开源的scgpt模型。

5、所述的分子编码器与生成器采用开源的hiervae模型。

6、所述的预处理是指:选择l1000公共数据集(geo id:gse70138)中的level3中分属六大细胞系(vcap,pc3,a549,a375,ht29,mcf7)的实验数据与相同条件下的空白对照数据,然后计算每种小分子的平均基因表达水平,最后按照inchi-key主要层划分训练集测试集与验证集。

7、所述的通过对比学习进行基因模态与小分子模态的多模态匹配,具体包括:

8、1)将小分子编码经过一层全连接层映射到特定维度,再将实验组基因编码与对照组编码先作差得到基因差异表达编码,然后通过一层全连接层映射到和小分子映射后的相同维度;

9、2)在一个批次中,每种小分子映射后向量都与它对应的基因向量构成正样本与其他基因向量组成负样本,本专利技术需要最大化正样本的余弦相似度,最小化负样本间的相似度,本专利技术使用infonce损失函数实现这一目标;

10、3)反复迭代直到验证集损失连续5个轮次不再下降。

11、所述的通过自回归模型将基因模态转成小分子模态,具体包括:

12、a)通过pca将对齐前小分子模态降维后将降维后的小分子模态全部展平,划分出1024个区间,并对每个区间标号,属于该区间的向量数值用区间标号替代,使得小分子编码离散化;

13、b)将对齐后的基因模态、基因模态的总体均值、离散化后的小分子编码组成一条序列,采用transformer神经网络逐一预测小分子编码,其中:transformer神经网络在初始状态只根据基因模态与总体均值来预测小分子的第一个序号,然后再结合基因模态、总体均值以及第一个序号来预测小分子的第二个序号,直到小分子编码预测完整;

14、c)使用pca逆转换将离散化的小分子编码转换成连续的小分子编码。

15、技术效果

16、本专利技术在根据小分子扰动转录谱生成扰动小分子,根据基因敲除扰动转录谱生成潜在基因抑制剂的任务中,在基于morgan指纹的tanimoto相似度,基于maccs指纹的tanimoto相似度,fraggle相似度三种指标下均显著高于现有技术。

本文档来自技高网...

【技术保护点】

1.一种基于scGPT的小分子跨模态生成方法,其特征在于,用基因编码器与分子编码器分别对预处理后的基因转录谱与小分子数据编码并提取出特征后,用一个全连接层将两种模态映射到同一维度空间中并通过对比学习进行基因模态与小分子模态的多模态匹配;再将对齐后的基因向量通过自回归模型将基因模态转成小分子模态,最后将小分子向量还原成SMILES与Mol格式输出。

2.根据权利要求1所述的基于scGPT的小分子跨模态生成方法,其特征是,所述的基因编码器采用开源的scGPT模型。

3.根据权利要求1所述的基于scGPT的小分子跨模态生成方法,其特征是,所述的分子编码器与生成器采用开源的hierVAE模型。

4.根据权利要求1所述的基于scGPT的小分子跨模态生成方法,其特征是,所述的预处理是指:选择L1000公共数据集(GEO ID:GSE70138)中的Level3中分属六大细胞系(VCAP,PC3,A549,A375,HT29,MCF7)的实验数据与相同条件下的空白对照数据,然后计算每种小分子的平均基因表达水平,最后按照InChi-key主要层划分训练集测试集与验证集。

5.根据权利要求1所述的基于scGPT的小分子跨模态生成方法,其特征是,所述的通过对比学习进行基因模态与小分子模态的多模态匹配,具体包括:

6.根据权利要求1所述的基于scGPT的小分子跨模态生成方法,其特征是,所述的通过自回归模型将基因模态转成小分子模态,具体包括:

7.一种实现权利要求1-6中任一所述方法的基于scGPT的小分子跨模态生成系统,其特征在于,包括:基因编码器、小分子编码器、小分子生成器、模态对齐器与模态转换器,其中:基因编码器使用的是开源的scGPT模型,分子编码器与生成器使用的是开源的hierVAE模型;模态对齐器用一个全连接层将两种模态映射到同一维度空间中并使用对比学习对齐;

...

【技术特征摘要】

1.一种基于scgpt的小分子跨模态生成方法,其特征在于,用基因编码器与分子编码器分别对预处理后的基因转录谱与小分子数据编码并提取出特征后,用一个全连接层将两种模态映射到同一维度空间中并通过对比学习进行基因模态与小分子模态的多模态匹配;再将对齐后的基因向量通过自回归模型将基因模态转成小分子模态,最后将小分子向量还原成smiles与mol格式输出。

2.根据权利要求1所述的基于scgpt的小分子跨模态生成方法,其特征是,所述的基因编码器采用开源的scgpt模型。

3.根据权利要求1所述的基于scgpt的小分子跨模态生成方法,其特征是,所述的分子编码器与生成器采用开源的hiervae模型。

4.根据权利要求1所述的基于scgpt的小分子跨模态生成方法,其特征是,所述的预处理是指:选择l1000公共数据集(geo id:gse70138)中的level3中分属六大细胞系(vcap,p...

【专利技术属性】
技术研发人员:袁野张智科程佳贝
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1