本发明专利技术提供了一种转染后细胞筛选的预测方法及装置、电子设备、存储介质,涉及计算机技术领域;包括:获取高质量细胞筛选项目的数据作为原始数据集并对其进行预处理,检验数据预处理策略的合理性,以获取特征数据;构建融合序列自注意网络模型,将所得到的特征数据输入到融合序列自注意网络模型中,得到预测结果。本发明专利技术通过采用高质量细胞筛选项目的数据作为原始数据集,并采用SMOTE解决了原始数据集中的数据标签不平衡问题;通过FSAN模型结合LSTM的长期依赖处理能力和CNN的局部模式捕捉能力,为Encoder模块提供了丰富的特征表示;通过自注意力层识别和关注LSTM与CNN提取的数据特征之间的复杂关系。
【技术实现步骤摘要】
本专利技术涉及计算机,具体涉及一种转染后细胞筛选的预测方法及装置、电子设备、存储介质。
技术介绍
1、在现代生物医药领域,生物制药技术的发展已经极大地推动了多种疾病治疗的进步。细胞工程制药作为生物制药的重要手段,已经形成了非常大的产业规模。细胞工程制药是一种利用遗传工程或细胞培养技术改造细胞,使其能够生产药物的方法。因此获得高质量的改造细胞是至关重要的,这将直接决定药物生产的质量和效率。当前最常用的细胞改造方法是转染法,通过将特定的外源性核酸导入宿主细胞中,使细胞能够产生特定药物。但是由于外源性核酸插入宿主细胞中的基因序列位置的随机性,转染后需要从大量细胞中筛选出生长情况好、表达量高、表达水平稳定的优质细胞。
2、目前广泛使用的筛选方法主要包括两个阶段。第一个阶段是深孔板阶段。将转染获得的大量细胞分组,然后放在深孔板中进行培养,培养期间筛除生长情况差的细胞,最后只保留表现良好的细胞。第二个阶段是摇瓶阶段。将深孔板阶段筛选出的细胞放入摇瓶中继续培养,这期间将定时测量细胞浓度、平均细胞粒径等培养数据,并根据测量数据继续筛除不满足条件的细胞。最后将只保留表现优秀的几组细胞进入后续流程。
3、上述筛选方法依赖于耗时的培养,已经成为限制细胞工程制药效率的瓶颈。长时间的培养和筛选,需要大量专业设备和训练有素的操作员,导致了高昂的成本。人为操作的频繁介入,还大大增加了细胞污染和实验误差的风险。细胞筛选由操作员进行判定,筛选结果容易受到操作员主观判断的影响,这在很大程度上削弱了筛选结果的可靠性和一致性。
技术实现思路
1、本专利技术的目的在于针对筛选流程耗时过长、降低筛选过程中的人工成本和人工主观偏差、提高筛选质量的问题,研发一种自动化的高效细胞筛选预测方法及装置、电子设备、存储介质,具体技术方案如下。
2、本专利技术提供了一种转染后细胞筛选的预测方法,包括以下步骤:
3、步骤一、获取高质量细胞筛选项目的数据作为原始数据集;
4、步骤二、对原始数据集中的数据进行预处理,并使用相关性分析和显著性检验数据预处理策略的合理性,以获取特征数据;
5、步骤三、构建融合序列自注意网络模型,将所得到的特征数据输入到融合序列自注意网络模型中,得到预测结果。
6、进一步的,所述原始数据集包括多条数据,每条数据均包括有一个长度为10天的时间序列以及六个关键特征指标;六个关键特征指标分别为活细胞浓度、总细胞浓度、总细胞数量、平均粒径、平均圆度和结团率。
7、进一步的,单条数据的采集过程如下:
8、①、在深孔板阶段,仅在培养四天后进行一次数据的采集,获得一条数据;
9、②、在摇瓶阶段,对摇瓶阶段的第一天、第三天、第五天、第七天、第八天、第九天、第十天、第十二天以及第十四天均采集一条数据,获得九条数据;并根据细胞的生长情况筛除不满足要求的细胞,并对此将不完整的时间序列补为0;
10、③、将在深孔板阶段所获得的一条数据与在摇瓶阶段所获得的九条数据进行拼接,得到一个长度为10天的时间序列。
11、进一步的,对原始数据集中的数据进行预处理的具体过程如下:
12、选择任意两条标签为1的原始数据集中的数据,采用中值插值法对所选择的两条标签为1的原始数据集中的数据进行标准化处理,生成新的标记为的新样本数据;对原始数据集中的所有数据均进行标准化处理,得到标准化后的原始数据集;
13、在标准化后的数据中添加±0.2的随机扰动,由每条新样本数据生成四条新样本数据,得到预处理后的数据集;
14、将标准化后的原始数据集与预处理后的数据集进行皮尔逊相关性分析和检验,得到特征数据,特征数据包括不同特征之间的相关变化以及其对应特征的值。
15、进一步的,所述原始数据集中的数据采用csv文件存储;
16、采用皮尔逊相关性分析和检验得到的结果均采用csv文件存储。
17、进一步的,构建融合序列自注意网络模型的过程具体如下:
18、将长短期记忆神经网络模型配置为双层结构,其每层包含有16个至64个隐藏单元的可变配置,dropout函数设置为0.5;
19、将卷积神经网络设置为包含1至2个卷积层的可变配置,使用大小为2的卷积核,不适用池化层,捕捉细胞在短时间内的动态变化;
20、基于自注意力机制的encoder模块,采用单头注意力,随后是一个单层前馈神经网络;其中,encoder模块使用单头注意力机制来对输入信息进行处理;单头注意力的实现方式是将输入通过线性变换获得查询、键、值矩阵;注意力机制通过计算查询和键之间的相似性,为不同位置的输入赋予不同权重,从而捕捉不同位置的输入之间的相关性与依赖性;注意力输出后,通过一个单层前馈神经网络对数据进行进一步非线性变换,以丰富特征表达;
21、将lstm的最后一层输出与cnn的展平后的输出进行拼接,作为encoder的输入;
22、encoder的输出经过一个softmax激活函数,产生最终的二分类预测融合序列自注意网络模型。
23、进一步的,将所得到的特征数据输入到融合序列自注意网络模型中进行预测的具体过程如下:
24、预处理后的数据集按照6﹕2﹕2的比例划分为训练集、验证集和测试集,并将所有随机种子均设置为202;
25、采用融合序列自注意网络模型的encoder模块对训练集进行训练,并在采用融合序列自注意网络模型的encoder模块对训练集进行训练时使用adam优化器和交叉熵损失函数,以及将准确率、精确率、召回率和f1得分作为融合序列自注意网络模型的评价指标,得到预测结果。
26、本专利技术还提供了一种用于实现如上述所述的转染后细胞筛选的预测方法的转染后细胞筛选预测装置,包括:
27、原始数据集导入单元,获得细胞筛选的原始数据集;
28、原始数据集预处理单元,对原始数据集进行预处理,获得特征数据;
29、细胞筛选预测单元,将预处理后的特征数据输入至融合预测模型中进行预测,获得预测结果,并导出预测结果文件。
30、本专利技术还提供了一种电子设备,包括相互连接的处理器和存储器;
31、所述存储器用于存储支持所述电子设备执行所述的细胞筛选的预测方法的计算机程序,所述计算机程序包括程序指令;
32、所述处理器被配置用于调用所述程序指令,执行如上述所述的细胞筛选的预测方法。
33、本专利技术还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如上述所述的细胞筛选的预测方法。
34、应用本专利技术的技术方案,至少具有以下有益效果:
35、(1)本专利技术通过采用高质量细胞筛选项目的数据作为原始数据集,并采用synthetic minority over-sampling technique本文档来自技高网
...
【技术保护点】
1.一种转染后细胞筛选的预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的转染后细胞筛选的预测方法,其特征在于,所述原始数据集包括多条数据,每条数据均包括有一个长度为10天的时间序列以及六个关键特征指标;六个关键特征指标分别为活细胞浓度、总细胞浓度、总细胞数量、平均粒径、平均圆度和结团率。
3.根据权利要求2所述的转染后细胞筛选的预测方法,其特征在于,单条数据的采集过程如下:
4.根据权利要求1所述的转染后细胞筛选的预测方法,其特征在于,所述原始数据集中的数据采用CSV文件存储;
5.根据权利要求1-4中任意一项所述的转染后细胞筛选的预测方法,其特征在于,构建融合序列自注意网络模型的过程具体如下:
6.根据权利要求5所述的转染后细胞筛选的预测方法,其特征在于,将所得到的特征数据输入到融合序列自注意网络模型中进行预测的具体过程如下:
7.一种用于实现如权利要求1-6中任意一项所述的转染后细胞筛选的预测方法的转染后细胞筛选预测装置,其特征在于,所述的预测装置包括:
8.一种电子设备,其特征在于,包括相互连接的处理器和存储器;
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6中任意一项所述的细胞筛选的预测方法。
...
【技术特征摘要】
1.一种转染后细胞筛选的预测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的转染后细胞筛选的预测方法,其特征在于,所述原始数据集包括多条数据,每条数据均包括有一个长度为10天的时间序列以及六个关键特征指标;六个关键特征指标分别为活细胞浓度、总细胞浓度、总细胞数量、平均粒径、平均圆度和结团率。
3.根据权利要求2所述的转染后细胞筛选的预测方法,其特征在于,单条数据的采集过程如下:
4.根据权利要求1所述的转染后细胞筛选的预测方法,其特征在于,所述原始数据集中的数据采用csv文件存储;
5.根据权利要求1-4中任意一项所述的转染后细胞筛选的预测方法,其特...
【专利技术属性】
技术研发人员:吴帆,张祖平,刘嘉松,易志恒,
申请(专利权)人:中南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。