一种基于标准化表型术语的疾病和基因预测方法技术

技术编号:36097324 阅读:9 留言:0更新日期:2022-12-24 11:16
本发明专利技术公开了一种基于标准化表型术语的疾病和基因预测方法,该方法包括以下步骤:S1、将原始疾病表型通过输入层进行分层级输入;S2、将输入后的原始疾病表型通过数据层转换为标准疾病表型;S3、将标准疾病表型通过分析层进行逐级搜索,并进行评分预测;S4、将预测结果通过输出层输出。本发明专利技术通过对表型输入的自然语言处理,逐级搜索不同层级表型进行打分来预测疾病和基因,且逐级以上一个标准疾病表型打分最高的疾病作为搜索域,逐级减少下一级的搜索范围,使得本发明专利技术大大减少了计算量的时间,极大的提高了本发明专利技术的使用效率,以及避免了非主要表型对于疾病预测的主导作用。主要表型对于疾病预测的主导作用。主要表型对于疾病预测的主导作用。

【技术实现步骤摘要】
一种基于标准化表型术语的疾病和基因预测方法


[0001]本专利技术涉及自然语言分析和遗传疾病分析领域,具体来说,涉及一种基于标准化表型术语的疾病和基因预测方法。

技术介绍

[0002]随着移动互联网的应用和普及,越来越多的用户开始借助移动终端,线上地开展业务,而远程医疗系统诊断疾病也在蓬勃的发展,病人用户通常需要利用用户终端,将自身的医疗数据上传到疾病预测服务器,疾病预测服务器根据用户终端上传的医疗数据,做出相应的疾病预测,同时随着大规模生物样本数据库、强大基因组学和医疗技术的发展,人们逐渐意识到大多数疾病的发生是自身遗传密码和外界环境共同作用的结果,因此,依据个体的基因、健康差异来制定个性化治疗和预防方案的新型治疗方法,引领了新的医学时代。
[0003]而基因表达是将来自基因的遗传信息合成功能性基因产物的过程,该过程受到多个维度的精确调控和复杂相互作用的影响,例如基因突变、转录因子、非编码RNA和甲基化等,这种多层次的监管网络使多组学整合成为表征表型复杂生物学机制的重要方法,现有遗传性疾病的研究通常根据生物信息分析后得到的基因突变去查询相关的突变是否与描述的表型有关,进而结合突变信息与表型信息对疾病进行判断,而现有方法需要通过较长时间的生物信息分析过程后才能进行下一步分析,且根据筛选得到的突变信息进行分析,并对比是否与表型相关,从而需要查阅大量的文献资料,因此,导致根据表型得出疾病的过程耗时长,并且消耗更多的人力资源。
[0004]目前,现有的人类表型数据库(HPO)中记录了每种表型的标准术语和描述,并且含有每种表型对应的疾病和基因关系,因此,可以作为根据表型判断疾病和基因的标准。但是每个人对于表型的描述不一,无法与人类表型数据库中的标准术语相对应,所以从人类表型数据库中寻找疾病需要一个表型术语的相似性分析,并且疾病所包含的表型有多种,通过表型逐一查询需要更多的时间,且无法通过逐级搜索不同层级表型进行评分来预测疾病和基因,使得现有技术对预测疾病和基因使用时较为繁琐,大大影响了预测疾病和基因的效率。
[0005]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]针对相关技术中的问题,本专利技术提出一种基于标准化表型术语的疾病和基因预测方法,以克服现有相关技术所存在的上述技术问题。
[0007]为此,本专利技术采用的具体技术方案如下:一种基于标准化表型术语的疾病和基因预测方法,该方法包括以下步骤:S1、将原始疾病表型通过输入层进行分层级输入;S2、将输入后的原始疾病表型通过数据层转换为标准疾病表型;S3、将标准疾病表型通过分析层进行逐级搜索,并进行评分预测;
S4、将预测结果通过输出层输出。
[0008]进一步的,将原始疾病表型通过输入层进行分层级输入:S11、将原始疾病层级依次分为原始主要表型、原始次要表型及原始其他表型;S12、将原始主要表型、原始次要表型及原始其他表型赋予权重。
[0009]进一步的,原始主要表型、原始次要表型及原始其他表型权重比分别为7:3:1。
[0010]进一步的,将输入后的原始疾病表型通过数据层转换为标准疾病表型包括以下步骤:S21、将输入的原始疾病表型通过自然语言处理;S22、将处理后的原始疾病表型转化为人类表型数据库中的标准疾病表型。
[0011]进一步的,将输入的原始疾病表型通过自然语言处理包括以下步骤:S211、通过语义检索任务,将人类表型数据库中的标准疾病表型作为被检索对象对输入的原始疾病表型进行检索;S212、基于CosENT模型对STS

B数据集进行训练,训练完成后得到用于语义检索的模型;其中,中文的STS

B数据集主要用来做中文文本匹配的,该数据集是打分类型的数据集,是从新闻标题、视频标题、图像标题以及自然语言推断数据中提取的句子对的集合,人工进行相似性打分。
[0012]S213、设定相似性分数的阈值;S214、对训练结果进行选择;其中,所述标准疾病表型包括标准主要表型、标准次要表型及标准其他表型。
[0013]语义检索任务首先需要训练用于语句相似性分析的模型,该模型的训练基于CosENT模型进行训练,CosENT模型采用了一种排序的损失函数使模型拟合地更好,训练的数据集采用的是STS

B的中文公开数据集,语义分析过程中,设定相似性分数的阈值为0.8,同时取分数最高者作为结果;对于低于阈值的结果进行舍弃,最终通过语义相似性的分析,将原始表型数据映射到人类表型数据库中的标准术语作为分析层分析的输入。
[0014]进一步的,将标准疾病表型通过分析层进行逐级搜索,并进行评分预测包括以下步骤:S31、将标准疾病表型依次按照主要表型、次要表型及其他表型进行搜索;S32、对搜索后的表型根据权重计算评分;S33、将评分结果进行分析预测。
[0015]进一步的,将标准疾病表型依次按照主要表型、次要表型及其他表型进行搜索包括以下步骤:S311、将标准疾病表型从主要表型开始在疾病表型整合数据库进行搜索;S312、将主要表型搜索完成后的结果通过次要表型在疾病表型整合数据库进行二次搜索;S313、将次要表型搜索完成后的结果通过次要表型在疾病表型整合数据库进行三次搜索。
[0016]进一步的,将标准疾病表型从主要表型开始在疾病表型整合数据库进行搜索包括以下步骤:
对人类表型数据库中所含有的表型、疾病和基因进行关联,关联的规则基于一种表型对应一种疾病的唯一关系去寻找相对应的所有基因,建立三者的关联关系,将其整合为一个数据库用作逐级搜索评分的参考库。
[0017]进一步的,对搜索后的表型根据权重计算评分包括以下步骤:将搜索结果通过权重进行评分计算,得到搜索的总分并筛选得分最高者作为本次分析的评分结果;分析方法为,对人类表型数据库中所含有的表型、疾病和基因进行关联,关联的规则基于一种表型对应一种疾病的唯一关系去寻找相对应的所有基因,因为一种表型可能与多种疾病相关,所以以一种表型与一种疾病两个因素作为键,建立三者的关联关系以后,将其整合为一个数据库用作逐级搜索评分的参考库;第二,从主要表型开始搜索,并列的多个主要表型得分数相同,如果搜索到相应的主要表型则计算相应得分并进入次要表型的搜索,且次要表型的搜索范围以上一环节的主要表型评分最高的疾病作为搜索域,通过该种方法可以缩小下一级的搜索范围,减少计算量,同时体现了主要表型在疾病判断中的主导作用,如果一开始没有搜索到主要表型则直接进入次要表型的分析,次要表型到其他表型的分析以此类推。经过逐级搜索直到搜索完毕,最终统计各层搜索的总分并筛选得分最高者作为本次分析的结果。
[0018]进一步的,将预测结果通过输出层输出包括以下步骤:将输入的原始疾病表型所得到的预测疾病、预测基因及预测疾病的所有表型的结果输出。
[0019]本专利技术的有益效果为:1、本专利技术通过对表型输入的自然语言处理,逐级搜索不同层级表型进行打分来预测疾病和基因,且逐级以上一个标准疾病表型打分最高的疾病本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于标准化表型术语的疾病和基因预测方法,其特征在于,该方法包括以下步骤:S1、将原始疾病表型通过输入层进行分层级输入;S2、将输入后的原始疾病表型通过数据层转换为标准疾病表型;S3、将标准疾病表型通过分析层进行逐级搜索,并进行评分预测;S4、将预测结果通过输出层输出。2.根据权利要求1所述的一种基于标准化表型术语的疾病和基因预测方法,其特征在于,所述将原始疾病表型通过输入层进行分层级输入包括以下步骤:S11、将原始疾病层级依次分为原始主要表型、原始次要表型及原始其他表型;S12、将原始主要表型、原始次要表型及原始其他表型赋予权重。3.根据权利要求2所述的一种基于标准化表型术语的疾病和基因预测方法,其特征在于,所述原始主要表型、原始次要表型及原始其他表型权重比分别为7:3:1。4.根据权利要求1所述的一种基于标准化表型术语的疾病和基因预测方法,其特征在于,所述将输入后的原始疾病表型通过数据层转换为标准疾病表型包括以下步骤:S21、将输入的原始疾病表型通过自然语言处理;S22、将处理后的原始疾病表型转化为人类表型数据库中的标准疾病表型。5.根据权利要求4所述的一种基于标准化表型术语的疾病和基因预测方法,其特征在于,所述将输入的原始疾病表型通过自然语言处理包括以下步骤:S211、通过语义检索任务,将人类表型数据库中的标准疾病表型作为被检索对象对输入的原始疾病表型进行检索;S212、基于CosENT模型对STS

B数据集进行训练,训练完成后得到用于语义检索的模型;S213、设定相似性分数的阈值;S214、对训练结果进行选择;其中,所述标准疾病表型包括标准主要表型、标准次要表型及标准其他表型。6.根据权...

【专利技术属性】
技术研发人员:林娜王滔孙红波何涛
申请(专利权)人:南京腾鸿医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1