一种基于自然语言处理的GWAS基因编码方式制造技术

技术编号：38342133 阅读：13 留言：0更新日期：2023-08-02 09:22

本发明专利技术涉及一种基于自然语言处理的GWAS基因编码方法，对基因组最原始的.bed、.bid或.fam文件进行raw命令处理以得到最原始的SNP序列，即AAGCTAAGGTCCCAA；然后，将SNP序列通过Python中的scikit

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言处理的GWAS基因编码方式

[0001]本专利技术涉及一种基于自然语言处理的GWAS基因编码方式。

技术介绍

[0002]全基因组关联分析，英文是Genome
‑
WideAssociation Study，简称GWAS。实质是在探究一种因果关系，也就是说X的变化，是否会引起Y的变化。在GWAS里，X一般指的是SNP，即单核苷酸多态性，而Y是观察到的表型。SNP，一般通过芯片或测序方式得到。换而言之，GWAS是确定300万个SNP位点中那些部分对某些人类表型，如身高、是否双眼皮、头发颜色、瞳孔颜色的有影响，并从数据角度分析这些SNP如何影响人类表型，SNP序列原始数据一般是ACGT四种不同的碱基组成的位点序列，比如“ACGGGTTAACCAATT”。
[0003]在现有的技术解决方案中，一般针对该基因序列进行简单编码或独热(one
‑
hot)编码，将其编码为0123或00 01 10 11格式。但是这种技术方案存在一个先验假设，否定了基因序列的时序性，而事实上，相邻区域的SNP位点很有可能会互相影响，例如，基因区域CASC17通过转录因子与相邻的SOX9相互作用，共同影响人类面部的骨骼形成。

技术实现思路

[0004]本专利技术的目的是克服现有的全基因组关联分析存在的否定了基因序列的时序性，且相邻区域的SNP位点很有可能会互相影响的缺陷。
[0005]为达上述目的，本专利技术提供了一种基于自然语言处理的GWAS基因编码方法，其特殊之处在...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言处理的GWAS基因编码方法，其特征在于：1)、对基因组最原始的.bed、.bid或.fam文件使用plink V1.9软件的raw命令进行处理以得到最原始的SNP序列，即AAGCTAAGGTCCCAA；2)、然后，将所述SNP序列通过Python中的scikit
‑
learn库的自然语言处理工具编码为若干个词汇，该词汇同时包含了时序性的特征和SNP序列数据本质的特征；3)、之后，使用scikit
‑
...

【专利技术属性】
技术研发人员：江梓赫，范虹，范晓诺，
申请(专利权)人：陕西师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人