针对人类内源性逆转录病毒的注释方法技术

技术编号:39520917 阅读:11 留言:0更新日期:2023-11-25 19:00
本发明专利技术公开了一种针对人类内源性逆转录病毒的注释方法,从

【技术实现步骤摘要】
针对人类内源性逆转录病毒的注释方法


[0001]本专利技术属于生物信息学及基因组研究
,尤其涉及一种针对人类内源性逆转录病毒的注释方法


技术介绍

[0002]内源性逆转录病毒
(ERV)
,也称为
LTR
转座元件,属于逆转录转座元件的一种,逆转录转座元件是根据两端是否具有长末端重复序列
(LTR)
分为
LTR
和非
LTR
转座元件
。ERV
占到人类基因组8%,在宿主进化的过程中整合,同时可以作为顺式调控元件在基因组中发挥作用

完整的
ERV
由两端序列完全一致的末端重复

衣壳蛋白
(GAG)

POL
构成,后生动物中还包含包膜蛋白
(ENV)。
其中
POL
包含
AP(
天冬氨酸酶
)、INT(
整合酶
)、RT(
逆转录酶
)

RH(
核糖核酸酶
H)
,是
ERV
能否自主转座的关键蛋白
。ERV
和肿瘤或疾病的发生发展

基因表达

物种进化过程高度相关,插入到关键基因内或周围会导致性状的改变,同时诱导的表观遗传变化经常影响相邻基因的差异表达并产生新的调控模式


ERVr/>的研究有助于理解发育和形态进化的多样性,同时其在肿瘤和自身免疫病等领域也有一定程度的应用

近年来,由于
ERV
可能构成合适的生物标志物和疾病治理靶点,已经成为生物信息学及基因组等相关研究领域的热点

[0003]目前,不同的物种中
ERV
存在多态性差异,
ERV
对宿主基因调控的程度还尚不清楚,整合进宿主基因的
ERV
及元件因高度变异导致完整度被破坏,
ERV
及其元件的鉴定和注释一直是一大难点,不同方法导致鉴定结果差异很大,结果的解读复杂

再者,不同灵长类物种的
ERV
元件鉴定目前并没有完整的数据库可供搜索,导致相关研究的计算复杂繁琐

耗时费力

操作量大

[0004]中国专利“一种用于内源性逆转录病毒的鉴定注释方法”(
专利号
2022100197828
公开日
2022
年3月
25

)
中,其
ERV
鉴定注释方法首先选取的病毒蛋白作为探针,识别相似的病毒蛋白序列后向蛋白两侧延伸侧翼序列,由此利用
LTRharvest
软件,基于隐式马尔科夫模型搜索宿主中的成对
LTR
序列,进而提取
ERV
病毒候选序列,同时注释各病毒蛋白结构域的结构

位置信息等


ERV
的定义中,
ERV
序列是由两侧的
LTR
序列与
LTR
序列之间的蛋白结构域
(
包括
gag、pol、pro、env)
组成,只含一侧
LTR(soloLTR)、
具有至少一侧
LTR
同时含至少一个蛋白编码序列都可称为
ERV。ERV
分类的基础是根据有无
LTR
来区分序列是否为
ERV
,同时根据
LTR
序列的结构的不同来对
ERV
进行亚分类


技术实现思路

[0005]本专利技术要解决的技术问题是提供一种设计合理

方便高效的针对人类内源性逆转录病毒的注释方法

[0006]为解决上述技术问题,本专利技术采用以下技术方案:
[0007]针对人类内源性逆转录病毒的注释方法,从
ERV
的两侧
LTR
序列出发,基于隐式马尔科夫模型利用
LTRharvest
软件首先识别人类全基因组的
LTR
序列,同时搜集
ERV
相关的蛋
白质条目,再利用
LTRdigest
软件注释基因组
ERV。
[0008]上述针对人类内源性逆转录病毒的注释方法,包括以下步骤:
[0009]<1>
获取人类的全基因组数据文件;
[0010]<2>
使用
LTR harvest
软件对步骤
<1>
获取的所有全基因组文件进行从头搜索,鉴定人类全基因组序列中的候选内源性逆转录病毒
(ERV)
的两端
LTR

[0011]<3>
构建人类
ERV
相关蛋白质条目的文库;
[0012]<4>
利用
LTR digest
软件对步骤
<3>
的蛋白质条目进行整理注释,获取
LTR
位点

染色体信息以及序列文件,同时自动注释人类
ERV
内部特征

[0013]步骤
<1>
按以下进行:通过
NCBI
数据库入口,以人类的拉丁名“Homo”作为关键词进行搜索,下载所需的全基因组文件

[0014]步骤
<2>
中按以下参数设定进行:指定候选
LTR
序列和参考序列的相似阈值为
80
%,相似度低于
80
%的序列则不作为候选序列;指定
LTR
候选序列的两端
LTR
长度范围在
1kb

15kb
之间,同时输出的结果序列只选择相似性最高的;精确搜索
LTR
的起始和结尾部位的基序
(motif)
中的4个核苷酸:
tgca
,同时不允许错配的核苷酸出现;输出检测目标重复序列
(TSD)
,设定其最小长度为5,最大长度为
20
,以标准文件形式输出;结果数据根据序列编号对应上染色体,获取序列的起始位置和终止位置,将结果保存为统一的格式

[0015]步骤
&l本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种针对人类内源性逆转录病毒的注释方法,其特征在于:从
ERV
的两侧
LTR
序列出发,基于隐式马尔科夫模型利用
LTRharvest
软件首先识别人类全基因组的
LTR
序列,同时搜集
ERV
相关的蛋白质条目,再利用
LTRdigest
软件注释基因组
ERV。2.
根据权利要求1所述的针对人类内源性逆转录病毒的注释方法,其特征在于包括以下步骤:
<1>
获取人类的全基因组数据文件;
<2>
使用
LTR harvest
软件对步骤
<1>
获取的所有全基因组文件进行从头搜索,鉴定人类全基因组序列中的候选内源性逆转录病毒
ERV
的两端
LTR

<3>
构建人类
ERV
相关蛋白质条目的文库;
<4>
利用
LTR digest
软件对步骤
<3>
的蛋白质条目进行整理注释,获取
LTR
位点

染色体信息以及序列文件,同时自动注释人类
ERV
内部特征
。3.
根据权利要求2所述的针对人类内源性逆转录病毒的注释方法,其特征在于步骤
<1>
按以下进行:通过
NCBI
数据库入口,以人类的拉丁名“Homo”作为关键词进行搜索,下载所需的全基因组文件
。4.
根据权利要求2所述的针对人类内源性逆转录病毒的注释方法,其特征在于步骤
<2>
中按以下参数设定进行:指定候选
LTR
序列和参考序列的相似阈值为
80
%;指定
LTR
候选序列的两端
LTR
长度范围在
...

【专利技术属性】
技术研发人员:韦彗琳胡艳玲李兰香张蝶蒋春兰梁柏莹张玉銮
申请(专利权)人:广西医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1