一种微生物信息测定及提取系统和方法技术方案

技术编号:36984474 阅读:32 留言:0更新日期:2023-03-25 18:03
本发明专利技术提出了一种微生物信息测定及提取系统和方法,属于微生物信息学技术领域,对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列;对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;用微生物信息聚类的方法对m个微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合;根据正确分类后的多个微生物信息,提取特征微生物信息,从而判断每个类别多代表的微生物类别。从而判断每个类别多代表的微生物类别。从而判断每个类别多代表的微生物类别。

【技术实现步骤摘要】
一种微生物信息测定及提取系统和方法


[0001]本专利技术涉及微生物信息学
,具体涉及一种微生物信息测定及提取系统和方法。

技术介绍

[0002]微生物是地球上种类最多、数量最大、分布最广的微生物群,与人类、动植物和环境有着密切的相互作用,同时也是工业微生物技术的核心及重要的国际竞争战略资源。当前人类面对各种严峻挑战,如重大慢性疾病高发、环境污染日益严重、资源短缺问题日渐凸显等,微生物组技术的革新和应用的将提供新的解决思路。微生物研究将会给人类健康维护、疾病诊治、工农业生产、生态保护环境治理、微生物安全保障和微生物资源等方面带来重大性的变化。
[0003]而对于特定区域微生物信息多样性的调查,传统方法是通过专业人员对采集物种的形态学特征进行数小时的观察来确定的,例如:传统浮游植物的物种鉴定,需要专业人员将采集样品进行固定及凝聚后,再通过显微镜实现镜检。这一过程受限于专业人员的影响,易受主观因素的影响导致检测结果的差异性;此外,一些对生存环境比较敏感的物种也很难通过先采集再镜检的形式被发现,从而影响了调查和评价的准确性。传统的用于微生物的研究是通过对微生物进行培养,再进行生化表型的观察,这样要花费数十天的时间去完成。近年来发展起来的宏基因组学技术可以直接提取样本微生物信息进行全基因组测序,通过对这些微生物信息进行分析和解读,已经可以做到对环境中微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等进行研究。本专利技术整合了微生物学,数学,统计学和计算机信息工程学,使用数学和统计的方法,实现对水中微生物信息进行测定及提取分析。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提出了一种微生物信息测定及提取方法,包括如下步骤:
[0005]S1、在目标区域内设置n个水质采样点,采集每个采样点的表层水样,得到n个水质样品;
[0006]S2、对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;
[0007]S3、对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,获得每一水质样品的优质微生物信息序列;
[0008]S4、对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;
[0009]S5、用微生物信息聚类的方法对m个微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;
[0010]S6、用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,
得到特征微生物信息集合;
[0011]S7、根据正确分类后的多个微生物信息,提取特征微生物信息,从而判断每个类别多代表的微生物类别。
[0012]进一步地,步骤S4中,用g
ij
表示第j个采样点的第i个优质微生物信息,1≤i≤m,1≤j≤n,m表示优质微生物信息的个数,n表示采样点个数,g
ij
表示第j个采样点的第i个优质微生物信息,通过打分函数计算不同n个采样点的第i个优质微生物信息g
i
的分值S(i),作为该优质微生物的微生物信息因子;
[0013]打分函数定义如下:
[0014][0015]其中,μ
i
和σ
i
分别表示不同n个采样点的第i个相同优质微生物信息序列表达值的均值和方差。
[0016]进一步地,步骤S5采用均值聚类方法,包括:
[0017]S51、对m个微生物信息因子进行标准化处理;
[0018]S52、任意取k个微生物信息因子作为初聚类中心;
[0019]S53、将每个初聚类中所有因子均值作为聚类中心,计算m个微生物信息因子中每个因子与该聚类中心的距离,设定距离阈值,重新对距离阈值内的微生物信息因子行划分聚类,并计算每个聚类中的因子均值作为中心;
[0020]S54、从每个聚类中选取具有最高分值S(i)的微生物信息作为该聚类的代表微生物信息。
[0021]进一步地,步骤S6中,
[0022]设有样本集S={(x
i
,y
i
)|i=1,2,

n},其中x
i
∈X为微生物信息样本,y
i
∈Y={+1,

1}为聚类类别,则分类模型Gt(x
i
):x
i

{

1,+1};
[0023]在样本集上每次保留一个样本作为测试样本,其余样本用做分类模型Gt(x
i
)的训练样本,依次更换样本作为测试样本,重复上述过程,直到训练集上所有样本均被用做测试样本为止;
[0024]进一步地,记录所有被错误分类的样本数作为分类错误数,记为E1;
[0025]利用样本集中的所有样本作为分类模型Gt(x
i
)的训练样本,对测试集中的样本逐一进行识别,所有被错误分类的样本数作为分类错误数,记为E2;
[0026]利用该分类模型Gt(x
i
)作为分类器,在上述两个步骤中,若最后得到的分类错误数E1及E2均为0,则表明利用分类器选出的多个微生物信息,可实现对样本集中所有样本的正确分类。
[0027]进一步地,步骤S7中,根据特征微生物信息P=[p1、p2…
p
m
]中各个分量对决策函数0(P)的影响,定义特征微生物信息P的灵敏度函数S(p
j
)为:
[0028][0029]其中,p
j
为特征微生物信息P=[p1、p2…
p
m
]中的一个分量,决策函数使得每个类别的特征微生物信息间隔最大化的边界;
[0030]通过查询灵敏度函数值,判断每个类别代表的微生物类别信息。
[0031]本专利技术还提出了一种微生物信息测定及提取系统,用于实现微生物信息测定及提
取方法,包括:数据采集单元,测序拼接单元,信息筛选单元,序列打分单元,聚类单元,样本类型识别单元,
[0032]所述数据采集单元用于在目标区域内设置n个水质采样点,采集每个采样点的表层水样,得到n个水质样品;
[0033]所述测序拼接单元用于对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;
[0034]所述信息筛选单元用于对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,获得每一水质样品的优质微生物信息序列;
[0035]所述序列打分单元用于对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;
[0036]所述聚类单元用于用微生物信息聚类的方法对多个微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种微生物信息测定及提取方法,其特征在于,包括如下步骤:S1、在目标区域内设置n个水质采样点,采集每个采样点的表层水样,得到n个水质样品;S2、对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;S3、对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,获得每一水质样品的优质微生物信息序列;S4、对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;S5、用微生物信息聚类的方法对微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;S6、用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合;S7、根据正确分类后的多个微生物信息,提取特征微生物信息,从而判断每个类别多代表的微生物类别。2.根据权利要求1所述的信息测定及提取方法,其特征在于,步骤S4中,用g
ij
表示第j个采样点的第i个优质微生物信息,1≤i≤m,1≤j≤n,m表示优质微生物信息的个数,n表示采样点个数,g
ij
表示第j个采样点的第i个优质微生物信息,通过打分函数计算不同n个采样点的第i个优质微生物信息g
i
的分值S(i),作为该优质微生物的微生物信息因子;打分函数定义如下:其中,μ
i
和σ
i
分别表示不同n个采样点的第i个相同优质微生物信息序列表达值的均值和方差。3.根据权利要求2所述的信息测定及提取方法,其特征在于,步骤S5采用均值聚类方法,包括:S51、对微生物信息因子进行标准化处理;S52、任意取k个微生物信息因子作为初聚类中心;S53、将每个初聚类中所有因子均值作为聚类中心,计算微生物信息因子中每个因子与该聚类中心的距离,设定距离阈值,重新对距离阈值内的微生物信息因子行划分聚类,并计算每个聚类中的因子均值作为中心;S54、从每个聚类中选取具有最高分值S(i)的微生物信息作为该聚类的代表微生物信息。4.根据权利要求1所述的信息测定及提取方法,其特征在于,步骤S6中,设有样本集S={(x
i
,y
i
)|i=1,2,

n},其中x
i
∈X为微生物信息样本,y
i
∈Y={+1,

1}为聚类类别,则分类模型Gt(x
i

【专利技术属性】
技术研发人员:刘珍张峰
申请(专利权)人:哈尔滨因极科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1