【技术实现步骤摘要】
一种微生物信息测定及提取系统和方法
[0001]本专利技术涉及微生物信息学
,具体涉及一种微生物信息测定及提取系统和方法。
技术介绍
:
[0002]微生物是地球上种类最多、数量最大、分布最广的微生物群,与人类、动植物和环境有着密切的相互作用,同时也是工业微生物技术的核心及重要的国际竞争战略资源。当前人类面对各种严峻挑战,如重大慢性疾病高发、环境污染日益严重、资源短缺问题日渐凸显等,微生物组技术的革新和应用的将提供新的解决思路。微生物研究将会给人类健康维护、疾病诊治、工农业生产、生态保护环境治理、微生物安全保障和微生物资源等方面带来重大性的变化。
[0003]而对于特定区域微生物信息多样性的调查,传统方法是通过专业人员对采集物种的形态学特征进行数小时的观察来确定的,例如:传统浮游植物的物种鉴定,需要专业人员将采集样品进行固定及凝聚后,再通过显微镜实现镜检。这一过程受限于专业人员的影响,易受主观因素的影响导致检测结果的差异性;此外,一些对生存环境比较敏感的物种也很难通过先采集再镜检的形式被发现,从而影响了调查和评价的准确性。传统的用于微生物的研究是通过对微生物进行培养,再进行生化表型的观察,这样要花费数十天的时间去完成。近年来发展起来的宏基因组学技术可以直接提取样本微生物信息进行全基因组测序,通过对这些微生物信息进行分析和解读,已经可以做到对环境中微生物的群落结构、物种分类、系统进化、基因功能及代谢网络等进行研究。本专利技术整合了微生物学,数学,统计学和计算机信息工程学,使用数学和统计的方法,实现对水中微生 ...
【技术保护点】
【技术特征摘要】
1.一种微生物信息测定及提取方法,其特征在于,包括如下步骤:S1、在目标区域内设置n个水质采样点,采集每个采样点的表层水样,得到n个水质样品;S2、对各个采样点的水质样品中的微生物信息进行基因测序和序列拼接,获取每一水质样品的微生物信息序列拼接结果;S3、对微生物信息序列拼接结果进行筛选,获得有效微生物信息序列,去除混杂体序列,获得每一水质样品的优质微生物信息序列;S4、对不同采样点的相同优质微生物信息序列打分,得到优质微生物信息序列的微生物信息因子;S5、用微生物信息聚类的方法对微生物信息因子进行聚类,并选出每类微生物信息因子中贡献率最大的微生物信息作为代表微生物信息;S6、用分类模型测试微生物信息的错分率并实现对所有微生物信息的正确分类,得到特征微生物信息集合;S7、根据正确分类后的多个微生物信息,提取特征微生物信息,从而判断每个类别多代表的微生物类别。2.根据权利要求1所述的信息测定及提取方法,其特征在于,步骤S4中,用g
ij
表示第j个采样点的第i个优质微生物信息,1≤i≤m,1≤j≤n,m表示优质微生物信息的个数,n表示采样点个数,g
ij
表示第j个采样点的第i个优质微生物信息,通过打分函数计算不同n个采样点的第i个优质微生物信息g
i
的分值S(i),作为该优质微生物的微生物信息因子;打分函数定义如下:其中,μ
i
和σ
i
分别表示不同n个采样点的第i个相同优质微生物信息序列表达值的均值和方差。3.根据权利要求2所述的信息测定及提取方法,其特征在于,步骤S5采用均值聚类方法,包括:S51、对微生物信息因子进行标准化处理;S52、任意取k个微生物信息因子作为初聚类中心;S53、将每个初聚类中所有因子均值作为聚类中心,计算微生物信息因子中每个因子与该聚类中心的距离,设定距离阈值,重新对距离阈值内的微生物信息因子行划分聚类,并计算每个聚类中的因子均值作为中心;S54、从每个聚类中选取具有最高分值S(i)的微生物信息作为该聚类的代表微生物信息。4.根据权利要求1所述的信息测定及提取方法,其特征在于,步骤S6中,设有样本集S={(x
i
,y
i
)|i=1,2,
…
n},其中x
i
∈X为微生物信息样本,y
i
∈Y={+1,
‑
1}为聚类类别,则分类模型Gt(x
i
【专利技术属性】
技术研发人员:刘珍,张峰,
申请(专利权)人:哈尔滨因极科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。