一种苦参识别平台和利用该平台的苦参识别方法技术

技术编号:24350133 阅读:36 留言:0更新日期:2020-06-03 01:26
本申请公开了一种苦参识别平台,以及应用该平台来识别苦参的方法。该平台包括已知样本信息数据库模块、未知样本信息数据库模块、已知样本色谱‑质谱图像模块、未知样本色谱‑质谱图像模块、未知样本识别模块。通过将生成的未知样本的色谱‑质谱数据图像与已知样本的色谱‑质谱数据图像进行比对,来确定未知样本的色谱‑质谱数据是否与已知样本的色谱‑质谱数据匹配,从而识别未知样本。本发明专利技术运用中药色谱‑质谱高维图像技术,能够对苦参样本中大量化合物间的空间信息实现全面表征,并利用上述空间信息实现未知样本的匹配与识别,具有快速、高通量、高精度和高可靠性等优势。

A platform for identification of Sophora flavescens and a method for identification of Sophora flavescens using the platform

【技术实现步骤摘要】
一种苦参识别平台和利用该平台的苦参识别方法
本申请涉及中药检测
,具体涉及一种苦参识别平台和苦参识别方法。
技术介绍
复杂样本的化合物构成具有极端复杂性。中药即是典型的复杂样本,所含成分极其复杂,结构多样、种类繁多,常见类型包括酚类、生物碱类、皂苷类、萜类、黄酮类、内酯类、蒽酮类、有机酸类以及鞣质类等,单一中药即包含数百上千计的次生代谢产物和小分子成分,由多种中药组合的中药复方制剂的成分则更多。相应地,复杂样本中蕴含海量信息。如中药化合物之间的相互关系、不同中药的药性药效差异、同属药材化学成分异同及产地、年份、生长环境对药材质量的影响等科学问题都蕴藏其中。目前对于复杂样本的研究面临两个重要瓶颈:一方面,研究大多采用碎片化、点状的低维数据,如色谱保留时间,m/z值,子离子碎片信息等,这些低维数据忽视也无法体现上述大量化学成分间的关联。高维数据恰是海量信息的有力载体。与低维数据相比,高维数据能够有效地表示样本中各数据点的空间信息从而反映它们的空间关系。因此,获取复杂样本化合物的高维数据才能真正实现从复杂样本中得到、处理、挖掘那些高价值信息。另一方面,实验产生的数据资源庞大却零散,相关研究产生的数据不能整合利用,导致科研工作中人力、物力、时间等投入的成本高,产出却不显著。数据库技术是一种计算机辅助管理、整合数据的方法。将高维数据与数据库技术结合建立高维数据数据库正是解决上述难题的方向。高维数据的获取需要联用仪器来实现。色谱-质谱联用技术将应用范围极广的分离方法-色谱法与灵敏、专属、能提供分子量和结构信息的质谱法结合起来,显然是复杂样本高维数据获取的理想手段。目前,已有一些基于色谱-质谱联用技术的数据库,大致可以分为两类:1.标准化合物质谱数据库:如美国国家科学技术研究院(NIST)出版的NIST标准化合物质谱数据库,收录了几万张标准质谱图,在以GC-MS平台的代谢组学研究中发挥巨大作用;又如人类代谢组数据库(HumanMetabolomeDatabase,HMDB)是目前最完整且最全面的人类代谢物和人类代谢数据库。这类数据库在许多研究领域得到了广泛的应用。然而该类型数据库能够提供的化合物数目是有限的,并且没有提供化合物的色谱保留信息。张加余等(药学学报,2012,47(9):1187-1192)利用高效液相-电喷雾离子阱串联质谱(HPLC-ESIIT-MS/MS),以商业化工作站谱库编辑程序为平台建立了含有636个天然化合物(包括黄酮、香豆素、木质素、萜及其苷类、甾体及其苷类、有机酸、生物碱、蒽醌、氨基酸等常见类型的天然产物)的液相色谱-质谱-数据库(LC-MS-DS),用于天然产物未知组分的鉴定和靶向分离。该数据库属于标准化合物质谱数据库,且可通过匹配未知组分和对照品的保留时间、紫外吸收光谱或者比较未知组分和对照品的多级质谱图中主要离子碎片是否相同来评价谱库检索的可信度,从而提高结果的可信度。该数据库仅能用作化合物的鉴定,无法用于包括天然产物在内的生物样本的鉴定。2.化合物信息库:WATERS公司推出的UNIFI中药数据库包含了2010版中国药典中所列所有草药以及与这些草药相关的几千种化合物信息(文献已报道的主要化合物)。该数据库需以超高效液相色谱(UPLC)和四极杆飞行时间质谱(QTOFMS)为基础获得待测中药的色谱-质谱数据,根据精确分子量推测分子式并与数据库中的化合物结构匹配,将软件计算的理论碎片与采集的二级离子进行匹配进行确证。该数据库的优势在于整合了2010版中国药典中所有草药及主要化合物,化合物规模达几千种。相对于标准物质来源有限的标准化合物质谱数据库,该数据库的化合物数目规模增加的可行性是显而易见的。但该数据库实际上并没有每个化合物的真实色谱-质谱数据,化合物的鉴定仅利用高分辨质谱获得精确分子量推测分子式,通过结合理论计算二级碎片匹配提高可信度。尽管高分辨质谱能够提供化合物的精确分子量来推测可能的分子式,但同一分子式对应的可能候选物数量很多,尽管该数据库化合物总数达几千个,但每种中药平均化合物仅几十个,且多为高含量常见化合物。中药化学成分具有典型的复杂多样性,每种中药可能存在成百上千种成分,该数据库中的化合物可能仅包含待测中药中很小一部分化学成分,对于中低含量成分的鉴定能力十分有限。并且理论计算二级碎片技术目前尚未成熟,准确性不高,匹配结果可能存在偏差,造成假阳性或者假阴性。该数据库同样存在兼容性的问题,仅适用于WATERS工作站系统。范骁辉等专利技术了一种适用于天然产物质谱数据解析的数据库构建方法(申请号201510443268.7)。该方法从PubChem、CA或Reaxys化合物数据库上下载相关的所有化合物,基于裂解规律对化合物进行计算机模拟裂解,获得该化合物的裂解碎片,记录化合物和碎片的相关信息,然后建立数据库。该方法较UNIFI中药数据库包含的化合物数量丰富,裂解规律基于已有文献报道的裂解规律结合计算机模拟裂解完成化合物鉴定,相对地增加了结果的可靠性。但与UNIFI中药数据库相同,该数据库数据仅基于化合物结构信息数据,没有化合物实际谱图;另外,不同仪器、不同参数对化合物的碎裂行为影响很大,该数据库对不同来源(仪器、实验条件等)的适应性不明确。上述色谱-质谱联用数据库均以化合物为主体,关注于数据中单一维度的特征,部分数据库存在多维度数据,但没有将多维度的数据转化成高维数据整合使用。本专利技术建立的中药色谱-质谱高维图像数据库以中药整体为主体,既包括中药整体信息,也包括中药化合物的单点信息。本专利技术中药色谱-质谱高维图像数据库可用于中药的识别、分类、质量控制、数据的深度挖掘等多方面的研究使用。需要特别指出的是,本专利技术中药识别方法可适用于样本分析条件相近或相似获得的数据,使得该方法的适用性大大提高。
技术实现思路
为解决现有技术中存在的问题,本专利技术的一个方面提供了一种苦参识别平台,该平台包括以下模块:已知样本信息数据库模块、未知样本信息数据库模块、已知样本色谱-质谱图像模块、未知样本色谱-质谱图像模块和未知样本识别模块;所述已知样本信息数据库模块向所述已知样本色谱-质谱图像模块传输已知样本的色谱-质谱数据,所述已知样本色谱-质谱图像模块输出第一数据图像;所述未知样本信息数据库模块向所述未知样本色谱-质谱图像模块传输未知样本的色谱-质谱数据,所述未知样本色谱-质谱图像模块输出第二数据图像;所述未知样本识别模块,用于记录所述已知样本的样本信息以及所述生成的第一数据图像,并将所述生成的第二数据图像与所述第一数据图像进行比对,以确定所述未知样本的色谱-质谱数据是否与已知样本的色谱-质谱数据匹配。在优选的实施方式中,已知样本的色谱-质谱数据包括已知样本的原始色谱-质谱信息,未知样本的色谱-质谱数据包括未知样本的原始色谱-质谱信息。在优选的实施方式中,已知样本的色谱-质谱数据还包括已知样本中各个化合物的高维数据,未知样本的色谱-质谱数据还包括未知样本中各个化合物的高维数据。高维数据表达样本中各数据点间的空间信息,是以下至少一种信本文档来自技高网
...

【技术保护点】
1.一种苦参识别平台,其特征在于,所述平台包括:/n已知样本信息数据库模块、未知样本信息数据库模块、已知样本色谱-质谱图像模块、未知样本色谱-质谱图像模块和未知样本识别模块;/n所述已知样本信息数据库模块向所述已知样本色谱-质谱图像模块传输已知样本的色谱-质谱数据,所述已知样本色谱-质谱图像模块输出第一数据图像;/n所述未知样本信息数据库模块向所述未知样本色谱-质谱图像模块传输未知样本的色谱-质谱数据,所述未知样本色谱-质谱图像模块输出第二数据图像;/n所述未知样本识别模块,用于记录所述已知样本的样本信息以及所述生成的第一数据图像,并将所述生成的第二数据图像与所述第一数据图像进行比对,以确定所述未知样本的色谱-质谱数据是否与已知样本的色谱-质谱数据匹配。/n

【技术特征摘要】
1.一种苦参识别平台,其特征在于,所述平台包括:
已知样本信息数据库模块、未知样本信息数据库模块、已知样本色谱-质谱图像模块、未知样本色谱-质谱图像模块和未知样本识别模块;
所述已知样本信息数据库模块向所述已知样本色谱-质谱图像模块传输已知样本的色谱-质谱数据,所述已知样本色谱-质谱图像模块输出第一数据图像;
所述未知样本信息数据库模块向所述未知样本色谱-质谱图像模块传输未知样本的色谱-质谱数据,所述未知样本色谱-质谱图像模块输出第二数据图像;
所述未知样本识别模块,用于记录所述已知样本的样本信息以及所述生成的第一数据图像,并将所述生成的第二数据图像与所述第一数据图像进行比对,以确定所述未知样本的色谱-质谱数据是否与已知样本的色谱-质谱数据匹配。


2.根据权利要求1所述的苦参识别平台,其特征在于,所述已知样本的色谱-质谱数据包括已知样本的原始色谱-质谱信息,所述未知样本的色谱-质谱数据包括未知样本的原始色谱-质谱信息;
优选地,所述已知样本的色谱-质谱数据还包括已知样本中各个化合物的高维数据,所述未知样本的色谱-质谱数据还包括未知样本中各个化合物的高维数据;
进一步优选地,所述高维数据表达样本中各数据点间的空间信息,是以下至少一种信息构成的矩阵:
数据点间的距离信息;
数据点间的角度关系信息;
数据点的坐标位置信息;
数据点的密度信息;
数据点集合的边缘范围信息;
数据点的强度信息;
优选地,所述数据点间的距离信息包括色谱保留时间t、m/z值、m值、z值、峰强度I中的至少一种;
优选地,所述数据点的强度信息包括由数据点的大小或亮度的强弱反映出来的信息中的至少一种。


3.根据权利要求2所述的苦参识别平台,其特征在于,所述高维数据生成的高维数据图像包括高维数据生成的原始图像、基于图像特征生成的图像、对图像进行转化处理生成的图像、利用函数构建的图像中的至少一种;
优选地,所述图像特征包括数据点点簇、共同粒子、样本轮廓;
优选地,所述图像转化处理包括将图像模糊化处理和对图像进行不同分辨率的处理中的至少一种;
优选地,所述函数包括色谱保留时间t、m/z、m、峰强度I中的至少一种;
优选地,所述高维图像是二维以上维数的图像;
优选地,所述图像文件存储为图像文件格式。


4.根据权利要求1所述的苦参识别平台,其特征在于,所述已知样本包括标准品或已知中药样本中的至少一种;
优选地,所述标准品包括《2015版中国药典》所述中药的对照品、中药标志性成分、中药主要化学成分中的至少一种;
优选地,所述已知中药样本为类别信息明确的样本,所述类别信息包括样本的种属、产地、部位、炮制方式中的至少一种;
优选地,所述已知中药样本包括中药原药材、饮片、粉末中的至少一种,进一步优选地,所述已知中药样本包括中药的不同部位和它们的加工品中的至少一种。


5.根据权利要求1所述的苦参识别平台,其特征在于,所述未知样本识别模块包括图像分割工具或者聚类工具。


6.根据权利要求1所述的苦参识别平台,其特征在于,所述各数据库模块中的数据库类型包括文件夹数据集、网页数据库、基于商业化工作站或...

【专利技术属性】
技术研发人员:张晓哲赵楠程孟春
申请(专利权)人:中国科学院大连化学物理研究所
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1