本发明专利技术公开了一种DNA编码化合物库筛选数据可视化在线分析的软件系统,其特征在于,包括分析逻辑设定模块、筛选数据分析模块和DEL全长分子和部分结构展示模块,分析逻辑设定模块本发明专利技术通过提供一种DNA编码化合物库筛选数据可视化在线分析的软件系统,将实验数据导入后,用户能够结合实验信息以及实际需求使用分析逻辑设定模块设定逻辑,在筛选数据分析模块对实验数据进行筛选和分析,筛选结果以分子结构的形式于DEL全长分子和部分结构展示模块直观示出,同时,还允许用户根据实际需求标注,实现了用户自主的和定制化的对DEL数据的分析;本发明专利技术还包括类药性质预测模块和结构相似性计算模块,以协助用户进行初步的类药性和相似性分析。性分析。性分析。
【技术实现步骤摘要】
一种DNA编码化合物库筛选数据可视化在线分析的软件系统
[0001]本专利技术涉及数据分析领域,特别涉及一种DNA编码化合物库筛选数据可视化在线分析的软件系统。
技术介绍
[0002]DNA编码化合物库(DNA
‑
encoded chemical library,DEL)技术,是一种基于亲和力的高通量小分子药物筛选技术平台,其通过快速筛选多达数百亿个小分子化合物,发现与生物靶标结合的小分子化合物,助力苗头化合物的发现、验证与优化。与传统的高通量筛选(HTS)相比,DEL具有更高的通量和更短的筛选周期等优势。在构建DNA化合物库过程中,沿用了组合化学的原理。基于“Split&Pool”(拆分和合并)的方法,通过多轮反应周期,让化学空间达到几何增长,构建百亿至万亿级结构多样的分子集合。常规的DEL筛选和数据分析流程示意图如图1所示。
[0003]利用DEL进行筛选时,将DEL与靶标蛋白一起孵育,再根据分子对靶标蛋白亲和力的强弱差异,洗脱去除亲和力弱的化合物,检测保留在靶标上的化合物。由于化合物与DNA编码信息对应关系,通过高通量测序技术,解码信号DNA标签,即可获得相应化合物信息。再通过数据分析,找到强度高且噪音水平低的信号,进行实验验证。重新合成不带DNA标签的小分子,并进行后续的活性验证,从而得到苗头化合物,如图1所示。
[0004]常规的DEL数据分析包括根据分析逻辑进行数据过滤,减少假阳性数据;利用折线图、饼图等,找到频繁出现的结构片段;利用3D散点图寻找高置信的“点、线、面”特征,进行SAR构效关系分析等。同时结合化学信息相关的分析,包括结构相似度、理化性质等,挑选具有“类药”和“新颖”的苗头化合物。葛兰素史克公司首次在文献中DEL数据的分析方法,通过3D散点图进行“点、线、面”特征的分析,进而家族内的探索结构活性关系(参考文献:Clark M A,Acharya R A,Arico
‑
Muendel C C,et al.Design,synthesis and selection of DNA
‑
encoded small
‑
molecule libraries[J].Nature chemical biology,2009,5(9):647
‑
654)。其后,数据分析方法被各个研究人员丰富,比如阿斯利康制药公司(参考文献:Goodnow,R.A.;Dumelin,C.E.;Keefe,A.D.DNA
‑
Encoded Chemistry:Enabling the Deeper Sampling of Chemical Space.Nat Rev Drug Discov.2017Feb;16(2):131
‑
147.)等在综述中总结了一些DEL筛选平台用到的数据分析和可视化使用的方法,3D柱状图,3D散点图等来探索筛选分子与筛选结果(如富集度,拷贝数)的关系。
[0005]常规的亲和筛选实验从亿级至百亿级别的分子集合中,得到百万级别的信号。如何充分的利用这些信号带来的信息,则成为DEL技术的痛点。越来越多的科学家将自动化的流程和智能分析的方法(包括化学信息方法,机器学习方法等)带入到数据分析中:将海量信号的实验结果和化学信息结合到一起,进行初步过滤,将信号缩小至几千以内,再交由药物化学家完成更精细的分析。这种分析架构充分利用了DEL的“高通量”优势,让“大数据”的利用成为可能。通过对筛选数据合理规划并加以利用,充分发掘潜在的信息,辅助内部技术开发,让分析方法更加“智能化”。
[0006]在数据分析流程中,分析数据量以万为单位,需要专业的BI工具(商业智能分析工具)协助分析。目前应用于DEL场景的BI工具主要是Spotfire。相较于其他分析工具,它常被应用于科研场景,支持针对较大数据量的强交互图表;但需要付高额费用,缺乏医药领域的计算插件,只提供基础的化学信息方面的分析,无法满足对类药性、相似性、结构
‑
富集关系分析等,因此,不满足日常分析需要。当加载的数据量较大的时候,作图交互会出现明显的卡顿,降低分析效率。因此少数公司借助Spotfire,进一步开发、搭建自动化分析平台;即在加载数据的同时,把重要的图表一键生成。如礼来公司(参考文献:J,Rom
á
n JP,Jessop T C,et al.Design and development of a technology platform for DNA
‑
encoded library production and affinity selection[J].SLAS DISCOVERY:Advancing the Science of Drug Discovery,2018,23(5):387
‑
396)报道了一个基于DEL的内部自动化平台,囊括了DEL的设计、生产、数据分析等模块。其中数据分析模块提供了生成点“线、面”特征的方法,以及自动化生成3D散点图进行可视化分析。但该模块是基于spotfire进行搭建,且信息学组件并没有嵌入到分析流程中。
技术实现思路
[0007]本专利技术要解决的技术问题是提供一种高效的DEL筛选数据可视化分析工具,方便DEL筛选实验人员能够进行自主的和定制化的DEL数据分析工作,便利DEL筛选实验人员自主进行DEL筛选数据的分析和苗头化合物的寻找。
[0008]为解决上述技术问题,本专利技术提供的DNA编码化合物库筛选数据可视化在线分析的软件系统,包括:
[0009]分析逻辑设定模块,其用于定义数据分析逻辑;
[0010]筛选数据分析模块,其基于所述数据分析逻辑对实验数据进行统计和分析,其分析过程和筛选结果基于DNA标签信息;
[0011]DEL全长分子和部分结构展示模块,其将所述筛选数据分析模块的筛选结果以DEL分子化学结构形式呈现,以用于探索DEL分子化学结构与筛选结果的关系。其中,全长分子是指在库生产中经过完整的化学反应路径得到的真实化学结构,每个循环的构建块(Building blocks)是真实存在的;其中,部分结构是指一系列全长分子在一个循环或多个循环包含相同的构建块(Building blocks),使得具有共同结构,部分结构代表一系列全长分子的结构模式。
[0012]进一步地,DNA编码化合物库筛选数据可视化在线分析的软件系统还包括:
[0013]类药性质预测模块,其基于一定的规则评估根据筛选规则得到的化合物分子类药性;
[0014]结构相似性计算模块,其用于评估根据筛选规则得到的化合物的相似性。
[0015]进一步地,所述分析逻辑设定模块包括:
[0016]分析逻辑设定组件,其根据筛选实验的实验信息,动态生成数据过滤器,以便用户自定义分析逻辑;
[0017]分析逻辑数据库,其可用于增加和/或删除根据分析逻辑过滤得到的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种DNA编码化合物库筛选数据可视化在线分析的软件系统,其特征在于,包括:分析逻辑设定模块,其用于定义数据分析逻辑;筛选数据分析模块,其基于所述数据分析逻辑对实验数据进行统计和分析,其分析过程和筛选结果基于DNA标签信息;DEL全长分子和部分结构展示模块,其将所述筛选数据分析模块的筛选结果以DEL分子化学结构形式呈现,以用于探索DEL分子化学结构与筛选结果的关系。2.如权利要求1所述的DNA编码化合物库筛选数据可视化在线分析的软件系统,其特征在于,还包括:类药性质预测模块,其基于一定的规则评估根据筛选规则得到的化合物分子类药性;结构相似性计算模块,其用于评估根据筛选规则得到的化合物的相似性。3.如权利要求2所述的DNA编码化合物库筛选数据可视化在线分析的软件系统,其特征在于,所述分析逻辑设定模块包括:分析逻辑设定组件,其根据筛选实验的实验信息,动态生成数据过滤器,以便用户自定义分析逻辑;分析逻辑数据库,其可用于增加和/或删除根据分析逻辑过滤得到的筛选实验数据;用户自定义分析逻辑筛选所得的数据存储于所述分析逻辑数据库。4.如权利要求3所述的DNA编码化合物库筛选数据可视化在线分析的软件系统,其特征在于,所述分析逻辑设定组件包括:筛选信息表格,其用于示出筛选条件设置及相关信息;简单逻辑设定,其使用数据过滤器设置过滤条件;复杂逻辑设定,其用于通过AND和/或OR处理简单逻辑设定得到的过滤条件;分析逻辑表格,其用于示出用户设定的逻辑。5.如权利要求2所述的DNA编码化合物库筛选数据可视化在线分析的软件系统,其特征在于,所述筛选数据分析模块包括:数据总览模...
【专利技术属性】
技术研发人员:冯华,朱泉彬,张德林,吴阿亮,殷健,王慕颖,苏文姬,蒯乐天,
申请(专利权)人:上海药明康德新药开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。