一种化学分子结构检索系统技术方案

技术编号:32428556 阅读:15 留言:0更新日期:2022-02-24 18:32
本发明专利技术公开了一种化学分子结构检索系统,包括:输入模块、处理模块、检索模块、存储模块和输出模块;所述输入模块用于接收化学分子结构的绘制操作,并把接收到的化学分子结构绘制操作输入发送至所述处理模块;所述处理模块对用户的绘制操作输入进行处理,计算其分子指纹并把处理后的结果发送至所述检索模块;所述检索模块根据处理后的结果对存储模块中所有分子结构的分子指纹进行比较检索,并结合所述存储模块中的数据将检索的结果输出。本发明专利技术提供的检索系统可快速、准确查找化合物,实现对化学结构的精确检索、子结构检索和相似度检索,有效解决文本检索存在的不直观、不精确、效率低等多方面的问题。低等多方面的问题。

【技术实现步骤摘要】
一种化学分子结构检索系统


[0001]本专利技术属于信息搜索
,特别涉及一种化学分子结构检索系统。

技术介绍

[0002]在化学信息中,化合物结构是最重要的信息之一。常用的化学数据库检索手段包括名称检索、分子式检索、CAS号检索,其中名称检索和分子式检索结果并不唯一,CAS号检索并不直观地反映化合物结构。由于化学、药物专利文献中涉及的一些新化合物或中间体根本无法找到相应的物质名称、CAS号,只能通过化学结构式进行检索。
[0003]普通化学信息数据库只具有文本检索功能,这些搜索方式存在不直观、不精确、效率低等多方面的问题,而且化学品的种类和数量是一个庞大的数据量,化学品命名复杂、使得这些使用传统的中英文名搜索已不能很好的满足用户的需求。
[0004]为了满足化学研发人员最常用的语言
--
化学结构及化学结构检索需求,需要开发一种化学分子结构检索系统。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种化学分子结构检索系统,解决现有文本检索存在的诸多问题,实现对化合物结构的快速、精确查找。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种化学分子结构检索系统,包括:输入模块、处理模块、检索模块和存储模块和输出模块;
[0008]所述输入模块用于接收化学分子结构的绘制操作,并把接收到的化学分子结构绘制操作输入发送至所述处理模块;
[0009]所述处理模块对用户的绘制操作输入进行处理,计算其分子指纹并把处理后的结果发送至所述检索模块;
[0010]所述检索模块根据处理后的结果对存储模块中所有分子结构的分子指纹进行比较检索,所述所绘制的化学分子结构与存储模块中的分子结构的分子指纹进行比较包括:将两个分子结构分子指纹字符串的每个对应字符位置进行比较,并将字符位置相同且字符相同的数量除以总字符数量,得到分子指纹的相似度。
[0011]所述输出模块将检索出的结果进行输出。
[0012]优先的,所述的输入模块为化学分子结构式编辑器。
[0013]优先的,所述存储模块包括化学分子数据库,所述检索模块的检索是针对所述化学分子数据库进行的。
[0014]优先的,所述的化学分子数据库包括:化学分子英文名、CAS号、分子式、smiles码、IUPAC标准名、EINECS号、InChI、UNII号、别名、分子指纹。
[0015]与现有技术相比,本专利技术的有益效果是:提供一种快速、准确查找化合物结构的系统,实现对化学结构的精确检索、子结构检索和相似度检索,有效解决文本检索存在的不直
观、不精确、效率低等多方面的问题。
附图说明
[0016]为了使本专利技术的目的、技术方案和有益效果更加清楚,本专利技术提供如下附图进行说明:
[0017]图1为本专利技术的化学分子结构检索系统的示意图。
[0018]图中101输入模块;102处理模块;103检索模块;104存储模块;105输出模块。
[0019]图2为实施例化学分子结构绘制示意图。
[0020]图3为实施例化学分子结构的子结构检索结果输出图。
具体实施方式
[0021]下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好的理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。
[0022]实施例1
[0023]本实施例提供了如图1所示的一种化学分子结构检索系统10包括:输入模块101、处理模块102、检索模块103、存储模块104和输出模块105。
[0024](1)输入模块101为化学分子结构式编辑器,用于接收化学分子结构的绘制操作,并把接收到的化学分子结构绘制操作输入发送至所述处理模块102。实施例所用的化学分子结构式编辑器是Ketcher结构式编辑器。
[0025](2)处理模块102对用户的绘制操作输入进行处理,对输入的结构进行分子指纹计算并把处理后的结果发送至所述检索模块103。
[0026]其中,所述分子指纹计算按照Chemical Hashed Fingerprint计算方法(https://docs.chemaxon.com/display/docs/Chemical_Hashed_Fingerprint.html)。其中分子指纹是将化学分子的结构信息以“0”和“1”组成比特串来表示。
[0027](3)检索模块103根据处理后的结果对存储模块中所有分子结构的分子指纹进行比较检索,并结合所述存储模块中的数据将检索的结果输出。
[0028]其中所述存储模块主要包括化学分子数据库,上述检索模块的检索是在化学分子数据库中进行的。所述化学分子数据库包括:化学分子英文名、CAS号、分子式、smiles码、IUPAC标准名、EINECS号、InChI、UNII号、别名、分子指纹等
[0029]为了更清楚理解本检索系统,下面以式(I)所示结构并进行子结构检索为例:
[0030][0031]a)输入模块101:在分子编辑器中绘制式(I)的分子结构,如图2所示;
[0032]b)处理模块102:对输入的式(I)分子结构进行分子指纹计算;
[0033]c)检索模块103:根据式(I)分子结构的分子指纹对存储模块104中所有分子结构的分子指纹进行比较检索,检索条件为相似度大于80%;
[0034]d)输出模块105:将检索出的符合要求的结果进行输出,输出的结果是按照相似度由高到低排序的分子结构。如图3所示。
[0035]以上所述实施例仅是为充分说明本专利技术而所举的较佳的实施例,本专利技术的保护范围不限于此。本
的技术人员在本专利技术基础上所作的等同替代或变换,均在本专利技术的保护范围之内。本专利技术的保护范围以权利要求书为准。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种化学分子结构检索系统,其特征在于,所述化学分子结构检索系统包括:输入模块、处理模块、检索模块、存储模块和输出模块;所述输入模块用于接收化学分子结构的绘制操作,并把接收到的化学分子结构绘制操作输入发送至所述处理模块;所述处理模块对所绘制的化学分子结构进行处理,计算其分子指纹并把处理后的结果发送至所述检索模块;所述检索模块根据处理后的结果对存储模块中所有分子结构的分子指纹进行比较检索,其中所绘制的化学分子结构的分子指纹与存储模块中分子结构的分子指纹进行比较,包括:将两个化学分子结构的分子指纹字符串的每个对应字符位置进行比较,并将字符位置相...

【专利技术属性】
技术研发人员:杨建明李天泉罗元平李雪梅陈浩
申请(专利权)人:重庆康洲大数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1