在大数据库中根据化学结构相似性搜索和显示可用信息的系统、装置和方法制造方法及图纸

技术编号:21177025 阅读:29 留言:0更新日期:2019-05-22 12:16
本发明专利技术的实施例涉及以下系统、方法和装置:其用于改进在广泛的数据库中可用的专利和其他文献内部以及该专利和其他文献之间的信息空间中搜索化学结构内容,并且其包含用于以地图形式可视化化学空间的新工具。更具体地,本发明专利技术的实施例涉及这样的系统、方法和装置:其用于使用可从各种数据库和基于因特网的资源获得的公共信息来获得和分组信息以确定类似化学结构,承担三维地图分析以访问那些类似的结构,并获得有关它们的其他信息,该其他信息包括但不限于专利数据、专利同族结构、诉讼相关信息、监管和营销批准信息、以及帮助用户了解与某些感兴趣的化学结构以及有关化学结构相关联的医疗、技术和法律环境的其他类型的信息。另外,实施例提供了搜索结果和内容项的新的导航范例,使得用户可以更直观且更有效率地获取和操纵与基于其化学相似性分组的化学结构有关的信息。

Systems, devices and methods for searching and displaying available information based on chemical structural similarity in large databases

Embodiments of the present invention relate to systems, methods and devices for improving the search of chemical structure content within and between patents and other documents available in a wide database, and include new tools for visualizing chemical space in the form of maps. More specifically, embodiments of the present invention relate to systems, methods and devices for obtaining and grouping information for identifying similar chemical structures using public information available from various databases and Internet-based resources, undertaking three-dimensional map analysis to access those similar structures and obtaining other information about them, including, but not limited to, specialization. Profit data, patent peer structure, litigation-related information, regulatory and marketing approval information, and other types of information to help users understand the medical, technical and legal environment associated with certain interested chemical structures and related chemical structures. In addition, embodiments provide a new navigation paradigm for search results and content items, enabling users to obtain and manipulate information related to chemical structures based on chemical similarity grouping more intuitively and efficiently.

【技术实现步骤摘要】
【国外来华专利技术】在大数据库中根据化学结构相似性搜索和显示可用信息的系统、装置和方法相关申请的交叉引用本申请要求2016年12月5日提交的题为“SearchingandDisplayingDocumentsinLargeDatabasesAccordingtotheSimilarityofChemicalStructuresDiscussedinThem”的美国临时申请No.62/430,289的优先权。该申请通过引用整体并入本文。
本专利技术的实施例涉及以下系统、方法和装置:其用于改进在广泛的数据库中可获取到的专利和其他文献内部以及该专利和其他文献之间的信息空间中搜索化学结构内容,并且其包含用于以地图形式(landscapeformat)可视化化学空间的新工具。更具体地,本专利技术的实施例涉及这样的系统、方法和装置:其用于使用可从各种数据库和基于因特网的资源获得的公共信息来获得和分组信息以确定类似化学结构,承担三维地图分析以访问那些类似的结构,并获得有关它们的其他信息,该其他信息包括但不限于以下信息:专利数据、专利同族结构、诉讼相关信息、监管和营销批准信息、以及帮助用户了解与某些感兴趣的化学结构以及有关化学结构相关联的医疗、技术和法律环境的其他类型的信息。
技术介绍
诸如因特网、企业网络、文档存储库以及信息存储和检索服务之类的信息空间允许广泛访问大量信息。例如,用户通常使用因特网搜索引擎来在因特网上或公共或专有数据库上定位和选择期望的信息,所述期望的信息涉及:产品、个别专利及其关联数据;简单和复杂的专利同族信息;与专利所涵盖产品相关联的监管活动,诸如FDA批准、延期、调整和减少专利条款、影响专利权的法院和机构活动以及某些专利权利要求条款的适当解释;以及与某些化学品相关联的医疗信息,包括受到监管监督和批准的药物产品中发现的活性药物成分(API)。执行与化学结构和专利相关的搜索的各种各样的用户有兴趣理解与这些结构有关的许多因素和数据片段,并且有兴趣分析和最终确定与其搜索最相关的驻留在信息孤岛和离散数据库中的许多信息片段的优先级。虽然手动搜索和比较这样的信息可以向用户提供一些有用的信息,但是当前的工具不能提供一种系统、方法或装置,来向用户给出涉及类似化学结构和化学空间的可视化的实时更新和化学结构分组。搜索引擎帮助用户定位信息空间中的项。这些项可以包括文档、图像、视频和本领域中已知的许多其他类型的文件。搜索引擎典型地使用搜索算法,该搜索算法采用文字关键字匹配技术或对用户查询或搜索请求中指定的单词或符号的近似匹配。因此,在离散数据集和数据库中的常规搜索中,搜索信息的用户必须提供有希望匹配期望的内容的关键字。然而,在实践中,对内容用户和内容提供者来说,这种方法只不过是一种猜谜游戏,并且当搜索涉及化学结构时尤其困难。各种关键字可用于概念性想法,这可能使标记和关键字搜索变得困难。另外,在提供关于特定化学结构的信息的系统之间,给定的关键字组合不太可能是相同的。因此,搜索引擎内对化学结构以及与那些结构相关联的信息的概念匹配或语义匹配可能很差且不一致。常规搜索和分析工具在确定化学结构中所固有的含义方面也可能是无效的。对于许多系统,内容以自然语言表达,其中没有约定或化学结构组织来管理内容的含义或聚类。因此,搜索引擎通常不能可靠地定位或分组最合适或相关的化学结构内容。目前,依靠当前的搜索工具基于这些结构的相似性对化学结构内容进行分组或组织是不可行的。虽然已知基于各种预定义文本参数对数据进行分组的系统和算法,但它们对于联系和关联与二维和三维化学结构及其相关联的化学化合物名称有关的信息是无用的,该化学化合物名称包括:由国际纯粹与应用化学联合会(IUPAC)开发的命名法;国际化合物标识(InChi)系统,其反映了化合物的结构和组成;以及CAS编号,每个CAS编号都指单个化合物,并不包含关于结构的任何信息。大体上管理和映射专利相关信息是已知的,并且可以参考Gupta的US9607058和Lundberg的US9697577。尽管现有技术提供了一些好处;然而,这些工具无法提供有意义的化学结构分组和与这些化学结构相关的其他信息(包括专利信息),以便为用户提供关于某些感兴趣的化学结构的可操作的见解。
技术实现思路
提供本
技术实现思路
是为了以简化的形式介绍某些概念,这些概念将在下面的具体实施方式和附图中进一步描述。本
技术实现思路
不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在以任何方式限制所要求保护的专利技术的范围。新版智慧芽(PatSnap)软件平台基于在专利和其他文献内部以及该专利和其他文献之间搜索化学结构,并采用一种化学空间可视化呈现的新工具。该化学专利地图工具(也称为“Chemscape”)基于化学结构的相似性将其排列为2D平面上的正方形。彼此最相似的化学结构被发现彼此更接近。化学结构变化越大,它们彼此之间的距离就越远。该计算过程在数千个结构间进行相乘,以图形化的方式展现所选择的化学结构是如何聚类成不同的组。点击反映类似化学结构分组的代表性正方形将显示化学结构、描述化学结构的性质、并提供关于和链接到各种公共资料(以及仅在专有数据库上方可获取到的一些资料)的信息,这些公共资料包括科学文献、包括专利同族信息的专利资料、医疗和监管信息,以下统称为“文献”,该“文献”提及了任何所选择的感兴趣的化学结构。然后添加3D图层,该3D图层涉及所排列的正方形(表示化学结构),在工具内表示为3D柱。在一个示例中,柱的高度代表提及对应化学结构的独立“文献”论文的数量。在另一个示例中,柱的高度代表涉及对应结构的数据源的数量。在另一个示例中,柱的高度代表对应的化学结构由于其结构相似性而被分成一组的蛋白质或其他化学实体。在可选实施例中,该“Chemscape”工具可以动画地展示提及了对应化学结构的“文献”公布随时间的变化概况。这包括反映提及了结构的“文献”的出版日期的3D柱,并且随着时间线长度的增加,柱的高度增加。在可选实施例中,2D正方形和3D柱可以基于(与数据集相关联的)基础化学结构的相关信息来突出显示,诸如基于参考查询结构的结构相似性得分、监管批准信息、临床试验阶段、状态和对应化学结构信息的来源来突出显示。在另一个可选实施例中,这些正方形和柱也可以基于提及了化学结构的专利或文献的相关信息来突出显示,诸如基于专利分类代码、公布日期、专利申请或到期日、受让人、标准化受让人、专利专利技术人和提及化学结构的科学参考文献来突出显示。除了这种化学结构和相关联的信息可视化工具之外,还能够基于“文献”文本中的关键词搜索、或“文献”元数据之间的信息搜索,来进行文献(包括相关联的专利和科学参考文献)之间的搜索。在可选实施例中,在输入搜索查询时,3D柱基于对应的“文献”的细化而改变高度,以反映提及化学结构的精细“文献”结果的数量,并基于用户输入的查询细化信息对结果进行限定。本专利技术的系统、方法和装置提供了以下一种新颖的二维矩阵,其反映了基于其化学结构的相似性的化学结构分组以及相关联的文献,用户可以将该相关联的文献连同分组的化学结构一起进行分析,以更好地理解其法律、监管和医疗状况。附图说明现在将在下文中参考附图更全面地描述本专利技术,附图示出了本专利技术的各种实施例。然而,本专利技术可以以许多不同的形式实施,并且不本文档来自技高网
...

【技术保护点】
1.一种结合非化学数据对化学结构相似性进行自动计算、映射和访问的方法,所述非化学数据包括专利、法律和医疗记录,所述方法包括:a)使用用户界面从数据库选择/输入目标化学结构,所述用户界面由计算机系统的处理器在显示器上生成,其中所述用户界面与专利相关的搜索引擎相关联,所述搜索引擎链接到所述数据库,所述搜索引擎和所述数据库被托管在所述计算机系统的第一存储器中或在远程定位的第二存储器中;b)从所述数据库获得化学结构记录,所述化学结构记录与所述目标化学结构有关,以经由所述处理器根据用户输入方法并且根据化学记录的第一数据集创建2D地图,所述化学记录的第一数据集存储在所述第一存储器或所述第二存储器中;c)通过由所述处理器激活的菜单/或自动化功能而选择第一方法,以计算或评估关于所述目标化学结构的分子相似性的第一集合,其中所述方法包括Tanimoto评分和指纹识别、语义相似性或形状相似性中的至少一个;d)使用所选择的相似性方法,经由所述处理器生成类似化学结构记录的第一非线性聚类地图;e)根据所述类似化学结构的第一图形分布方法,在计算机屏幕上,将化学结构记录的第一非线性聚类在平面上显示为2D地图;f)从源/库获得用户选出的单个或多个非化学次级数据集记录,所述源/库被托管在所述第一存储器或所述第二存储器中并链接到化学结构类似记录的2D地图;g)将与所述2D地图化学结构有关的可选择的次级数据集记录布置和显示为图形元素的3D地图,以同时且可视地将所述非化学次级数据集记录链接‑关联到化学结构的2D地图;h)通过使用输入或指向设备点击一个或数个选择图形元素,经由所述3D地图访问次级非化学数据集记录,所述次级非化学数据集记录被链接到所述2D地图的化学记录。...

【技术特征摘要】
【国外来华专利技术】2016.12.05 US 62/430,2891.一种结合非化学数据对化学结构相似性进行自动计算、映射和访问的方法,所述非化学数据包括专利、法律和医疗记录,所述方法包括:a)使用用户界面从数据库选择/输入目标化学结构,所述用户界面由计算机系统的处理器在显示器上生成,其中所述用户界面与专利相关的搜索引擎相关联,所述搜索引擎链接到所述数据库,所述搜索引擎和所述数据库被托管在所述计算机系统的第一存储器中或在远程定位的第二存储器中;b)从所述数据库获得化学结构记录,所述化学结构记录与所述目标化学结构有关,以经由所述处理器根据用户输入方法并且根据化学记录的第一数据集创建2D地图,所述化学记录的第一数据集存储在所述第一存储器或所述第二存储器中;c)通过由所述处理器激活的菜单/或自动化功能而选择第一方法,以计算或评估关于所述目标化学结构的分子相似性的第一集合,其中所述方法包括Tanimoto评分和指纹识别、语义相似性或形状相似性中的至少一个;d)使用所选择的相似性方法,经由所述处理器生成类似化学结构记录的第一非线性聚类地图;e)根据所述类似化学结构的第一图形...

【专利技术属性】
技术研发人员:李志峰汉斯·马库斯侯赛因·阿里张岩汪逍任泽
申请(专利权)人:智慧芽信息科技苏州有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1