本发明专利技术公开了一种药物研发知识库构建方法及装置,该方法包括:建立医学实体库,所述医学实体库中包括医学实体及实体属性;所述医学实体包括:核心实体和一般实体;所述核心实体为药物;所述一般实体为与药物相关的实体;确定实体关系;所述实体关系包括:同类型实体间关系、不同类型实体间关系;以所述核心实体为关键节点、所述一般实体为普通节点,根据所述实体关系建立对应所述医学实体库的知识图谱。利用本发明专利技术,可以提高药物研发知识库建立的自动化程度,方便用户理解药物数据间关系,快速解读或描述药物复杂知识。解读或描述药物复杂知识。解读或描述药物复杂知识。
【技术实现步骤摘要】
药物研发知识库构建方法及装置
[0001]本专利技术涉及信息处理
,具体涉及一种药物研发知识库构建方法及装置。
技术介绍
[0002]知识库,又称为智能数据库或人工智能数据库,是基于知识的数据库,具有智能性,任何一个信息处理系统都离不开数据和知识库的支持。目前,领域知识库的构建通常是由人工来完成,比如由领域内的专家等人员来完成,但是这种通过人工来构建领域知识库需要耗费大量时间、精力,效率低而且不易维护,尤其是药物研发领域,不仅与人类关系非常密切,而且该领域的知识体系也极为庞杂,不仅包括疾病、药品、检查手段、检查设备、治疗方式等显性知识,还包括疾病诊断经验、疾病产生原因、相关并发症等隐形知识,并且这些知识相互关联。因此如何高效、全面地建立药物研发知识库是业界急需解决的一个问题。
技术实现思路
[0003]本专利技术提供一种药物研发知识库构建方法及装置,以解决现有技术中通过人工方式构建知识库效率低、时间长、不易维护的问题,实现药物研发知识库构建的自动化处理。
[0004]为此,本专利技术提供如下技术方案:一种药物研发知识库构建方法,所述方法包括:建立医学实体库,所述医学实体库中包括医学实体及实体属性;所述医学实体包括:核心实体和一般实体;所述核心实体为药物;所述一般实体为与药物相关的实体;确定实体关系;所述实体关系包括:同类型实体间关系、不同类型实体间关系;以所述核心实体为关键节点、所述一般实体为普通节点,根据所述实体关系建立对应所述医学实体库的知识图谱。
[0005]可选地,所述建立医学实体库包括:从医学相关的结构化数据中抽取医学实体,建立医学实体库;采集医学相关语料;从所述语料中抽取医学实体,并将抽取的医学实体补充到所述医学实体库中。
[0006]可选地,所述采集医学相关语料包括:从以下任意一种或多种数据源采集医学相关语料:医学相关的文献、专利、新闻、网页。
[0007]可选地,所述确定实体关系包括以下任意一种或多种方式:采用基于规则的方法从所述医学相关语料中抽取实体关系;采用基于深度学习模型的方法从所述医学相关语料中抽取实体关系。
[0008]可选地,所述一般实体包括:靶点、适应症、公司;所述同类型实体间关系包括:药物实体关系、公司实体关系;所述药物实体关系包括:协同作用、拮抗作用;所述公司实体关系包括:母公司、子公司、分公司;业务领域的合作、转让和受让;所述不同类型实体间关系包括:药物与适应症的关系、药物与靶点的关系、药物与公司
的关系。
[0009]一种药物研发知识库构建装置,所述装置包括:实体库建立模块,用于建立医学实体库,所述医学实体库中包括医学实体及实体属性;所述医学实体包括:核心实体和一般实体;所述核心实体为药物;所述一般实体为与药物相关的实体;实体关系确定模块,用于确定实体关系;所述实体关系包括:同类型实体间关系、不同类型实体间关系;知识图谱生成模块,用于以所述核心实体为关键节点、所述一般实体为普通节点,根据所述实体关系建立对应所述医学实体库的知识图谱。
[0010]可选地,所述实体库建立模块包括:医学实体库建立单元,用于从医学相关的结构化数据中抽取医学实体,建立医学实体库;数据采集单元,用于采集医学相关语料;实体抽取单元,用于从所述语料中抽取医学实体;维护单元,用于将所述实体抽取单元抽取的医学实体补充到所述医学实体库中。
[0011]可选地,所述数据采集单元,具体用于从以下任意一种或多种数据源采集医学相关语料:医学相关的文献、专利、新闻、网页。
[0012]可选地,所述实体关系确定模块包括:第一确定单元,用于采用基于规则的方法从所述医学相关语料中抽取实体关系;和/或第二确定单元,用于采用基于深度学习模型的方法从所述医学相关语料中抽取实体关系。
[0013]可选地,所述一般实体包括:靶点、适应症、公司;所述同类型实体间关系包括:药物实体关系、公司实体关系;所述药物实体关系包括:协同作用、拮抗作用;所述公司实体关系包括:母公司、子公司、分公司;业务领域的合作、转让和受让;所述不同类型实体间关系包括:药物与适应症的关系、药物与靶点的关系、药物与公司的关系。
[0014]本专利技术实施例提供的药物研发知识库构建方法及装置,通过建立医学实体库,确定实体关系,以核心实体为关键节点、以一般实体为普通节点,根据所述实体关系建立对应所述医学实体库的知识图谱。本专利技术实施例的方案对涉及药物多领域的复杂药物数据通过知识图谱形式来展示相关数据及实体间逻辑关系,从而方便用户理解药物数据间关系,快速解读或描述药物复杂知识;而且,构建成知识库后,方便药物数据处理,以及药物数据应用方向探索与推理。
附图说明
[0015]图1是本专利技术实施例药物研发知识库构建方法的流程图;图2是本专利技术实施例中核心实体与一般实体的串联关系示意图;图3是本专利技术实施例中基于规则的方法从所述医学相关语料中抽取实体关系的示例;图4是本专利技术实施例药物研发知识库构建装置的结构框图;
图5是本专利技术实施例中实体库建立模块的一种结构框图。
具体实施方式
[0016]医药领域药物数据不仅具有行业专业特点,而且结合药物研发还涉及众多领域。针对这些特点,本专利技术实施例提供一种药物研发知识库构建方法及装置,通过建立医学实体库,确定实体关系,以核心实体为关键节点、以一般实体为普通节点,根据所述实体关系建立对应所述医学实体库的知识图谱。
[0017]如图1所示,是本专利技术实施例药物研发知识库构建方法的流程图,包括以下步骤:步骤101,建立医学实体库,所述医学实体库中包括医学实体及实体属性;所述医学实体包括:核心实体和一般实体;所述核心实体为药物;所述一般实体为与药物相关的实体。
[0018]所述一般实体比如可以包括但不限于:靶点、适应症、公司等;所述实体属性是对实体起限定作用的描述信息,比如:药物的属性包括:名称、剂型、给药途径、药物类型、NME、复方、注册分类等。
[0019]适应症的属性包括:疾病名称、病因、解剖学位置、疾病分类等。
[0020]公司的属性包括:地区、母公司、子公司、业务领域、企业分类等。
[0021]靶点的属性包括:靶点分类;非信号通路的靶点的二级属性蛋白、核酸、脂质、糖类;蛋白和核酸类靶点的三级属性如基因、序列等。
[0022]各实体数据主要来自于公开的文献、官网数据和行业内数据库等非结构化数据、半结构化数据和结构化数据。
[0023]比如,具体可以按照以下方式建立医学实体库:(1)建立医学实体库;从医学相关的结构化数据中抽取医学实体,建立医学实体库;在实际应用中,可以采用关系型数据库(如MySQL)存储实体属性(不用于关联的字段),例如,实体的图片URL等;采用图数据库(如Neo4j)存储实体的主要字段及关系,用于知识推理(图推理、上下位推理、等价推理、不一致检测、知识发现)。
[0024]从结构化数据中抽取医学实体至图数据库流程如下:根据医学实体及其属性,设计数据库表结构;在已有的专业数据本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种药物研发知识库构建方法,其特征在于,所述方法包括:建立医学实体库,所述医学实体库中包括医学实体及实体属性;所述医学实体包括:核心实体和一般实体;所述核心实体为药物,所述一般实体为与药物相关的实体;确定实体关系;所述实体关系包括:同类型实体间关系、不同类型实体间关系;以所述核心实体为关键节点、所述一般实体为普通节点,根据所述实体关系建立对应所述医学实体库的知识图谱。2.根据权利要求1所述的方法,其特征在于,所述建立医学实体库包括:从医学相关的结构化数据中抽取医学实体,建立医学实体库;采集医学相关语料;从所述语料中抽取医学实体,并将抽取的医学实体补充到所述医学实体库中。3.根据权利要求2所述的方法,其特征在于,所述采集医学相关语料包括:从以下任意一种或多种数据源采集医学相关语料:医学相关的文献、专利、新闻、网页。4.根据权利要求2所述的方法,其特征在于,所述确定实体关系包括以下任意一种或多种方式:采用基于规则的方法从所述医学相关语料中抽取实体关系;采用基于深度学习模型的方法从所述医学相关语料中抽取实体关系。5.根据权利要求1所述的方法,其特征在于,所述一般实体包括:靶点、适应症、公司;所述同类型实体间关系包括:药物实体关系、公司实体关系;所述药物实体关系包括:协同作用、拮抗作用;所述公司实体关系包括:母公司、子公司、分公司;业务领域的合作、转让和受让;所述不同类型实体间关系包括:药物与适应症的关系、药物与靶点的关系、药物与公司的关系。6.一种药物研发知识库构建装置,其特征在于,所述装置包括:实体库建立模块,用于建立医学实体库,所述医学...
【专利技术属性】
技术研发人员:丁红霞,伍星,吴忠毅,苑敬,王雨福,李靖,李琪,廖宛玲,
申请(专利权)人:药渡经纬信息科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。