System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据挖掘领域,更为具体的,涉及一种基于知识图谱的催化抗体数据库系统及知识发现方法。
技术介绍
1、2021年度,诺贝尔化学奖被公布授予在“不对称有机催化等”研究中获得突破的德国科学家benjamin list以及美国科学家david macmillan,使得催化研究再一次引起热议。催化抗体(catalytic antibodies,又称抗体酶abyme)巧妙结合的生物催化和化学催化的优势,作为一种加速人体物质代谢的类酶蛋白质,在减轻生物毒性和毒素副作用、合成高效催化剂以及治疗罕见免疫性疾病等方面具有广泛的应用前景,尤其在处理药物滥用带来的生理不适与疾病方面。但当前催化抗体研究进程及知识更新速度都很慢,甚至存在研究停滞不前的情况,这一困境的形成与不同主体之间的知识与需求壁垒,研究材料的稀缺与分散等因素密切相关。
2、科技文献中蕴含大量“可信、专业、规范”的科技数据与知识,这些是重要科技创新要素,可有效支撑数据驱动的科学研究与知识发现。以发现未知的已知、启发科研思路为目的的基于文献的知识发现(literature-based discovery,lbd)源于信息情报学家donr.swanson(1924-2012)创立的情报学方法——基于非相关文献的知识发现——为知识发现和情报研究开辟了新的领域。随着科技文献的海量剧增、开放科学的深入发展以及新一代人工智能技术的赋能应用,lbd迎来了广阔的发展空间,其不仅有助于将科研人员从繁重的文献阅读工作中解脱出来,而且在生命医学等领域已经逐步成为一种科研范式,正加速知识
技术实现思路
1、本专利技术的目的在于克服现有技术的不足,提供一种基于知识图谱的催化抗体数据库系统及知识发现方法,提升科学研究效率。
2、本专利技术的目的是通过以下方案实现的:
3、一种基于知识图谱的催化抗体数据库系统,包括:
4、领域知识图谱构建模块、关键知识路径挖掘模块和催化抗体知识发现服务模块;
5、所述领域知识图谱构建模块,用于采用自底向上和自顶向下相结合的策略搭建催化抗体多源融合知识图谱;
6、所述关键知识路径挖掘模块,通过tf指标、iks指标、nct指标来度量路径的重要性,结合网络中知识关联的语义信息和知识链影响力来筛选知识路径,用于提高路径挖掘效果及重要性评估的准确度,实现知识发现效果最优化;
7、所述催化抗体知识发现服务模块,用于知识关联展示和知识链接挖掘。
8、进一步地,所述知识关联展示,具体包括:基于领域知识图谱和图数据库实现催化抗体氨基酸序列、催化抗体结构、催化底物反应活性与科技文献的关联展示;其中,论文包括论文pubmedid号、论文标题、作者、期刊和出版年字段,抗体包括抗体id、抗体名称、抗体描述、抗体序列和抗体活性字段,抗原包括抗原id、抗原名称、抗原结构式和抗原序列字段,催化反应包括反应id、反应类型、反应描述和反应图示字段。
9、进一步地,所述知识链接挖掘,具体包括:通过深度优先搜索和广度优先搜索算法,查找两个或多个节点之间的知识链接,利用重要性指标γij评估路径的可用性和质量;其中,深度优先搜索从一个选定的节点开始,选择它的一个邻近节点,然后在回溯之前沿着该路径行遍历;该过程的输出包含访问节点以及访问顺序的信息;广度优先搜索从一个选定的节点开始,在一个跃点距离处探索附近节点,然后在两个跃点距离处访问所有节点,依此类推。
10、进一步地,所述图数据库包括neo4j图数据库。
11、一种基于知识图谱的催化抗体数据库系统的知识发现方法,基于如上所述的系统,包括如下步骤:
12、s1,选择与检索数据源:选择催化抗体相关的四类科技文献信息的不同类型的专业文献数据库,包括pubmed论文数据库、德温特专利数据库di以及cortellis生命科学数据库;
13、s2,采集和处理三元组;
14、s3,构建催化抗体知识模型:通过剖析领域范畴确定核心主题词、复用现有资源确定知识框架和完善评估模型得到催化抗体知识模型;
15、s4,将数据按照知识模型有序组织存储在图数据库中,建立由两套节点关系进行嵌套组合而成的催化抗体多源融合知识图谱,所述两套节点关系包括:一是分散于文献之中的专业知识节点和知识关联,二是体现知识流动轨迹的来源节点与来源-实体对应关系;
16、s5,通过tf指标、iks指标和nct指标来度量路径的重要性,结合网络中知识关联的语义信息和知识链影响力来筛选知识路径。
17、进一步地,在步骤s2中,所述采集和处理三元组,包括子步骤:
18、s21,利用semrep分别从科技论文、专利研究、临床试验、药物研发四类非结构化文本中自动抽取知识实体与实体关系,表示成spo三元组形式,并为每一个实体匹配umls语义类型semtype和概念唯一标识符cui;
19、s22,删除内涵宽泛,对知识发现意义小的概念和非相关语义关系,并统一调整自动抽取实体的格式;使用实体识别工具metamap进行一对多知识实体映射,利用子术语映射工具stmt对词性、词数不一致的术语概念进行规范化处理;通过谓语清洗流程对三元组的predicate进行语义分类、合并去重、裁剪替换低频项;
20、s23,根据数据源信息整理得到文献节点的属性,包括pmid标识、标题、作者、发表时间、期刊和doi;专利节点的属性包括专利公开号、专利标题、公开年、专利技术人/申请人和所属机构;药物节点的属性包括药物编号、药物名称、年份、发起机构和治疗领域;临床试验节点的属性包括实验编号、项目名称、实验设计、实验对象、资助机构、时间和url;依靠时间属性建立专业知识节点和来源节点之间的“source of”关系。
21、进一步地,在步骤s5中,所述通过tf指标、iks指标和nct指标来度量路径的重要性,结合网络中知识关联的语义信息和知识链影响力来筛选知识路径,包括子步骤:
22、首先,利用tf指标用来观察知识单元在不同时间窗口的散落情况,其参数来自来源节点,指向知识节点的源节点个数代表某一主题出现频次,知识节点与源节点连线边的时间信息则代表某一主题的发生时间;
23、然后,利用iks指标度量节点自身ks值与网络最大ks值之间的距离,计算如下:
24、
25、dci和ikj是节点i的度和ks值,γ(i)是节点i的邻居节点集;在初始阶段,令最小的节点ks=1,然后移除该节本文档来自技高网...
【技术保护点】
1.一种基于知识图谱的催化抗体数据库系统,其特征在于,包括:
2.根据权利要求1所述的基于知识图谱的催化抗体数据库系统,其特征在于,所述知识关联展示,具体包括:基于领域知识图谱和图数据库实现催化抗体氨基酸序列、催化抗体结构、催化底物反应活性与科技文献的关联展示;其中,论文包括论文pubmedID号、论文标题、作者、期刊和出版年字段,抗体包括抗体ID、抗体名称、抗体描述、抗体序列和抗体活性字段,抗原包括抗原ID、抗原名称、抗原结构式和抗原序列字段,催化反应包括反应ID、反应类型、反应描述和反应图示字段。
3.根据权利要求1所述的基于知识图谱的催化抗体数据库系统,其特征在于,所述知识链接挖掘,具体包括:通过深度优先搜索和广度优先搜索算法,查找两个或多个节点之间的知识链接,利用重要性指标γij评估路径的可用性和质量;其中,深度优先搜索从一个选定的节点开始,选择它的一个邻近节点,然后在回溯之前沿着该路径行遍历;该过程的输出包含访问节点以及访问顺序的信息;广度优先搜索从一个选定的节点开始,在一个跃点距离处探索附近节点,然后在两个跃点距离处访问所有节点,依此类推。
...【技术特征摘要】
1.一种基于知识图谱的催化抗体数据库系统,其特征在于,包括:
2.根据权利要求1所述的基于知识图谱的催化抗体数据库系统,其特征在于,所述知识关联展示,具体包括:基于领域知识图谱和图数据库实现催化抗体氨基酸序列、催化抗体结构、催化底物反应活性与科技文献的关联展示;其中,论文包括论文pubmedid号、论文标题、作者、期刊和出版年字段,抗体包括抗体id、抗体名称、抗体描述、抗体序列和抗体活性字段,抗原包括抗原id、抗原名称、抗原结构式和抗原序列字段,催化反应包括反应id、反应类型、反应描述和反应图示字段。
3.根据权利要求1所述的基于知识图谱的催化抗体数据库系统,其特征在于,所述知识链接挖掘,具体包括:通过深度优先搜索和广度优先搜索算法,查找两个或多个节点之间的知识链接,利用重要性指标γij评估路径的可用性和质量;其中,深度优先搜索从一个选定的节点开始,选择它的一个邻近节点,然后在回溯之前沿着该路径行遍历;该过程的输出包含访问节点以及访问顺序的信息;广度优先搜索从一个选定的节点开始,在一个跃点距离处探索附近节点,然后在两...
【专利技术属性】
技术研发人员:胡正银,张小云,陈文杰,
申请(专利权)人:中国科学院成都文献情报中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。