System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种干细胞知识图谱构建方法、装置、设备及存储介质制造方法及图纸_技高网

一种干细胞知识图谱构建方法、装置、设备及存储介质制造方法及图纸

技术编号:43217902 阅读:4 留言:0更新日期:2024-11-05 17:11
本申请公开了一种干细胞知识图谱构建方法、装置、设备及存储介质,先从干细胞领域数据源中获取科技干细胞大数据并进行资源汇聚和整合得到整合后的科技干细胞大数据,其次进行文本挖掘、知识实体抽取、语义标注和数据融合得到知识图谱实例数据,最后从知识图谱实例数据中提取知识实体,并按照知识实体与文献的关系和实体间的语义关系对知识实体进行链接关联得到基于三元组的实体链接,完成干细胞知识图谱的构建,综合运用知识抽取、知识挖掘、知识融合与可视化技术,对不同数据源中的科研大数据进行数据融合与知识关联,对知识点进行自动化抽取、结构化组织与知识化关联形成知识图谱,实现数据、信息与知识的有效融合。

【技术实现步骤摘要】

本申请涉及计算机软件应用,具体而言,涉及一种干细胞知识图谱构建方法、装置、设备及存储介质


技术介绍

1、干细胞是当今生命科学研究的热点和前沿,正孕育着重大的科学突破与巨大的产业带动。在干细胞领域,以科技文献、临床实验、医药产品、科学数据与科技服务资源为核心的科研大数据呈“井喷式”增长,导致干细胞领域科研大数据具有数量巨大、类型繁多、关系复杂和来源分散等特点。因此,如何从海量的多源异构数据中进行知识的自动化抽取、结构化组织、语义化关联,构建干细胞领域知识图谱已成为一个关键问题。

2、目前,第四范式在生命与大健康领域已得到广泛应用,其核心是多源异构数据的集成与海量数据的分析。数据集成方面,生物大分子序列测定与“人类基因组计划”得到的相关生物学数据越来越多,快速推动了生物信息学的发展。序列数据库swissprot、genbank、pharmgkb、ipa等多种生物医学数据库与平台的发展,为多种挖掘技术与工具的开发提供了丰富的资源支持。数据分析方面,也出现了大量大数据分析软件和平台,如ibm公司推出了基于大数据分析与人工智能的watson医疗系统。欧盟第七框架计划支持研发了用于支持小分子筛选、新药设计的生物医药知识发现系统open phacts,该系统利用知识图谱技术将从分子到基因组,再到患者的各种数据集关联起来,并利用深度学习算法发现潜在的知识与隐含的知识关联。英国生物科技公司benevolent bio利用大数据知识发现平台jacs(judgment augmented cognition system)从全球范围内海量的学术论文、专利、临床试验、患者记录等数据中,提取出有用的信息,发现新药研发的蛛丝马迹。借助jacs的分析能力,benevolent bio 标记了100个可用于治疗肌萎缩性侧索硬化症的潜在化合物,且已经有药物进入临床试验阶段。

3、然而,现有研究成果主要提供领域科学数据管理、计算和分析服务,存在数据类型单一且缺乏关联等不足,难以满足领域研究热点、研究重点与发展趋势分析,以及基于大数据知识计算的关键技术挖掘与技术预见等知识发现需求。


技术实现思路

1、本申请的目的在于,为了克服现有的技术缺陷,提供了一种干细胞知识图谱构建方法、装置、设备及存储介质,综合运用知识抽取、知识挖掘、知识融合与可视化技术,对不同数据源中的科研大数据进行数据融合与知识关联,对知识点进行自动化抽取、结构化组织与知识化关联形成知识图谱,实现数据、信息与知识的有效融合。

2、本申请目的通过下述技术方案来实现:

3、第一方面,本申请提出了一种干细胞知识图谱构建方法,所述方法包括:

4、从干细胞领域数据源中获取科技干细胞大数据并进行资源汇聚和整合得到整合后的科技干细胞大数据;

5、对整合后的科技干细胞大数据进行文本挖掘、知识实体抽取、语义标注和数据融合得到知识图谱实例数据;

6、从知识图谱实例数据中提取知识实体,并按照知识实体与文献的关系和实体间的语义关系对知识实体进行链接关联得到基于三元组的实体链接,完成干细胞知识图谱的构建,

7、在一种可能的实施方式中,资源汇聚和整合包括数据格式统一、数据清洗筛选、分词词性标注以及大数据存储中的一种或多种。

8、在一种可能的实施方式中,对整合后的科技干细胞大数据进行文本挖掘、知识实体抽取、语义标注和数据融合得到知识图谱实例数据的步骤,包括:

9、利用成生物医药领域知识抽取工具对整合后的科技干细胞大数据进行文本挖掘,获得知识实体以及实体之间的关系,形成知识组织体系;

10、按照知识组织体系进行知识实体抽取、语义标注和数据融合得到知识图谱实例数据。

11、在一种可能的实施方式中,从知识图谱实例数据中提取知识实体,并按照知识实体与文献的关系和实体间的语义关系对知识实体进行链接关联得到基于三元组的实体链接的步骤,包括:

12、基于知识组织体系,依照科学视角从知识图谱实例数据中挖掘出知识实体;

13、对包括文献-文献、文献-知识实体、知识实体-知识实体等知识实体与文献的关系进行定义;

14、结合metamap与semrep从知识图谱实例数据中提取实体间的语义关系,并通过三元组语义网形式呈现;

15、按照知识实体与文献的关系和实体间的语义关系对知识实体进行链接关联得到基于三元组的实体链接。

16、在一种可能的实施方式中,在完成干细胞知识图谱的构建之后的步骤,还包括:

17、设置相关规则对干细胞知识图谱中的矛盾和问题进行自动检测,通过人工辅助的方式发现问题并予以修正。

18、在一种可能的实施方式中,所述干细胞知识图谱通过neo4j数据模型存储。

19、第二方面,本申请提出了一种干细胞知识图谱构建装置,所述装置包括:

20、整合模块,用于从干细胞领域数据源中获取科技干细胞大数据并进行资源汇聚和整合得到整合后的科技干细胞大数据;

21、实例数据生成模块,用于对整合后的科技干细胞大数据进行文本挖掘、知识实体抽取、语义标注和数据融合得到知识图谱实例数据;

22、关联模块,用于从知识图谱实例数据中提取知识实体,并按照知识实体与文献的关系和实体间的语义关系对知识实体进行链接关联得到基于三元组的实体链接,完成干细胞知识图谱的构建,

23、第三方面,本申请还提出了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如第一方面任一项所述的干细胞知识图谱构建方法。

24、第四方面,本申请还提出了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如第一方面任一项所述的干细胞知识图谱构建方法。

25、上述本申请主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本申请可采用并要求保护的方案;且本申请,(各非冲突选择)选择之间以及和其他选择之间也可以自由组合。本领域技术人员在了解本申请方案后根据现有技术和公知常识可明了有多种组合,均为本申请所要保护的技术方案,在此不做穷举。

26、本申请公开了一种干细胞知识图谱构建方法、装置、设备及存储介质,首先从干细胞领域数据源中获取科技干细胞大数据并进行资源汇聚和整合得到整合后的科技干细胞大数据,其次对整合后的科技干细胞大数据进行文本挖掘、知识实体抽取、语义标注和数据融合得到知识图谱实例数据,最后从知识图谱实例数据中提取知识实体,并按照知识实体与文献的关系和实体间的语义关系对知识实体进行链接关联得到基于三元组的实体链接,完成干细胞知识图谱的构建,综合运用知识抽取、知识挖掘、知识融合与可视化技术,对不同数据源中的科研大数据进行数据融合与知识关联,对知识点进行自动化抽取、结构化组织与知识化关联形成知识图谱,实现数据、信息与知识的有效融合。

本文档来自技高网...

【技术保护点】

1.一种干细胞知识图谱构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,资源汇聚和整合包括数据格式统一、数据清洗筛选、分词词性标注以及大数据存储中的一种或多种。

3.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,对整合后的科技干细胞大数据进行文本挖掘、知识实体抽取、语义标注和数据融合得到知识图谱实例数据的步骤,包括:

4.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,从知识图谱实例数据中提取知识实体,并按照知识实体与文献的关系和实体间的语义关系对知识实体进行链接关联得到基于三元组的实体链接的步骤,包括:

5.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,在完成干细胞知识图谱的构建之后的步骤,还包括:

7.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,所述干细胞知识图谱通过Neo4j数据模型存储。

8.一种干细胞知识图谱构建装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1-7任一项所述的干细胞知识图谱构建方法。

10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1-7任一项所述的干细胞知识图谱构建方法。

...

【技术特征摘要】

1.一种干细胞知识图谱构建方法,其特征在于,所述方法包括:

2.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,资源汇聚和整合包括数据格式统一、数据清洗筛选、分词词性标注以及大数据存储中的一种或多种。

3.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,对整合后的科技干细胞大数据进行文本挖掘、知识实体抽取、语义标注和数据融合得到知识图谱实例数据的步骤,包括:

4.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,从知识图谱实例数据中提取知识实体,并按照知识实体与文献的关系和实体间的语义关系对知识实体进行链接关联得到基于三元组的实体链接的步骤,包括:

5.根据权利要求1所述的干细胞知识图谱构建方法,其特征在于,所述方法还包...

【专利技术属性】
技术研发人员:胡正银陈文杰刘春江
申请(专利权)人:中国科学院成都文献情报中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1