System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种人口健康科学数据多维画像知识图谱构建方法及系统技术方案_技高网

一种人口健康科学数据多维画像知识图谱构建方法及系统技术方案

技术编号:43128361 阅读:8 留言:0更新日期:2024-10-29 17:36
本发明专利技术公开了一种人口健康科学数据多维画像知识图谱构建方法及系统,涉及人口健康科学数据处理技术领域,结合人口健康领域科学数据多维度、科学数据管理和共享涉及的科研要素实体和实体之间的关系设计人口健康科学数据知识模型,并构建人口健康科学数据多维画像知识图谱。本发明专利技术不仅实现对单个人口健康科学数据集的多维度画像和特征显示化,而且实现仓储内多源异构数据集相关的多类科研要素实体及外部资源间的关联揭示和关联的动态更新,进而提升人口健康科学数据仓储或管理系统内数据资源的集成整合水平,更好地支撑智能化、透明化、可追溯的人口健康科学数据组织、管理、发现和展示。

【技术实现步骤摘要】

本专利技术涉及人口健康科学数据处理,更具体的说是涉及一种人口健康科学数据多维画像知识图谱构建方法及系统


技术介绍

1、目前,随着科学数据汇交和管理的规范化发展,科学数据仓储或管理平台系统建设快速推进,实现了人口健康科学数据注册、汇交、审核、组织、存储、发布到共享等功能。在人口健康科学数据的组织和揭示方面,虽然数据汇交需要注册元数据,其描述了每个数据集乃至数据表的属性和特点,数据目录面向特定数量的数据集进行了描述和组织。但在人口健康科学数据仓储或管理平台系统所管理的对象中,对于数据集和其细粒度特征的描述并不补充分,尤其是领域特征和内容特征,并且科学数据集相关要素不仅涉及领域的科学数据集还关联到科研项目、科学文献、标准、软件工具、仪器设备、科研人员等不同类型的科研要素,但是现有人口健康领域科学数据仓储或管理平台系统缺乏对这些多维度科研要素之间关联关系的有效组织和深度揭示。

2、因此,如何更好地支撑智能化、透明化、可追溯的人口健康科学数据组织、管理、发现和展示是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本专利技术提供了一种人口健康科学数据多维画像知识图谱构建方法及系统,以解决
技术介绍
中存在的问题。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、一方面,提供一种人口健康科学数据多维画像知识图谱构建方法,包括:

4、对人口健康科学数据特征分析,明确人口健康数据多维画像知识图谱的需求;

5、基于需求设计人口健康科学数据多维画像知识图谱的知识模型;所述知识模型定义的内容包括数据管理相关核心科研要素实体及属性、领域特征实体及属性、数据管理生命周期活动实体及属性、数据特征实体及属性;

6、对不同类型人口健康科学数据源中提取多类实体数据以及确认各实体类间的关联关系;

7、将人口健康科学数据多维画像知识图谱的知识模型与提取的多类实体数据以及确认各实体类间的关联关系进行分层和批量实体对齐策略,实现语义消歧、多类实体数据融合;得到人口健康科学数据多维画像知识图谱;

8、基于人口健康科学数据多维画像知识图谱,实现数据多维画像与多数据集在内的关联知识图谱展示。

9、可选的,所述对人口健康科学数据特征分析包括:

10、分析已有人口健康科学数据仓储/数据共享平台中的多源异构的数据集,包括元数据、数据目录、数据字典、数据实体和第三方关联数据;以及分析科学数据集相关科研要素实体、数据集层次及颗粒度、领域特征。

11、可选的,设计人口健康科学数据多维画像知识图谱的知识模型包括:

12、构建以人口科学数据特征揭示和关联构建为中心的知识模型架构,设计实现人口健康科学数据仓储/共享平台中的数据集多维特征揭示和实现数据集相关多类科研要素实体隐性语义关联的显示化表示。

13、可选的,构造人口健康科学数据知识图谱构建的知识以及填充知识模型的实例数据的数据源由两部分组成:来自人口健康科学数据仓储/平台中的数据和外部关联的数据资源;包括结构化数据和非结构化数据,通过自然语言处理和人工智能方法将数据转化为“实体-关系-实体”的三元组和“实体-属性”对。

14、可选的,从人口健康科学数据进行实体抽取包括两部分,一部分是从人口健康科学数据仓储的结构化数据中提取,另一部分从非结构化数据中进行特定领域命名实体的识别和抽取;具体包括:

15、从结构化数据中,通过对描述性文本进行细化的医学命名实体抽取和领域词表映射生成;

16、从非结构化数据中通过改进的roberta命名实体识别方法,融合动态特征、词典信息、拼音、偏旁特征,实现多类中文医学命名实体的识别。

17、可选的,还包括定义了两个数据集之间的关联关系类型,定义为两种类型:“相关”和“不相关”关系,以及通过文本相似度算法对二者的关联性进行判断和测量数据集主题关联程度的高低,用于数据关联推荐的基础;计算对象为短文本,短文本包括人口健康科学数据集标题和数据集摘要。

18、可选的,文本相似度算法为生成短文本的向量并通过余弦相似度计算方法计算两个文本之间的相似性;余弦相似度的计算公式为:

19、

20、其中,a·b表示向量a和向量b的点积,||a||和||b||表示向量a和向量b的模;i表示第i个文本对,n表示需要计算相似度的文本对总数;cos(θ)的值范围在-1到1之间,越接近1表示两个向量越相似。

21、可选的,还包括数据转换和存储,原始多源数据存储在mysql数据库、文件数据库和mongodb数据中,建立了多张实体属性表和实体三元组关系表,批量转换,三元组导入转换应为utf-8避免乱码;选择用neo4j图数据库来存储知识图谱;对于neo4j数据库的数据导入使用neo4j-import工具导入整理好的结构化三元组知识数据形成最终的知识图谱,并通过cyber语句查询操作,用于支持医学数据集数据元知识图谱实体、关系、属性和关系路径的问答交互。

22、可选的,还包括数据更新,具体为人口健康科学数据知识图谱的数据是跟随人口健康科学数据仓储/数据管理平台中的业务数据、操作数据的不断增长而动态更新的;新的数据集进入系统,获取其在系统中的关联数据进行自动处理和抽提,转化为碎片化具有语义关联的数据补充到人口健康科学数据知识图谱中,同时监测系统中的数据状态的变化,用户会随时更新其数据集内容或版本、而不同角色管理者或加工者会进行数据集状态的处理,需要定期或动态的进行知识图谱信息的更新,保证数据同步,记录版本的变化。

23、另一方面,提供一种人口健康科学数据多维画像知识图谱构建系统,包括:

24、数据分析模块,对人口健康科学数据特征分析,明确人口健康数据多维画像知识图谱的需求;

25、知识模型构建模块,基于需求设计人口健康科学数据多维画像知识图谱的知识模型;所述知识模型定义的内容包括数据管理相关核心科研要素实体及属性、领域特征实体及属性、数据管理生命周期活动实体及属性、数据特征实体及属性;

26、数据提取模块,对不同类型人口健康科学数据源中提取多类实体数据以及确认各实体类间的关联关系;

27、数据融合模块,将人口健康科学数据多维画像知识图谱的知识模型与提取的多类实体数据以及确认各实体类间的关联关系进行分层和批量实体对齐策略,实现语义消歧、多类实体数据融合;得到人口健康科学数据多维画像知识图谱;

28、知识图谱展示模块,基于人口健康科学数据多维画像知识图谱,实现数据多维画像与多数据集在内的关联知识图谱展示。

29、经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种人口健康科学数据多维画像知识图谱构建方法及系统,本专利技术结合人口健康领域科学数据多维度特点和科学数据管理和共享涉及的科研要素实体和实体之间的关系设计人口健康科学数据知识模型,并构建人口健康科学数据多维画像知识图谱。通过知识图本文档来自技高网...

【技术保护点】

1.一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,包括:

2.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,所述对人口健康科学数据特征分析包括:

3.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,设计人口健康科学数据多维画像知识图谱的知识模型包括:

4.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,构造人口健康科学数据知识图谱构建的知识以及填充知识模型的实例数据的数据源由两部分组成:来自人口健康科学数据仓储/平台中的数据和外部关联的数据资源;包括结构化数据和非结构化数据,通过自然语言处理和人工智能方法将数据转化为“实体-关系-实体”的三元组和“实体-属性”对。

5.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,从人口健康科学数据进行实体抽取包括两部分,一部分是从人口健康科学数据仓储的结构化数据中提取,另一部分从非结构化数据中进行特定领域命名实体的识别和抽取,具体包括:

6.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,还包括定义了两个数据集之间的关联关系类型,定义为两种类型:“相关”和“不相关”关系,以及通过文本相似度算法对二者的关联性进行判断和测量数据集主题关联程度的高低,用于数据关联推荐的基础;计算对象为短文本,短文本包括人口健康科学数据集标题和数据集摘要。

7.根据权利要求6所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,文本相似度算法为生成短文本的向量并通过余弦相似度计算方法计算两个文本之间的相似性;余弦相似度的计算公式为:

8.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,还包括数据转换和存储,原始多源数据存储在Mysql数据库、文件数据库和MongoDB数据中,建立了多张实体属性表和实体三元组关系表,批量转换,三元组导入转换应为utf-8避免乱码;选择用Neo4j图数据库来存储知识图谱;对于Neo4j数据库的数据导入使用Neo4j-import工具导入整理好的结构化三元组知识数据形成最终的知识图谱,并通过Cyber语句查询操作,用于支持医学数据集数据元知识图谱实体、关系、属性和关系路径的问答交互。

9.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,还包括数据更新,具体为人口健康科学数据知识图谱的数据是跟随人口健康科学数据仓储/数据管理平台中的业务数据、操作数据的不断增长而动态更新的;新的数据集进入系统,获取其在系统中的关联数据进行自动处理和抽提,转化为碎片化具有语义关联的数据补充到人口健康科学数据知识图谱中,同时监测系统中的数据状态的变化,用户会随时更新其数据集内容或版本、而不同角色管理者或加工者会进行数据集状态的处理,需要定期或动态的进行知识图谱信息的更新,保证数据同步,记录版本的变化。

10.一种人口健康科学数据多维画像知识图谱构建系统,应用权利要求1-9任一所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,包括:

...

【技术特征摘要】

1.一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,包括:

2.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,所述对人口健康科学数据特征分析包括:

3.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,设计人口健康科学数据多维画像知识图谱的知识模型包括:

4.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,构造人口健康科学数据知识图谱构建的知识以及填充知识模型的实例数据的数据源由两部分组成:来自人口健康科学数据仓储/平台中的数据和外部关联的数据资源;包括结构化数据和非结构化数据,通过自然语言处理和人工智能方法将数据转化为“实体-关系-实体”的三元组和“实体-属性”对。

5.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,从人口健康科学数据进行实体抽取包括两部分,一部分是从人口健康科学数据仓储的结构化数据中提取,另一部分从非结构化数据中进行特定领域命名实体的识别和抽取,具体包括:

6.根据权利要求1所述的一种人口健康科学数据多维画像知识图谱构建方法,其特征在于,还包括定义了两个数据集之间的关联关系类型,定义为两种类型:“相关”和“不相关”关系,以及通过文本相似度算法对二者的关联性进行判断和测量数据集主题关联程度的高低,用于数据关联推荐的基础;计算对象为短文本,短文本包括人口健康科学数据集标题和数据集摘要。

7.根据权利要求6所述的一种人口健康科学数据多维画...

【专利技术属性】
技术研发人员:吴思竹
申请(专利权)人:中国医学科学院医学信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1