System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种生物医学数据集标准数据元的知识图谱构建方法及系统技术方案_技高网

一种生物医学数据集标准数据元的知识图谱构建方法及系统技术方案

技术编号:42218402 阅读:7 留言:0更新日期:2024-07-30 18:58
本发明专利技术公开了一种生物医学数据集标准数据元的知识图谱构建方法及系统,涉及医学数据处理技术领域,收集不同类型的生物医学数据集数据元的相关标准文本和生物医学数据集相关标准的数据;并进行分析和归纳;构建生物医学数据集标准数据元知识图谱的知识模型;从结构化数据和结构化数据中的非结构化文本抽取实体类型数据及属性数据;根据建立的实体类型之间的语义关联关系类型,进行多类数据的知识融合,得到生物医学数据集标准数据元知识图谱。本发明专利技术不仅增强领域数据集元数据和数据元、分类、值域标准的可用性和利用率,而且还实现数据元的统一和数据集创建的规范性以及提高机器可读性和语义互操作性。

【技术实现步骤摘要】

本专利技术涉及医学数据处理,更具体的说是涉及一种生物医学数据集标准数据元的知识图谱构建方法及系统


技术介绍

1、目前,生物医学数据共享可提高医学研究效率,增强医学研究透明性,学术领域对研究复现和数据的公开也提出了硬性要求,越来越多的医学研究人员选择将原始生物医学数据公开乃至共享,但生物医学数据有着高复杂性语义,容易出现同义、歧义等情况,而共享的生物医学数据缺乏在数据字段或值域层面的统一标准和规范,导致数据语义模糊、不同数据集间无法比对和联合分析,例如,数据集中字段或变量“性别”的英文名称可以用gender或sex表示,值域上可以直接用文字表示为男性、女性,也可以用数值0和1的表示,0表示男性、1表示女性。如果没有统一的数据元名称和值域规范,对于不同数据集的同一语义的字段或变量就没有办法进行集成整合或者联合分析,研究者也难以理解数据语义和进行分析利用,极大地阻碍了数据共享。由此,数据集的元数据和数据元标准非常重要,能够规范和统一数据结构及语义表达。但当前的数据标准多以标准规范形式发布为pdf等非结构化形式,很多临床专业领域的数据集标准中涉及的数据元达200-300多个,而且不同数据元可能定义或使用了不同的值域,现仅能提供文本查找阅读和理解,而在数据元数据创建时很难有效利用、机器可读、可处理性差,这也是标准难以被应用和实施的原因。

2、因此,如何在增强领域数据集元数据和数据元、分类、值域标准的可用性和利用率的基础上,提高机器可读性和语义互操作性是本领域技术人员亟需解决的问题。


技术实现思路</b>

1、有鉴于此,本专利技术提供了一种生物医学数据集标准数据元的知识图谱构建方法及系统,收集生物医学科学数据领域的数据集标准和分类、值域标准,进行碎片化和规范化处理,并通过词性、语义计算等进行数据元语义归并建立有效关联。而后设计生物医学数据集数据元知识模式和构建知识图谱,用于支持领域数据字段/变量的标准化和其值域标准化。本专利技术以生物医学数据集标准数据元为例,方法可推广到其他领域数据集的数据元知识图谱的设计和实现。以此一方面可以增强领域数据集元数据和数据元、分类、值域标准的可用性和利用率,另一方面有助于实现数据元的统一和数据集创建的规范性、细化和丰富跨数据集标准、数据元集合、数据元、数据元概念、数据值域之间的关联,以及提高机器可读性和语义互操作性。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、一种生物医学数据集标准数据元的知识图谱构建方法,包括:

4、收集不同类型的生物医学数据集数据元的相关标准文本和生物医学数据集相关标准的数据;

5、通过对收集数据元的相关标准文本和生物医学数据集相关标准的数据进行分析和归纳,用于支持构建生物医学数据集标准数据元知识图谱的知识模型和进行数据的解析和细粒度内容抽取;

6、构建生物医学数据集标准数据元知识图谱的知识模型,定义实体类型并同时建立各实体类的属性和实体类型之间的语义关联关系类型;

7、从结构化数据和结构化数据中的非结构化文本抽取实体类型数据及属性数据;

8、根据建立的实体类型之间的语义关联关系类型,进行多类数据的知识融合,得到生物医学数据集标准数据元知识图谱。

9、可选的,通过对不同类型的生物医学数据集数据元的相关标准文本,进行ocr识别+nlp自然语言处理方法解析文本,得到结构化数据和结构化数据中的非结构化文本。

10、可选的,还包括知识图谱的存储与质量检查;存储,建立多张实体属性表和实体三元组关系表,批量转换,三元组导入转换为utf-8,用neo4j图数据库来存储知识图谱;检查,将所有三元组数据导入neo4j之后,进行数据抽查,核对三元组数据的正确性,保证实体类型和关联关系的正确性。

11、可选的,所述从结构化数据抽取实体类型数据及属性数据的具体过程为:

12、通过人机结合的方式进行文本内容的识别和提取;提取后的内容需进行数据清洗、数据审核和数据质控,标识类数据结合明确规定的编码规则要求编写正则表达式,对不同编码进行拼写检查和质控,对于有问题的标识进行修正,并对标识进行统一;提取的内容中存在识别错误、无用空格和换行、乱码和遗漏的情况,由人工进行补充和修改,完成所有文本内容的提取和整理,形成初步的结构化数据。

13、可选的,所述从结构化数据中的非结构化文本抽取实体类型数据及属性数据的具体过程为:

14、从结构化数据中的非结构化文本中借助领域词表或机器学习方法识别抽取及标注,对实体类型进行人工标注和审核质控,用于丰富和增强数据集标准和数据元的领域特征和应用场景特征,进而实现更细粒度和更多维度内容的揭示。

15、可选的,实体类型之间的关联关系具体包括:数据标准之间的关系、数据元集和数据元之间的关系、数据元与数据元概念之间的关系、数据元之间的关系、数据元与值域之间的关系、数据集标准与医学量表/问卷的关系、数据元与医学量表/问卷的关系;其中数据标准层面的关系是多元的;数据标准与数据元集合是包含关系,数据元集合和数据元是包含关系,数据元集合下包含多个数据元;数据元之间的关系包括3类:同义关系、相关关系、无关关系;数据元值域根据值域来源和使用方式划分为枚举引它型、枚举自引型、枚举定义型和非枚举型四种类型;数据集标准中使用了医学量表,量表名称和信息从文本中提取,通过补足量表资源建立连接;数据元为医学量表规范化的数据库存储名称,建立数据元和特定医学量表之间的关联。

16、可选的,数据元之间的关系判断方法:

17、识别完数据元概念后,进行数据元同义关系识别,如果在任何同一医学领域主题词表中,数据元的概念相同,则两个数据元为同义关系,相似度标记为1;

18、如果非同义关系,则进入数据元相似度计算程序,两个标准编码和数据元标识完全不同的数据元进行相似度计算,计算方法采用了jaccard相似度,集合的交集和并集的比值,计算公式如下:

19、

20、其中e1,e2分别表示两个数据元,每个数据元的文本被进行分词处理,e为该数据元的数据元名称和数据元定义组成的分词文本,sim_ele_name()表示数据元相似度,a表示e1的分词文本,b表示e2的分词文本,最终相似度结果控制在[0,1]范围;

21、如果两个数据元非同义,则根据计算公式计算第一数据元和第二数据元的相似度值;如果两个数据元的相似度大于数据元同义阈值,二者为候选同义关系;

22、如果两个数据元的相似度大于数据元相关阈值,小于数据元同义阈值,二者为候选相关关系;

23、如果相似度小于数据元相关阈值,仅记录二者相似度值,则标记二者关系为无关。

24、可选的,判断数据元和值域的类型与关系方法如下:

25、a,数据元和对应值域,判断数据元的允许值是否包含标准号或值域代码表编号或名称,通过编码规则库进行判断,如果包括则为枚举引用;如果没有跳转进入下一条件判断;

...

【技术保护点】

1.一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,包括:

2.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,通过对不同类型的生物医学数据集数据元的相关标准文本,进行OCR识别+NLP自然语言处理方法解析文本,得到结构化数据和结构化数据中的非结构化文本。

3.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,还包括知识图谱的存储与质量检查;存储,建立多张实体属性表和实体三元组关系表,批量转换,三元组导入转换为utf-8,用Neo4j图数据库来存储知识图谱;检查,将所有三元组数据导入neo4j之后,进行数据抽查,核对三元组数据的正确性,保证实体类型和关联关系的正确性。

4.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,所述从结构化数据抽取实体类型数据及属性数据的具体过程为:

5.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,所述从结构化数据中的非结构化文本抽取实体类型数据及属性数据的具体过程为

6.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,实体类型之间的关联关系具体包括:数据标准之间的关系、数据元集和数据元之间的关系、数据元与数据元概念之间的关系、数据元之间的关系、数据元与值域之间的关系、数据集标准与医学量表/问卷的关系、数据元与医学量表/问卷的关系;其中数据标准层面的关系是多元的;数据标准与数据元集合是包含关系,数据元集合和数据是包含关系,数据元集合下包含多个数据元;数据元之间的关系包括3类:同义关系、相关关系、无关关系;数据元值域根据值域来源和使用方式划分为枚举引它型、枚举自引型、枚举定义型和非枚举型四种类型;数据集标准中使用了医学量表,量表名称和信息从文本中提取,通过补足量表资源建立连接;数据元为医学量表规范化的数据库存储名称,建立数据元和特定医学量表之间的关联。

7.根据权利要求6所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,数据元之间的关系判断方法:

8.根据权利要求6所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,判断数据元和值域的类型与关系方法如下:

9.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,所述多类数据的知识融合具体包括:

10.一种生物医学数据集标准数据元的知识图谱构建系统,应用于如权利要求1-9任一所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,包括以下模块:

...

【技术特征摘要】

1.一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,包括:

2.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,通过对不同类型的生物医学数据集数据元的相关标准文本,进行ocr识别+nlp自然语言处理方法解析文本,得到结构化数据和结构化数据中的非结构化文本。

3.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,还包括知识图谱的存储与质量检查;存储,建立多张实体属性表和实体三元组关系表,批量转换,三元组导入转换为utf-8,用neo4j图数据库来存储知识图谱;检查,将所有三元组数据导入neo4j之后,进行数据抽查,核对三元组数据的正确性,保证实体类型和关联关系的正确性。

4.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,所述从结构化数据抽取实体类型数据及属性数据的具体过程为:

5.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,所述从结构化数据中的非结构化文本抽取实体类型数据及属性数据的具体过程为:

6.根据权利要求1所述的一种生物医学数据集标准数据元的知识图谱构建方法,其特征在于,实体类型之间的关联关系具体包括:数据标准之间的关系、数据...

【专利技术属性】
技术研发人员:吴思竹胡拯涌修晓蕾王安然
申请(专利权)人:中国医学科学院医学信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1