【技术实现步骤摘要】
一种面向营养健康的知识图谱构建方法和系统
本专利技术涉及大数据处理领域,具体涉及一种面向营养健康的知识图谱构建方法和系统。
技术介绍
目前,随着语义网的不断发展,万维网中含有越来越多的本体的形式的知识。本体作为一种新颖的知识表现形式,在语义网的发展扮演着极其重要的作用,基于本体的应用也越来越多。随着语义网中的本体的不断增加,必然存在相关或相同的应用领域存在相近或相同的本体,由于这些本体的来源不同,本体的构建方式不同,因此这些本体之间可以信息互补,因此要建立一个完善的知识图谱,必须基于多种不同的数据源。由于数据源不同,本体的构建方式不同,语义异构成了构建知识图谱的最大的问题。近年来,国内外虽然有很多新的系统被研发出来,但是依然没有综合针对食谱、食材、营养素、疾病症状、人群、中医体质和运动领域知识图谱,仅仅已有的领域无关的图谱,无法挖掘依然没有综合针对食谱、食材、营养素、疾病症状、人群、中医体质和运动领域的更深层次的信息,因此,创建的知识图谱达不到实用的标准。
技术实现思路
本专利技术提供一种面向营养健康的知识图谱构建方法和系统,建立完善的面向营养健康知识图谱。为了实现上述专利技术目的,本专利技术采取的技术方案如下:第一方面,本专利技术提供一种面向营养健康的知识图谱构建方法,包括:确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;r>根据各数据源的索引信息确定所述实体之间的关联关系;根据所述实体以及所述实体之间的关联关系建立所述知识图谱。优选地,所述数据源至少包括以下之一:网页以及书籍。优选地,所述根据各数据源的索引信息确定所述实体之间的关联关系包括:所述数据源为网页,所述索引信息为所述网页中的超链接;当所述超链接跳转的页面为另一实体的介绍页时,建立所述跳转页面介绍的实体与当前实体的关系;对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容;当所述超链接跳转的页面不是已有实体的介绍页时,判断所述跳转页面介绍的实体是否与所述知识图谱相关;当所述跳转页面介绍的实体与所述知识图谱无关时,则忽略所述跳转页面介绍的实体;当所述跳转页面介绍的实体与所述知识图谱相关时,则补充所述跳转页面介绍的实体的定义,并创建所述跳转页面介绍的实体与当前实体的关系,对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容。优选地,所述根据各数据源的索引信息确定所述实体之间的关联关系包括:所述数据源为书籍,所述索引信息为所述书籍中的目录以及参考文献信息;当所述目录或者参考文件信息是另一实体的描述时,建立所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容;当所述目录或者参考文件信息不是已有实体的描述时,判断所述描述的实体是否与所述知识图谱相关;当所述描述的实体与所述知识图谱无关时,则忽略描述的实体;当所述描述的实体与所述知识图谱相关时,则补充所述描述的实体定义,并创建所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容。优选地,根据各数据源的索引信息确定所述实体之间的关联关系之后还包括:根据所述实体之间的关联关系进行关系推理;根据关系的传递性和所述实体之间的关联关系,推理出实体之间没有介绍的潜在的关系;根据所述实体的特征和所述实体之间存在的关联关系,推理出具有相似特征的其它实体与所述实体之间的关联关系。优选地,收集与营养健康相关的本体数据包括以下至少之一:通过网页爬虫技术从营养健康相关的网站中获得本体数据;通过文字识别技术从营养健康相关的书籍中获得本体数据。优选地,为每个数据源建立一个本体结构包括:从数据源的层级结构和/或目录信息中建立对应的多个结构树,并提取每个节点的关键字作为标签;按照所述标签对所获得的多个结构树进行合并获得本体结构。优选地,按照所述标签对所获得的多个结构树进行合并获得本体结构树包括:添加抽象父节点,按照所述标签对所获得的多个结构树合并至成一个结构树;比较合并后的结构树的同一层节点的名称,将名称相同的节点作为同一本体对象;如果存在多个同名对象,则比较其标签;如果标签不同,则将同名对象合并;如果标签相同而描述不同,则确定同名对象冲突;将合并后的结构树作为本体结构。优选地,根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体包括:如果本体结构的节点是可合并的,则合并不同数据源的数据,形成对应的实体结构;如果本体结构的节点是冲突的,则舍弃标记的数据源的数据,形成对应的实体结构;如果本体结构树的节点为非合并或非冲突的,则提取所述数据源的数据;形成对应的实体结构。第二方面,本专利技术还提供一种面向营养健康的知识图谱构建系统,其特征在于,包括:建立模块,被配置为确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;合并模块,被配置为根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;关系模块,被配置为根据各数据源的索引信息确定所述实体之间的关联关系;图谱模块,被配置为根据所述实体以及所述实体之间的关联关系建立所述知识图谱。本专利技术完成针对营养健康领域的知识图谱的构建,建立完善的知识图谱。具有如下有益效果:1、本专利技术获取多个数据源中涉及食谱、食材、营养素、疾病症状、人群、中医体质、运动的本体数据,针对不同数据源采用不同的数据获取方式,实现准确、全面的获取本体数据;2、本专利技术综合多个领域和多个数据源的本体数据,建立完善的跨领域的本体结构,进而建立完善的知识图谱;3、本专利技术根据已存在的实体之间的关联关系,可以推理出诸多潜在的关系,大大提升知识图谱的实用性;4、本专利技术对于同一数据源的多个领域获得的本体数据存在冲突时,采用节点标签比较的方式进行合并处理,有很好的处理效果,本体的内容相比单一自然文本所描述的更加丰富准确;5、本专利技术对于不同数据源获得的本体结构,通过合并或舍弃的方式梳理实体的属性;6、本专利技术针对食谱、食材、营养素、疾病症状、人群、中医体质、运动多个领域,综合本体数据,基于已有的关系推导出不同领域下在自然文本中都没有明确提及实体之间的关系,可以很好的完善知识图谱的逻辑关系。附图说明图1为本专利技术实施例的面向营养健康的知识图谱构建方法的流程图;图2为本专利技术实施例的关系推理的示意图;图3为本专利技术本文档来自技高网...
【技术保护点】
1.一种面向营养健康的知识图谱构建方法,其特征在于,包括:/n确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;/n根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;/n根据各数据源的索引信息确定所述实体之间的关联关系;/n根据所述实体以及所述实体之间的关联关系建立所述知识图谱。/n
【技术特征摘要】
1.一种面向营养健康的知识图谱构建方法,其特征在于,包括:
确定营养健康相关的数据源,从中收集与营养健康相关的本体数据,并分别为每个数据源建立一个本体结构;
根据所述本体结构抽取对应数据源中的数据以映射形成与所述本体结构中各节点相对应的实体;
根据各数据源的索引信息确定所述实体之间的关联关系;
根据所述实体以及所述实体之间的关联关系建立所述知识图谱。
2.如权利要求1所述的方法,其特征在于,所述数据源至少包括以下之一:网页以及书籍。
3.如权利要求2所述的方法,其特征在于,所述根据各数据源的索引信息确定所述实体之间的关联关系包括:
所述数据源为网页,所述索引信息为所述网页中的超链接;
当所述超链接跳转的页面为另一实体的介绍页时,建立所述跳转页面介绍的实体与当前实体的关系;对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容;
当所述超链接跳转的页面不是已有实体的介绍页时,判断所述跳转页面介绍的实体是否与所述知识图谱相关;
当所述跳转页面介绍的实体与所述知识图谱无关时,则忽略所述跳转页面介绍的实体;
当所述跳转页面介绍的实体与所述知识图谱相关时,则补充所述跳转页面介绍的实体的定义,并创建所述跳转页面介绍的实体与当前实体的关系,对超链接跳转名进行语义解析,根据语义解析结果确定所述跳转页面介绍的实体与当前实体的关系的内容。
4.如权利要求2所述的方法,其特征在于,所述根据各数据源的索引信息确定所述实体之间的关联关系包括:
所述数据源为书籍,所述索引信息为所述书籍中的目录以及参考文献信息;
当所述目录或者参考文件信息是另一实体的描述时,建立所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容;
当所述目录或者参考文件信息不是已有实体的描述时,判断所述描述的实体是否与所述知识图谱相关;
当所述描述的实体与所述知识图谱无关时,则忽略描述的实体;
当所述描述的实体与所述知识图谱相关时,则补充所述描述的实体定义,并创建所述描述的实体与当前实体的关系;对目录名称或参考文献名称进行语义解析,根据语义解析结果确定所述描述的实体与当前实体的关系的内容。
5.如权利要求3或4所述的方法,其特征在于,根据各数据源的索引信息确定所述实...
【专利技术属性】
技术研发人员:朱泽春,钟敬德,刘旭,
申请(专利权)人:九阳股份有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。