基于知识图谱的科技资源整合方法及系统技术方案

技术编号:25756402 阅读:30 留言:0更新日期:2020-09-25 21:05
本发明专利技术公开了一种基于知识图谱的科技资源整合方法及系统,其中,方法包括:收集网络中不同来源和结构的原始数据;对原始数据进行数据清洗,并统一数据格式,得到满足构建条件的处理数据;从处理数据中抽取科技知识;通过批量导入的方式,将抽取得到的科技知识进行数据形式转化,转化成图模式的知识图谱;根据知识图谱对同类型实体进行融合。该方法通过对多数据源科技资源领域知识图谱中的知识进行向量化,通过相似性计算进行融合,并从多数据源的科技资源获取着手,自底向上的构建了一个科技资源领域知识图谱,利用构建的科技资源领域知识图谱中实体之间的联系,获得了更好的科技资源整合效果。

【技术实现步骤摘要】
基于知识图谱的科技资源整合方法及系统
本专利技术涉及科技服务
,特别涉及一种基于知识图谱的科技资源整合方法及系统。
技术介绍
在科技服务领域,科技资源往往包含了论文、专利、科技成果、专家、机构等多个领域。现有的科技资源服务平台通常只包含部分领域或领域内的部分数据,并且不同的平台之间数据的组织格式和内容往往存在差异,使得用户在跨平台获取知识的时候往往会遇到很大的困难。近年来,知识图谱已成为现在计算机科学研究的热点,在专业性较强的科技资源领域构建知识图谱,既可以将不同平台之间的数据实现整合,也可以很好地展示平台中的科技资源数据。目前科技服务领域主要的科技资源管理和整合方式有:(1)基于人工整理的科技资源管理方法,主要以百科网站、国家各地方省市科技资源平台为代表,这些平台中的数据往往由相关科技资源的持有者或管理者进行资源的上传,将这些科技资源的信息经过人工整理之后提供给平台进行管理。是一种传统的基于人工的整合管理方案。(2)基于网络数据的科技资源平台,主要以第三方网站为主,这类网站中的数据往往通过购买、人工整理、网络获取等多个方式进行数据的获取,之后将这些数据采用不同的筛选整理算法进行过滤,最后将经过过滤的科技资源交付数据库进行管理,并通过互联网展示给用户使用。(3)基于知识图谱的方式,这种方式是采用知识图谱的方式对网络中的数据中包含的关系进行了抽象和整理,以发掘出科技资源中可能存在的新的关系,是一种基于实体关联性的新型方法。如上所述,目前针对科技资源的整合方法主要有:1)各个平台人工整理;2)基于网络数据获取的科技资源管理,该方法的手段主要是通过不同的方法尽可能的获取科技资源数据,并通过网络服务的方式展示给用户;3)基于知识图谱的科技资源管理方法,其主要目的是进行潜在关系挖掘和用户推荐。然而,方法1简单易于实现,但是需要大量的人工整理工作,随着网络上科技资源数据的不断增多,相应的人工整理成本也在不断提高;方法2是现在的主流方法,该方案的核心是数据获取,通过对网络中大量的科技资源数据进行获取,通过网络服务的方式进行展示,没有充分考虑到网络中科技资源之间的联系;方法3在潜在关系挖掘和推荐方面成果显著,但这些方法往往受限于知识图谱本身内容的丰富性和权威性限制,并且未充分考虑到网络中多数据平台中数据的整合问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于知识图谱的科技资源整合方法,该方法利用构建的科技资源领域知识图谱中实体之间的联系,获得了更好的科技资源整合效果。本专利技术的另一个目的在于提出一种基于知识图谱的科技资源整合系统。为达到上述目的,本专利技术一方面实施例提出了一种基于知识图谱的科技资源整合方法,包括:收集网络中不同来源和结构的原始数据;对所述原始数据进行数据清洗,并统一数据格式,得到满足构建条件的处理数据;从所述处理数据中抽取科技知识;通过批量导入的方式,将抽取得到的科技知识进行数据形式转化,转化成图模式的知识图谱;根据所述知识图谱对同类型实体进行融合。本专利技术实施例的基于知识图谱的科技资源整合方法,通过对多数据源科技资源领域知识图谱中的知识进行向量化,通过相似性计算进行融合,设计了一种多数据源下基于知识图谱的科技资源整合方案,从多数据源的科技资源获取着手,自底向上的构建了一个科技资源领域知识图谱,利用构建的科技资源领域知识图谱中实体之间的联系,获得了更好的科技资源整合效果。另外,根据本专利技术上述实施例的基于知识图谱的科技资源整合方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述收集网络中不同来源和结构的原始数据,进一步包括:将从其他来源获取的实体A作为初始搜索的关键词,在预设网站中进行搜索,将得到的半结构化数据进行筛选整理,其中的结构化部分作为属性,与所述实体A存储在数据库中,而剩下的非结构化数据,则单独进行存储,用以在后续的知识图谱的构建中获取更多的实体和关系;设置检索深度M,并将检索结果的前M条,同样进行迭代的检索,直到检索到所述检索深度M,则停止检索。进一步地,在本专利技术的一个实施例中,所述对所述原始数据进行数据清洗,并统一数据格式,得到满足构建条件的处理数据,进一步包括:将某些数据的基本信息根据数据来源的不同进行统一的插入或者设为空值,和/或,将错误的数据或者字段问题的数据进行统一处理,设为空值或者统一修改为预设值,或者,将命名或者组织差异的数据,根据相关的同义词库进行统一命名来进行数据的一致化。进一步地,在本专利技术的一个实施例中,所述根据所述知识图谱对同类型实体进行融合,具体包括:根据不同的数据来源进行权威度排序,将科技资源实体内容向量化后,通过计算相似度的方法进行相似的资源的融合,且对于融合后的同一字段,取权威度满足预设条件的字段作为新实体的内容。进一步地,在本专利技术的一个实施例中,所述相似度的计算公式为:C=(AxB)/(|A|*|B|),其中,A和B表述实体。为达到上述目的,本专利技术另一方面实施例提出了一种基于知识图谱的科技资源整合系统,包括:科技资源采集模块,用于收集网络中不同来源和结构的原始数据;科技资源处理模块,用于对所述原始数据进行数据清洗,并统一数据格式,得到满足构建条件的处理数据;科技知识抽取模块,用于从所述处理数据中抽取科技知识;科技资源存储模块,用于通过批量导入的方式,将抽取得到的科技知识进行数据形式转化,转化成图模式的知识图谱;科技资源整合模块,用于根据所述知识图谱对同类型实体进行融合。本专利技术实施例的基于知识图谱的科技资源整合系统,通过对多数据源科技资源领域知识图谱中的知识进行向量化,通过相似性计算进行融合,设计了一种多数据源下基于知识图谱的科技资源整合方案,从多数据源的科技资源获取着手,自底向上的构建了一个科技资源领域知识图谱,利用构建的科技资源领域知识图谱中实体之间的联系,获得了更好的科技资源整合效果。另外,根据本专利技术上述实施例的基于知识图谱的科技资源整合系统还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述科技资源采集模块进一步用于:将从其他来源获取的实体A作为初始搜索的关键词,在预设网站中进行搜索,将得到的半结构化数据进行筛选整理,其中的结构化部分作为属性,与所述实体A存储在数据库中,而剩下的非结构化数据,则单独进行存储,用以在后续的知识图谱的构建中获取更多的实体和关系;设置检索深度M,并将检索结果的前M条,同样进行迭代的检索,直到检索到所述检索深度M,则停止检索。进一步地,在本专利技术的一个实施例中,所述科技资源处理模块进一步用于将某些数据的基本信息根据数据来源的不同进行统一的插入或者设为空值,和/或,将错误的数据或者字段问题的数据进行统一处理,设为空值或者统一修改为预设值,或者,将命名或者组织差异的数据,根据相关的同义词库进行统一命名来进行数据的一致化。进一步地,在本专利技术的一个实施例中,所述科技资源整合模块具体用于根据本文档来自技高网
...

【技术保护点】
1.一种基于知识图谱的科技资源整合方法,其特征在于,包括:/n收集网络中不同来源和结构的原始数据;/n对所述原始数据进行数据清洗,并统一数据格式,得到满足构建条件的处理数据;/n从所述处理数据中抽取科技知识;/n通过批量导入的方式,将抽取得到的科技知识进行数据形式转化,转化成图模式的知识图谱;以及/n根据所述知识图谱对同类型实体进行融合。/n

【技术特征摘要】
1.一种基于知识图谱的科技资源整合方法,其特征在于,包括:
收集网络中不同来源和结构的原始数据;
对所述原始数据进行数据清洗,并统一数据格式,得到满足构建条件的处理数据;
从所述处理数据中抽取科技知识;
通过批量导入的方式,将抽取得到的科技知识进行数据形式转化,转化成图模式的知识图谱;以及
根据所述知识图谱对同类型实体进行融合。


2.根据权利要求1所述的方法,其特征在于,所述收集网络中不同来源和结构的原始数据,进一步包括:
将从其他来源获取的实体A作为初始搜索的关键词,在预设网站中进行搜索,将得到的半结构化数据进行筛选整理,其中的结构化部分作为属性,与所述实体A存储在数据库中,而剩下的非结构化数据,则单独进行存储,用以在后续的知识图谱的构建中获取更多的实体和关系;
设置检索深度M,并将检索结果的前M条,同样进行迭代的检索,直到检索到所述检索深度M,则停止检索。


3.根据权利要求1所述的方法,其特征在于,所述对所述原始数据进行数据清洗,并统一数据格式,得到满足构建条件的处理数据,进一步包括:
将某些数据的基本信息根据数据来源的不同进行统一的插入或者设为空值,和/或,将错误的数据或者字段问题的数据进行统一处理,设为空值或者统一修改为预设值,或者,将命名或者组织差异的数据,根据相关的同义词库进行统一命名来进行数据的一致化。


4.根据权利要求1所述的装置,其特征在于,所述根据所述知识图谱对同类型实体进行融合,具体包括:
根据不同的数据来源进行权威度排序,将科技资源实体内容向量化后,通过计算相似度的方法进行相似的资源的融合,且对于融合后的同一字段,取权威度满足预设条件的字段作为新实体的内容。


5.根据权利要求4所述的方法,其特征在于,所述相似度的计算公式为:
C=(AxB)/(|A|*|B|),
其中,A和B表述实体。
...

【专利技术属性】
技术研发人员:欧中洪苏杭宋美娜
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1