利用知识图谱来存储文物数据的方法、处理器及存储介质技术

技术编号:30234925 阅读:24 留言:0更新日期:2021-09-29 10:14
本申请涉及数字化领域,具体涉及一种利用知识图谱来存储文物数据的方法、处理器及存储介质。方法包括获取多个文物数据,根据文物数据组成对应的文物数据集;对文物数据集进行清洗和预处理;对处理后的文物数据集进行实体和实体关系的抽取;根据实体和实体关系构建文物数据对应的文物知识图谱。该技术方案可以通过对获取的海量多源异构的文物数据进行处理,并通过对处理后的数据进行操作以构建与文物数据对应的文物知识图谱,使得可以基于文物知识图谱对文物数据进行操作和使用,在对文物知识进行检索时,基于文物知识图谱可以得到更高的准确率并且使得对目标知识的查询以及相关知识的查询更加便捷迅速。识的查询更加便捷迅速。识的查询更加便捷迅速。

【技术实现步骤摘要】
利用知识图谱来存储文物数据的方法、处理器及存储介质


[0001]本申请涉及数字化领域,具体涉及一种利用知识图谱来存储文物数据的方法、处理器及存储介质。

技术介绍

[0002]知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
[0003]目前的文物数字化工作已经取得了一定的进展,但主要局限于文物基本信息存储、数量统计及传统的关键词检索方式,而且传统检索方式的结果只是多条信息链接的罗列, 尚未构建文物的全景知识图谱。
[0004]在传统方法中,难以做到将海量、多源、异构的文物领域数据,通过自然语言处理、知识图谱等技术进行解析和组织,构建文物领域的知识图谱。

技术实现思路

[0005]本申请的目的是为了克服现有技术存在的尚未构建文物的全景知识图谱问题,提供一种利用知识图谱来存储文物数据的方法、处理器及存储介质。该技术方案可以通过对获取的海量多源异构的文物数据进行处理,并通过对处理后的数据进行操作以构建与文物数据对应的文物知识图谱。
[0006]为了实现上述目的,本申请一方面提供一种利用知识图谱来存储文物数据的方法,包括:获取多个文物数据,根据文物数据组成对应的文物数据集;对文物数据集进行清洗和预处理;对处理后的文物数据集进行实体和实体关系的抽取;根据实体和实体关系构建文物数据对应的文物知识图谱。
[0007]在本申请实施例中,对文物数据集进行清洗和预处理包括:对文物数据集进行检测;利用Spark的重复数据分析方法对文物数据集中的重复数据进行删除;利用相关性检测对文物数据集中的无关数据进行删除;根据数据处理规则对文物数据集中的缺失数据进行删除和/或插补;利用数据平滑处理方法对文物数据集中的噪声数据进行处理。
[0008]在本申请实施例中,对处理后的文物数据集进行实体和实体关系的抽取包括:将清洗和预处理完成的文物数据集确定为文物数据模型;识别文物数据模型中的实体和实体关系;对符合预设规则的实体进行抽取。
[0009]在本申请实施例中,方法还包括:对文物数据模型中的文物数据进行检测,确定符
合预设模式的文物数据;通过建立分词词典和使用正则匹配法识别预设模式的文物数据中的实体;通过正则匹配法对实体进行过滤,以抽取符合预设规则的实体。
[0010]在本申请实施例中,方法还包括:确定文物知识图谱中文物数据的数据来源;根据数据来源确定文物知识图谱的图谱数据;根据图谱数据对文物知识图谱的实体进行实体存储、查询和在线编辑操作中的至少一者;对实体的属性和关系进行增加、删除、更改操作中至少一者。
[0011]在本申请实施例中,方法还包括:利用TransE方法确定文物知识图谱中每个实体对,实体对包括主体和客体,以及主体与客体之间的关系;确定每个实体对的置信度;按照置信度从大至小的顺序对实体对进行排序;选择预设数量个置信度较高的实体对作为符合预设逻辑规则的实体关系实例;对实体关系实例进行分析与推理,确定存在隐藏关系的实体对。
[0012]在本申请实施例中,方法还包括:基于文物知识图谱生成文物知识图谱的可视化关联图。
[0013]在本申请实施例中,方法还包括:基于文物知识图谱生成文物知识图谱的可视化关联图。在本申请实施例中,方法还包括:获取关键词,在文物知识图谱中查找与关键词对应的目标实体;通过关联节点显示可视化关联图中目标实体与其他相关实体的关联关系;在文物知识图谱中通过关联节点查找与关联节点对应的实体。
[0014]本申请第二方面提供了一种处理器,被配置成执行上述任意实施例汇总的利用知识图谱来存储文物数据的方法。
[0015]本申请第三方面提供了一种存储介质,该机器可读存储介质上存储有指令,该指令在被上述处理器执行时使得上述处理器执行上述任意一个实施例中的利用知识图谱来存储文物数据的方法。
[0016]通过上述技术方案,可以通过对海量多源异构的文物数据进行清洗和预处理,并对处理后的文物数据进行实体和实体关系的抽取,以建立与文物数据对应的文物知识图谱,使得可以基于文物知识图谱对文物数据进行操作和使用,在对文物知识进行检索时,基于文物知识图谱可以得到更高的准确率并且使得对目标知识的查询以及相关知识的查询更加便捷迅速。
附图说明
[0017]图1示意性示出了根据本申请一实施例的利用知识图谱来存储文物数据的方法的流程示意图;图2示意性示出了根据本申请一实施例的文物知识图谱系统的结构框图;图3示意性示出了根据本申请实施例的计算机设备的内部结构图。
具体实施方式
[0018]以下结合附图对本申请的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本申请,并不用于限制本申请。
[0019]需要说明,若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后
……
),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、
运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
[0020]另外,若本申请实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
[0021]如图1示意性示出了根据本申请实施例的利用知识图谱来存储文物数据的方法的流程示意图,如图1所示,在本申请一实施例中,提供了一种利用知识图谱来存储文物数据的方法,包括以下步骤:步骤101,获取多个文物数据,根据文物数据组成对应的文物数据集;文物知识图谱需要基于海量、多源、异构文物数据进行构建,多源主要指数据来源多样化,异构主要指数据结构上的差异性。处理器可以获取多个多源异构的文物数据,例如,结构化数据、半结构化数据、非结构化数据以及时空数据。其中结构化数据可以是以人或者机构的ID为锚点来聚合不同的信息数据,非结构化数据可以是以视频、图像、语音和文本为代表,后续大多需要经过分析处理变成结构化数据才能被使用的数据,时空数据是同时具有时间和空间维度的以地理信息数据为代表的数据。处理器在通过多种数据来源获得海量的不同结构的数据后,可以将文物数据组成对应的文物数据集。
[0022]步骤102,对文物数据集进行清洗和预处理。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用知识图谱来存储文物数据的方法,其特征在于,所述方法包括:获取多个文物数据,根据所述文物数据组成对应的文物数据集;对所述文物数据集进行清洗和预处理;对处理后的文物数据集进行实体和实体关系的抽取;根据所述实体和所述实体关系构建所述文物数据对应的文物知识图谱。2.根据权利要求1所述的方法,其特征在于,所述对所述文物数据集进行清洗和预处理包括:对所述文物数据集进行检测;利用Spark的重复数据分析方法对所述文物数据集中的重复数据进行删除;利用相关性检测对所述文物数据集中的无关数据进行删除;根据数据处理规则对所述文物数据集中的缺失数据进行删除和/或插补;利用数据平滑处理方法对所述文物数据集中的噪声数据进行处理。3.根据权利要求1所述的方法,其特征在于,所述对处理后的文物数据集进行实体和实体关系的抽取包括:将清洗和预处理完成的文物数据集确定为文物数据模型;识别所述文物数据模型中的实体和实体关系;对符合预设规则的实体进行抽取。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:对所述文物数据模型中的文物数据进行检测,确定符合预设模式的文物数据;通过建立分词词典和使用正则匹配法识别所述预设模式的文物数据中的实体;通过所述正则匹配法对所述实体进行过滤,以抽取符合所述预设规则的实体。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述文物知识图谱中所述文物数据的数据来源;根据所述数据来源确定...

【专利技术属性】
技术研发人员:刘俊中
申请(专利权)人:北京泽云瑞弘信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1