一种基于多模态语义特征的档案知识图谱构建方法技术

技术编号:38217436 阅读:7 留言:0更新日期:2023-07-25 11:27
本发明专利技术公开了一种基于多模态语义特征的档案知识图谱构建方法包括:导入档案领域知识图谱构建框架设计所包含的档案信息;根据档案数据的来源及其数据类型,将数据进行知识图谱模式层构建;对档案信息进行数据预处理与数据标注,并将数据进行分类;将档案信息进行多模态信息抽取;通过知识因子及其关联关系进行知识融合,对知识抽取所得到的实体进行实体消歧、共指消解,最终通过图谱可视化构建可视化的档案知识图谱。本发明专利技术确保知识图谱本体的完备性和可靠性;有效解决单实体重叠存在的问题,同时为文本类档案管理与利用提供了技术支撑;通过OCR技术挖掘出图像中蕴含的有价值的信息,构建可视化的档案知识图谱。构建可视化的档案知识图谱。

【技术实现步骤摘要】
一种基于多模态语义特征的档案知识图谱构建方法


[0001]本专利技术涉及档案知识图谱构建
,具体为一种基于多模态语义特征的档案知识图谱构建方法。

技术介绍

[0002]目前在知识图谱构建过程中,只考虑了文本单模态数据特征,对于同一语义特征的数据表征能力有限,挖掘出的关键特征不够丰富;其次在进行知识挖掘时,一般采用word2vec、CNN、RNN来获取词特征,获取的特征不全面且存在很多冗余特征;同时在实体关系联合抽取阶段,实体太多难以构建,缺乏模型来进行自动实体属性关联,对于实体属性较多的领域难以实现,同时会存在实体三元组重叠的问题。传统的知识图谱构建方法对于数据的利用不够充分,缺乏对知识体系的整体把控,只是难以贯通应用,缺乏对相关业务的认知推理,难以适应领域业务的实际发展。
[0003]为了丰富知识图谱的语义信息,本专利技术在海量语料库的基础上融合了海量档案数据,并在文本语义特征的基础上创新性地融合了视觉特征,数据间跨模态学习语义特征,提升了知识图谱的语义表征性能,能够获取更高层的抽象语义特征,知识图谱的推理和可解释性更强,构建的知识图谱更为完备、丰富和准确。

技术实现思路

[0004]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于上述存在的问题,提出了本专利技术。/>[0006]因此,本专利技术解决的技术问题是:现有的档案知识图谱构建方法存在对于实体属性较多的领域难以实现,同时会存在实体三元组重叠的问题,以及如何构建更为完备、丰富和准确的知识图谱问题。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:一种基于多模态语义特征的档案知识图谱构建方法,包括:
[0008]导入档案领域知识图谱构建框架设计所包含的档案信息;
[0009]根据档案数据的来源及其数据类型,将数据进行知识图谱模式层构建;
[0010]对档案信息进行数据预处理与数据标注,并将数据进行分类;
[0011]将档案信息进行多模态信息抽取;
[0012]最后通过知识因子及其关联关系进行知识融合,对知识抽取所得到的实体进行实体消歧、共指消解,最终通过图谱可视化构建可视化的档案知识图谱。
[0013]作为本专利技术所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:档案领域知识图谱构建框架设计,包括:同时结合了自顶向下和自底向上两种知识构建方法。既结合了档案领域的专家相关经验知识,又能够发现新知识。
[0014]作为本专利技术所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述知识图谱模式层构建包括:定义档案数据类及其类的层次结构;定义档案实体类;定义档案实体间关系及其属性;数据维度划分。
[0015]作为本专利技术所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述数据预处理与数据标注为:判断文本数据、图像数据是否出现无关、冗余信息;
[0016]若出现这类信息则判断是否需要清除,并在清除后保证信息的完整性;
[0017]若判断为不需要清除或不存在此类信息,则保留原有数据;
[0018]并根据实体关系联合抽取模型的需要进行标注。
[0019]作为本专利技术所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述多模态信息抽取包括:
[0020]文本模态信息抽取阶段主要采用基于改进GCN的实体关系联合抽取方法来抽取档案中的实体关系信息。文本模态信息抽取主要包括:多粒度特征提取层、BiGCN区域特征提取层、节点关系注意力机制、BiGCN交互特征提取和实体和关系预测。
[0021]作为本专利技术所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述文本模态信息抽取阶段还包括:
[0022]两个阶段GCN编码器产生的节点输出进行实体和关系的预测后,需要将GCN两阶段的损失进行计算;
[0023][0024][0025][0026]其中,Le和Lrel分别是实体和关系的损失,a是第一阶段和第二阶段的loss权重比例,实体和关系的损失值均使用交叉熵损失函数进行计算,训练过程中通过端到端的方式将损失值降到最低。
[0027]作为本专利技术所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述多模态信息抽取还包括:
[0028]在图像识别阶段,需要对人脸数据进行预处理,预处理主要包括:人脸检测、人脸特征归一化;人脸检测中采用MTCNN来进行人脸检测,得到人脸特征进行归一化处理;然后采用基于LResnet的人脸识别方法来获取企业中重要人物。
[0029]作为本专利技术所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:结合OCR识别出图像中的包含的文字:
[0030]使用DBNet文本检测模型,检测出档案图像数据中存在的文本位置。DBnet文本检测计算公式如下所示:
[0031][0032]使用CRNN文本内容识别模型,识别上一步检测到的文本图像对应的文本内容,最终得到图片中的文本位置及对应的文本内容;CRNN计算公式如下所示:
[0033][0034][0035]其中,其中k是放大因子,P
i,j
是概率,T
i,j
代表从网络中学习得到的自适应阈值;B
‑1(l)表示从序列到序列的映射函数B变换后是文本l的所有路径集合,而π则是其中的一条路径,x是模型输入,l是模型输出的文本,p(l|x)是输入x,输出l的概率,o是CTC的损失函数,s是这一个batch的输入p(l|x)。
[0036]一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现本专利技术中任一项所述的方法的步骤。
[0037]一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现本专利技术中任一项所述的方法的步骤。
[0038]本专利技术的有益效果:本专利技术提供的基于多模态语义特征的档案知识图谱构建方法;确保知识图谱本体的完备性和可靠性;有效解决单实体重叠存在的问题,同时为文本类档案管理与利用提供了技术支撑;通过OCR技术挖掘出图像中蕴含的有价值的信息,构建可视化的档案知识图谱。
附图说明
[0039]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
[0040]图1为本专利技术第一个实施例提供的一种基于多模态语义特征的档案知识图谱构建方法的整体流程图;
[0041]图2为本专利技术第二个实施例提供的一种基于多模态语义特征的档案知识图谱构本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多模态语义特征的档案知识图谱构建方法,其特征在于,包括:导入档案领域知识图谱构建框架设计所包含的档案信息;根据档案数据的来源及其数据类型,将数据进行知识图谱模式层构建;对档案信息进行数据预处理与数据标注,并将数据进行分类;将档案信息进行多模态信息抽取;最后通过知识因子及其关联关系进行知识融合,对知识抽取所得到的实体进行实体消歧、共指消解,最终通过图谱可视化构建可视化的档案知识图谱。2.如权利要求1所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:档案领域知识图谱构建框架设计,包括:同时结合了自顶向下和自底向上两种知识构建方法。既结合了档案领域的专家相关经验知识,又能够发现新知识。3.如权利要求1或2所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述知识图谱模式层构建包括:定义档案数据类及其类的层次结构;定义档案实体类;定义档案实体间关系及其属性;数据维度划分。4.如权利要求3所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述数据预处理与数据标注为:判断文本数据、图像数据是否出现无关、冗余信息;若出现这类信息则判断是否需要清除,并在清除后保证信息的完整性;若判断为不需要清除或不存在此类信息,则保留原有数据;并根据实体关系联合抽取模型的需要进行标注。5.如权利要求1或4任一所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述多模态信息抽取包括:文本模态信息抽取阶段主要采用基于改进GCN的实体关系联合抽取方法来抽取档案中的实体关系信息。文本模态信息抽取主要包括:多粒度特征提取层、BiGCN区域特征提取层、节点关系注意力机制、BiGCN交互特征提取和实体和关系预测。6.如权利要求5所述的基于多模态语义特征的档案知识图谱构建方法,其特征在于:所述文本模态信息抽取阶段还包括:两个阶段GCN编码器产生的节点输出进行实体和关系的预测后,需要将GCN两阶段的损失进行...

【专利技术属性】
技术研发人员:沈汝冰刘伊玲刘畅吴冬梅
申请(专利权)人:云南电网有限责任公司信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1