一种关键信息挖掘的多模态企业知识图谱补全方法及装置制造方法及图纸

技术编号:38822934 阅读:10 留言:0更新日期:2023-09-15 20:02
本申请公开了一种关键信息挖掘的多模态企业知识图谱补全方法及装置,包括:利用图注意力网络GATs对预先创建的企业知识图谱进行嵌入表示,以获得企业知识图谱特征嵌入;提取舆情图像中包含的关键对象信息,以获得视觉特征嵌入;利用文本嵌入模型对舆情文本进行嵌入表示,以获得文本特征嵌入;融合企业知识图谱嵌入特征、视觉嵌入特征以及文本嵌入特征,以获得多模态融合嵌入特征;对于任意两个候选实体,基于对应的多模态融合嵌入特征,进行关键信息挖掘,以确定两个候选实体之间的联系;基于确定的两个候选实体之间的联系补全企业知识图谱。本申请能够对多模态知识图谱进行补全,能够更全面及时地掌握企业信息,提高信息分析和挖掘的准确性。分析和挖掘的准确性。分析和挖掘的准确性。

【技术实现步骤摘要】
一种关键信息挖掘的多模态企业知识图谱补全方法及装置


[0001]本申请涉及数据处理
,尤其涉及一种关键信息挖掘的多模态企业知识图谱补全方法及装置。

技术介绍

[0002]知识图谱是一种以实体、概念为节点、以概念之间的各种语义关系为边的大规模语义网络,利用图的方式关联信息,将知识结构化、标准化。知识图谱目前被广泛应用于企业关系的描述,由于企业通常涉及实际控制人、股东、关联方、受益人等网络关系,利用知识图谱构建企业关系知识库可以满足银行、金融、工商等领域对企业及关系人的信息获取。
[0003]目前用于企业关系描述的知识图谱数据来源大多为工商数据、金融市场数据、司法数据等文本结构数据,因此大多使用传统的文本形式的知识图谱构建知识库。通常,一个企业知识图谱包含如企业基本信息、企业主要人员信息、自然人股东信息、非自然人股东信息等等多源信息。基于图谱,用户可以更好地理解企业的组织结构、人员分布、股权关系及各个企业和自然人之间的关系网络。
[0004]然而随着金融市场的发展,越来越多的企业通过无法通过官方获取到的人物关系进行关联,隐性人物关联数据的缺失如相关人员的社交关系,使得图谱无法准确描述企业及人物实体的关系,从而对分析和决策产生影响。

技术实现思路

[0005]本申请实施例提供一种关键信息挖掘的多模态企业知识图谱补全方法及装置,用以对多模态知识图谱进行补全,能够更全面及时地掌握企业信息,增强了语义,提高信息分析和挖掘的准确性。
[0006]本申请实施例提供一种关键信息挖掘的多模态企业知识图谱补全方法,包括如下步骤:
[0007]利用图注意力网络GATs对预先创建的企业知识图谱进行嵌入表示,以将每个实体映射到一个低维向量空间,以获得企业知识图谱特征嵌入;
[0008]获取舆情图像,提取所述舆情图像中包含的关键对象信息,以获得视觉特征嵌入;
[0009]获取舆情文本,利用文本嵌入模型对所述舆情文本进行嵌入表示,以获得文本特征嵌入;
[0010]融合所述企业知识图谱嵌入特征、视觉嵌入特征以及所述文本嵌入特征,以获得多模态融合嵌入特征;
[0011]对于任意两个候选实体,基于对应的多模态融合嵌入特征,进行关键信息挖掘,以确定任意两个候选实体之间的联系;
[0012]基于确定的任意两个候选实体之间的联系补全企业知识图谱。
[0013]可选的,所述企业知识图谱用以描述企业之间以及企业与自然人之间的关系,其包括实体集合和关系集合;
[0014]利用图注意力网络GATs对预先创建的企业知识图谱进行嵌入表示,以将每个实体映射到一个低维向量空间,以获得企业知识图谱特征嵌入包括:
[0015]对于每个实体e,利用GATs模型计算其邻居实体的加权和,并将其作为实体e的注意力权重;
[0016]基于GATs模型,使用注意力权重对相应特征向量进行加权求和,得到实体e的嵌入向量;
[0017]基于GATs模型,拼接所有实体的嵌入向量,以形成整个知识图谱的嵌入向量矩阵。
[0018]可选的,所述舆情图像包括新闻宣传图像以及社交网络发布图像;
[0019]提取所述舆情图像中包含的关键对象信息,以获得视觉特征嵌入包括:
[0020]对任意舆情图像,使用R

CNN检测模型进行物体检测,以识别所述任意舆情图像中的人物及场所相关信息;
[0021]对检测到人物相关信息包含人脸的舆情图像,进行特征提取;
[0022]若任意舆情图像包含两个人物,则将提取的人脸特征两两连接,在最后嵌入二者检测框位置信息,以获得实体的视觉特征嵌入;
[0023]若任意舆情图像包含两个以上的人物,则对于提取的人脸特征,进行两两遍历,以获得实体的视觉特征嵌入。
[0024]可选的,对检测到人物相关信息包含人脸的舆情图像,进行特征提取包括:
[0025]将舆情图像中的人脸子图像进行预处理,所述预处理包括剪裁、角度校正以及去噪;
[0026]在预处理之后,将所述人脸子图像输入预先训练的VGGFace人脸识别网络,去除softmax层,将最后一层FC层的输出,作为提取的人脸特征。
[0027]可选的,利用文本嵌入模型对所述舆情文本进行嵌入表示,以获得文本特征嵌入包括:
[0028]将所述舆情文本由词汇表中的索引表示;
[0029]将索引表表示转换为初始化词向量,并利用Bert模型进行词嵌入;
[0030]利用Transformer编码器,对所述词嵌入进行自注意力和前馈网络的计算,以获得各词的上下文相关表示;
[0031]对所述Transformer编码器编码层的输出进行AdaIN操作,以对各词的上下文相关表示进行域适应;
[0032]对AdaIN层的输出进行最大池化或平均池化,以获得文本特征嵌入。
[0033]可选的,融合所述企业知识图谱嵌入特征、视觉嵌入特征以及所述文本嵌入特征,以获得多模态融合嵌入特征包括:
[0034]采用MUTAN双线性模型,融合所述企业知识图谱嵌入特征、视觉嵌入特征以及所述文本嵌入特征,在融合的过程中,采用对比学习方法,以拉近相同实体不同模态嵌入的距离,并推远不同实体嵌入的距离。
[0035]可选的,对于任意两个候选实体,基于对应的多模态融合嵌入特征,进行关键信息挖掘包括:
[0036]利用基于距离的评分函数,对任意两个候选实体进行评分,使得在两个实体存在客观联系的情况下,输出高评分,在两个实体不存在客观联系的情况下,输出低评分。
[0037]本申请实施例还提出一种关键信息挖掘的多模态企业知识图谱补全装置,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的关键信息挖掘的多模态企业知识图谱补全方法的步骤。
[0038]本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的关键信息挖掘的多模态企业知识图谱补全方法的步骤。
[0039]本申请实施例的方法用于对多模态知识图谱进行补全,能够更全面及时地掌握企业信息,增强了语义,提高信息分析和挖掘的准确性。
[0040]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0041]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0042]图1为本申请实施例多模态企业知识图谱补全方法的基本流程示意;
[0043]图2为本申请实施例多模态企业知识图谱补全方法的企业知识图谱本体模型示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键信息挖掘的多模态企业知识图谱补全方法,其特征在于,包括如下步骤:利用图注意力网络GATs对预先创建的企业知识图谱进行嵌入表示,以将每个实体映射到一个低维向量空间,以获得企业知识图谱特征嵌入;获取舆情图像,提取所述舆情图像中包含的关键对象信息,以获得视觉特征嵌入;获取舆情文本,利用文本嵌入模型对所述舆情文本进行嵌入表示,以获得文本特征嵌入;融合所述企业知识图谱嵌入特征、视觉嵌入特征以及所述文本嵌入特征,以获得多模态融合嵌入特征;对于任意两个候选实体,基于对应的多模态融合嵌入特征,进行关键信息挖掘,以确定任意两个候选实体之间的联系;基于确定的任意两个候选实体之间的联系补全企业知识图谱。2.如权利要求1所述的关键信息挖掘的多模态企业知识图谱补全方法,其特征在于,所述企业知识图谱用以描述企业之间以及企业与自然人之间的关系,其包括实体集合和关系集合;利用图注意力网络GATs对预先创建的企业知识图谱进行嵌入表示,以将每个实体映射到一个低维向量空间,以获得企业知识图谱特征嵌入包括:对于每个实体e,利用GATs模型计算其邻居实体的加权和,并将其作为实体e的注意力权重;基于GATs模型,使用注意力权重对相应特征向量进行加权求和,得到实体e的嵌入向量;基于GATs模型,拼接所有实体的嵌入向量,以形成整个知识图谱的嵌入向量矩阵。3.如权利要求2所述的关键信息挖掘的多模态企业知识图谱补全方法,其特征在于,所述舆情图像包括新闻宣传图像以及社交网络发布图像;提取所述舆情图像中包含的关键对象信息,以获得视觉特征嵌入包括:对任意舆情图像,使用R

CNN检测模型进行物体检测,以识别所述任意舆情图像中的人物及场所相关信息;对检测到人物相关信息包含人脸的舆情图像,进行特征提取;若任意舆情图像包含两个人物,则将提取的人脸特征两两连接,在最后嵌入二者检测框位置信息,以获得实体的视觉特征嵌入;若任意舆情图像包含两个以上的人物,则对于提取的人脸特征,进行两两遍历,以获得实体的视觉特征嵌入。4.如权利要求3所述的关键信息挖掘的多模态企业知识图谱补全方法,其特征在于,对检测到人物相关信息包含人脸的舆情图像,进...

【专利技术属性】
技术研发人员:刘晨羽白然欧阳小叶刘小晗胡校成袁柳王亚珅
申请(专利权)人:中国电子科技集团有限公司电子科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1