一种多模态知识图谱自动化生成方法及系统技术方案

技术编号：42413692 阅读：13 留言：0更新日期：2024-08-16 16:30

本发明专利技术公开了一种多模态知识图谱自动化生成方法及系统，包括：数据采集阶段：从数据开源平台和自主设计的人机协同任务中收集时序图像数据并预处理；获取场景描述阶段：使用视觉语言模型CogVLM和预定义的提示语获取图像中的物体及物体间关系的场景描述文本；实体关系挖掘阶段：基于ChatGPT和预定义的提示语，提取实体及其相互关系，并构建含噪声的三元组集；实体对齐阶段：结合实体关系向量化和相似度计算，对含噪声的三元组集做细化处理，生成符合实验要求的三元组；提示语设计模块：结合输出结果，迭代更新和优化提示语。本方法有效结合丰富的视觉信息，自动化地构建全面而精确的知识图谱，以支持复杂和动态的数据分析需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能、计算机视觉及知识图谱生成领域，特别是涉及一种结合cogvlm、chatgpt和clip的多模态数据分析的知识图谱自动化生成方法及系统。

技术介绍

1、随着大数据和人工智能技术的发展，从海量数据中提取有价值信息成为一个关键挑战。知识图谱作为一种结构化的知识表示方式，对于理解和分析大规模数据集尤为重要。传统的知识图谱主要依赖文本数据来构建实体和关系，这在处理图像丰富的现实世界场景中显得力不从心。尽管现有的场景图生成(scene graph generation)等技术尝试从图像中提取三元组，但因其标注的信息的局限性和困难性(标注难度大，成本高)，标注的物体和物体间的关系数量非常有限，导致生成的三元组的类型丰富性低、模型应用拓展的可能性低。

2、目前大模型结合知识图谱自动化构建领域的研究和实践主要集中在文本数据的处理上，即利用大语言模型如chatgpt从文本中提取实体和关系，构建知识图谱。而图像数据作为一种重要的信息来源，在知识图谱构建中的潜力还未被充分挖掘。在《naturemachine intelligence》(自然机器智能)期刊上的一篇文章《integrating multimodalinformation in large pretrained transformers》(在大型预训练变换器中整合多模态信息)提出了一个整合文本和图像信息的方法，但该方法主要针对的是理解和生成自然语言描述，而不是直接生成知识图谱。这表明，在从复合媒体中提取和构建知识图谱方面，特别是在处理具有丰富视觉内容的复杂

技术实现思路

1、针对现有技术存在的问题，本专利技术旨在通过结合视觉语言模型cogvlm、大语言模型chatgpt和图像-文本预训练模型clip，提出一种新的多模态知识图谱自动化生成方法，有效结合丰富的视觉信息和其时序性，自动构建全面和准确的知识图谱，以支持更为复杂和动态的数据分析需求，为下游的工业任务(如装配任务、机器人导航、场景设计等)提供辅助作用。

2、为实现上述目的，本专利技术提供了一种多模态知识图谱自动化生成方法，其特征在于，所述方法包含以下阶段：

3、数据采集阶段：从数据开源平台和自主设计的人机协同任务中收集时序图像数据，并对图像数据进行预处理；

4、获取场景描述阶段：使用视觉语言模型cogvlm和预定义的提示语，以获取图像中的物体及物体间关系的场景描述文本；

5、实体关系挖掘阶段：基于chatgpt和预定义的提示语，从图像描述文本中提取实体及其相互关系，并构建含噪声的三元组集；

6、实体对齐阶段：结合实体关系向量化和相似度计算，对含噪声的三元组集进行细化处理，生成多模态知识图谱。

7、进一步，所述数据采集阶段包括：

8、步骤s1：数据主要采集自人机协作任务，用于记录人机协作任务下关键时间段下的场景图信息：在人机协作任务下利用摄像机收集人机交互过程的视频信息，并保留人机交互过程中的关键帧以获取人机协作任务下的关键时序图像数据。

9、进一步，获取场景描述阶段包括：

10、步骤s2：获取场景的详细描述文本；基于视觉语言模型cogvlm和预定义的第一提示语，从关键时序图像数据中提取场景描述文本；

11、步骤s3：判断文本长度是否满足要求；若场景描述文本长度tlenghth不满足约束条件(tthre_low<tlength<tthre_high)，则重复步骤s2，以重新生成场景描述文本。

12、进一步，实体关系挖掘阶段包括：

13、步骤s4：提取实体及实体间的相对关系，获取含噪声的三元组集；利用chatgpt的文本分析能力和预先设定的第二提示语，在场景描述文本中提取实体及实体间的关系，以构成含噪声的三元组集。

14、进一步，实体对齐阶段包括：

15、步骤s5：三元组向量化；三元组向量化；拆分s4中生成的含噪声的三元组集，获取实体集和关系集，之后，通过语言-图像预训练模型clip的文本特征表征能力，进行特征提取，分别获取实体集、关系集和三元组集的特征向量；

16、步骤s6：相似度计算；分别的对实体集、关系集和三元组集中两两元素间的特征向量做相似度计算，在获取每个元素与所属集合中其他元素间的所有相似度后，计算该元素的平均相似度。

17、步骤s7：实体关系对齐；分别在s6中获取的实体集特性向量、关系集特征向量和三元组特征向量中，找到实体间、关系间或三元组间相似度大于给定阈值的实体子集、关系子集或三元组子集(子集可以有多个)。仅保留当前子集中平均相似度最高的元素。

18、步骤s8：获取三元组知识图谱：基于s7中保留实体集、关系集和三元组集，去除离散节点和重复的三元组，构建最终的知识图谱，随后，对知识图谱的有效性进行评估。

19、进一步，步骤s5中，具体操作步骤为：将当前场景描述信息中获取的所有三元组中的实体集、关系集和三元组集分别通过语言-图像预训练模型clip提取特征向量，以获取实体集特征向量e、关系集特征向量r和三元组集特征向量t。

20、进一步，步骤s6中，在通过clip预训练模型提取所有的实体集、关系集和三元组集向量e、r和t后，分别计算各实体向量、关系向量或三元组向量之间的相似度和平均相似度。以三元组集t上具体实现过程为例，如下：

21、三元组集t的长度为n，对于t中的每个子元素ti，其中i∈(1，2，...，n)，n为三元组向量的总数，计算其与t中其他所有元素tj的相似度；使用函数sim(ti，tj)表示ti，tj的相似度，其中sim表示相似度计算函数，本专利技术使用了余弦相似度(cosine similarity)，即，对于有相似度为sim(ti，tj)；同理，对于实体集，有相似度为sim(ei，ej)；对于关系集，有相似度为sim(ri，rj)；随后，通过公式计算每个元素在所属集合中的平均相似度x是一个占位符，可以分别表示e、r和t。

22、进一步，步骤s7中，对于中的向量对(xi，xj)，若存在sim(xi，xj)＞∈x，其中∈x是给定的相似度阈值，则xi和xj可以归为同一个子集xi，..，j，这个子集中可能有多个元素，本专利技术认为这个子集中所有的元素具有相似的含义，可以归纳为同一元素。因此，比较该子集中所有元素的相似度的大小，取max(avgsim(xi)，...，avgsim(xj))中最大的元素x作为这个子集的代表，并将子集中其他元素xi，...，xj赋值为x(即修改元素，例如，苹果，香蕉和普通被赋值为水果)。

23、进一步，步骤s8中，对于s7处理后的实体集、关系集和三元组集在组合成知识图谱时，往往会存在离散的元素，这些元素和其他元素没有关联，没有实际含义，直接去除，以获取最终的知识图谱。再基于前k个结果的召回率(recall@k)和前k个结果的平均召回率(meanrecall@k本文档来自技高网...

【技术保护点】

1.一种多模态知识图谱自动化生成方法，其特征在于，所述方法包含以下阶段：

2.根据权利要求1所述的多模态知识图谱自动化生成方法，其特征在于，所述数据采集阶段包括：

3.根据权利要求1所述的多模态知识图谱自动化生成方法，其特征在于，获取场景描述阶段包括：

4.根据权利要求1所述的一种多模态知识图谱自动化生成方法，其特征在于，实体关系挖掘阶段包括：

5.根据权利要求1所述的多模态知识图谱自动化生成方法，其特征在于，实体对齐阶段包括：

6.根据权利要求5所述的多模态知识图谱自动化生成方法，其特征在于，步骤S5中，具体操作步骤为：将当前场景描述信息中获取的所有三元组中的实体集、关系集和三元组集分别通过语言-图像预训练模型CLIP提取特征向量，以获取实体集特征向量E、关系集特征向量R和三元组集特征向量T。

7.根据权利要求5所述的多模态知识图谱自动化生成方法，其特征在于，步骤S6中，在通过CLIP预训练模型提取所有的实体集、关系集和三元组集向量E、R和T后，分别计算各实体向量、关系向量或三元组向量之间的相似度和平均相似

8.根据权利要求5所述的多模态知识图谱自动化生成方法，其特征在于，步骤S7中，对于中的向量对(xi,xj)，若存在sim(xi,xj)>∈x，其中∈x是给定的相似度阈值，则xi和xj归为同一个子集xi,..,j，这个子集中有多个元素，这个子集中所有的元素具有相似的含义，归纳为同一元素，比较该子集中所有元素的相似度的大小，取max(AvgSim(xi),…,AvgSim(xj))中最大的元素x作为这个子集的代表，并将子集中其他元素xi,…,xj赋值为x。

9.根据权利要求5所述的多模态知识图谱自动化生成方法，其特征在于，步骤S8中，对于S7处理后的实体集、关系集和三元组集在组合成知识图谱时，往往会存在离散的元素和重复的三元组，离散的元素和其他元素没有关联，没有实际含义，直接去除，而重复的三元组存在冗余的信息，也直接去除，以获取最终的知识图谱；再基于前K个结果的召回率和前K个结果的平均召回率评估指标判断生成的知识图谱和预定义的真值之间的差距，以判断是否符合预期。

10.一种多模态知识图谱自动化生成系统，其特征在于，所述系统用于实现根据权利要求1-9任一项所述的方法，系统包括：

...

【技术特征摘要】

1.一种多模态知识图谱自动化生成方法，其特征在于，所述方法包含以下阶段：

2.根据权利要求1所述的多模态知识图谱自动化生成方法，其特征在于，所述数据采集阶段包括：

3.根据权利要求1所述的多模态知识图谱自动化生成方法，其特征在于，获取场景描述阶段包括：

4.根据权利要求1所述的一种多模态知识图谱自动化生成方法，其特征在于，实体关系挖掘阶段包括：

5.根据权利要求1所述的多模态知识图谱自动化生成方法，其特征在于，实体对齐阶段包括：

6.根据权利要求5所述的多模态知识图谱自动化生成方法，其特征在于，步骤s5中，具体操作步骤为：将当前场景描述信息中获取的所有三元组中的实体集、关系集和三元组集分别通过语言-图像预训练模型clip提取特征向量，以获取实体集特征向量e、关系集特征向量r和三元组集特征向量t。

7.根据权利要求5所述的多模态知识图谱自动化生成方法，其特征在于，步骤s6中，在通过clip预训练模型提取所有的实体集、关系集和三元组集向量e、r和t后，分别计算各实体向量、关系向量或三元组向量之间的相似度和平均相似度，三元组集t上实现过程为：

【专利技术属性】
技术研发人员：王佐旭，鄢智杰，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人