一种多模态感知与认知数据集的构建方法和装置制造方法及图纸

技术编号：44193469 阅读：14 留言：0更新日期：2025-02-06 18:32

本发明专利技术提供了一种多模态感知与认知数据集的构建方法和装置，获取图像信息，该图像信息包括智能体自身的摄像头实时抓取的画面；根据图像信息构建知识图谱；其中，该知识图谱包括实体信息和实体之间的位置关系；将图像信息切分为不重叠的子区域图像；根据子区域图像和知识图谱进行图像描述，生成描述图像内容的自然语言文本，并根据自然语言文本构建多模态感知与认知数据集，解决了现有技术中多模态数据集标注方法成本高、效率低、准确度低的问题，提升了多模态模型的感知能力以及包含推理、比较、描述的高级认知能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种多模态感知与认知数据集的构建方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

1、随着人工智能技术的快速发展，多模态数据集在计算机视觉、自然语言处理、语音识别等领域发挥着越来越重要的作用。多模态数据集是指包含多种模态（如文本、图像、音频等）的数据集合，通过对这些数据进行有效整合和分析，可以极大地提高人工智能模型的性能。

2、现有的多模态数据集大多数都依赖人工众包标注。人工众包标注的过程主要包括以下几个步骤：数据提供方将原始数据发布到众包平台；众包参与者对数据进行标注；数据提供方对标注结果进行审核和修正。

3、然而，这种依赖人工众包标注的方法存在以下缺点：

4、花费巨大：人工众包标注需要支付给参与者一定的报酬，随着数据量的增加，标注成本不断上升；

5、耗费沟通时间：在标注过程中，数据提供方需要与参与者进行多次沟通，以确保标注质量，这无疑增加了项目周期；

6、信息理解误差：由于参与者的背景知识、认知能力等方面存在差异，导致标注结果存在一定的误差，进而影响数据集的质量。

7、综上所述，现有的多模态数据集标注方法存在一定的局限性，亟需一种高效、低成本、准确度高的自动标注方法来解决这一问题。

技术实现思路

1、有鉴于此，本专利技术要解决的技术问题在于提供一种多模态感知与认知数据集的构建方法、装置、电子设备、计算机可读存储介质和计算机程序产品，解决现有技术中多模态数据

2、本专利技术一方面，提供了一种多模态感知与认知数据集的构建方法，其特征在于，所述方法包括：

3、获取图像信息；其中，所述图像信息包括智能体自身的摄像头实时抓取的画面；

4、根据所述图像信息构建知识图谱；其中，所述知识图谱包括实体信息和实体之间的位置关系；

5、将所述图像信息切分为不重叠的子区域图像；

6、根据所述子区域图像和所述知识图谱进行图像描述，生成描述图像内容的自然语言文本，并根据所述自然语言文本构建多模态感知与认知数据集。

7、可选地，将所述图像信息切分为不重叠的子区域图像包括如下步骤：

8、s1：将所述图像信息转化为像素特征矩阵，其中每个像素点作为一个样本，对像素特征进行归一化处理的到处理后的图像；

9、s2：根据肘部法则和轮廓系数确定簇数；其中，簇数表示子区域图像的数量；

10、s3：通过k均值聚类算法，随机选择初始的聚类中心；

11、s4：对于图片中的每个像素点，计算其与各个初始的聚类中心的欧氏距离，并将其分配到最近的初始聚类中心所代表的簇中；

12、s5：通过k均值聚类算法，计算每个簇所有点的均值，根据所述均值重新计算每个簇的聚类中心；

13、重复执行步骤s3、s4、s5直至每个簇的聚类中心的变化值小于预定阈值，或者迭代次数达到预设迭代次数，或者簇内样本的变化小于预设变化量。

14、可选地，根据所述图像信息构建知识图谱之前，所述方法还包括：

15、获取所述图像信息的粗粒度信息；其中，粒度用于用来描述图像处理或分析的粒度级别，粗粒度信息是在图像上进行全局的处理得到的，关注的是整体图像的特征；

16、通过视觉目标检测模型将所述粗粒度信息的标签进行细化得到细粒度的实体信息和细粒度的实体之间的位置关系；其中，细粒度表示对图像进行局部子类划分和识别；细粒度的实体之间的位置关系包括上、下、左、右、前、后、里、外。

17、可选地，根据所述图像信息构建知识图谱包括：

18、将所述图像信息转化为语言信息；

19、使用计算机视觉模型快速特征嵌入的卷积架构caffee作为信息检测抽取模型，将所述语言信息与预设的已知信息做重叠度计算，得到计算结果；

20、根据所述计算结果对实体信息进行补充，得到补充后的语言信息；

21、将所述补充后的语言信息转化为主谓宾spo三元组信息，构建所述知识图谱。

22、可选地，根据所述图像信息构建知识图谱之后，所述方法还包括：

23、收集输入实体的主谓宾spo三元组样本数据；

24、采用qwen-1.5-7b预训练模型作为基础模型；

25、采用参数高效微调技术lora技术对所述基础模型进行微调；其中，训练参数包括学习率(lr)为1e-3，训练轮次(epoch)为10；

26、使用所述主谓宾spo三元组样本数据对所述基础模型进行训练得到训练后的模型；

27、通过所述训练后的模型将主谓宾spo三元组信息转化为带有流畅且丰富的自然语言描述的信息。

28、可选地，根据所述子区域图像和所述知识图谱进行图像描述，生成描述图像内容的自然语言文本，并根据所述自然语言文本构建多模态感知与认知数据集包括：

29、调用多模态人工智能模型gpt-4o对输入的子区域图像生成描述性文字；

30、将所述描述性文字与中心实体的信息描述结合，并输入至语言模型llm中，生成单跳问答对和多跳问答对；其中，所述单跳问答对是指直接基于图片描述的问答，而多跳问答对是指需要推理或额外信息处理的问答。

31、本专利技术第二方面，还提供了一种多模态感知与认知数据集的构建装置，所述装置包括：

32、获取模块，用于获取图像信息；其中，所述图像信息包括智能体自身的摄像头实时抓取的画面；

33、第一构建模块，用于根据所述图像信息构建知识图谱；其中，所述知识图谱包括实体信息和实体之间的位置关系；

34、切分模块，用于将所述图像信息切分为不重叠的子区域图像；

35、第二构建模块，用于根据所述子区域图像和所述知识图谱进行图像描述，生成描述图像内容的自然语言文本，并根据所述自然语言文本构建多模态感知与认知数据集。

36、可选地，所述第一构建模块包括：

37、转化单元，用于将所述图像信息转化为语言信息；

38、计算单元，用于使用计算机视觉模型快速特征嵌入的卷积架构caffee作为信息检测抽取模型，将所述语言信息与预设的已知信息做重叠度计算，得到计算结果；

39、补充单元，用于根据所述计算结果对实体信息进行补充，得到补充后的语言信息；

40、构建单元，用于将所述补充后的语言信息转化为主谓宾spo三元组信息，构建所述知识图谱。

41、可选地，所述装置还包括：

42、收集模块，用于收集输入实体的主谓宾spo三元组样本数据；

43、选择模块，用于采用qwen-1.5-7b预训练模型作为基础模型；

44、微调模块，用于采用参数高效微调技术lora技术对所述基础模型进行微调；其中，训练参数包括学习率(lr)为1e-3，训练轮次(epoch)为10；

本文档来自技高网...

【技术保护点】

1.一种多模态感知与认知数据集的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多模态感知与认知数据集的构建方法，其特征在于，将所述图像信息切分为不重叠的子区域图像包括如下步骤：

3.根据权利要求1所述的多模态感知与认知数据集的构建方法，其特征在于，根据所述图像信息构建知识图谱之前，所述方法还包括：

4.根据权利要求1所述的多模态感知与认知数据集的构建方法，其特征在于，根据所述图像信息构建知识图谱包括：

5.根据权利要求4所述的多模态感知与认知数据集的构建方法，其特征在于，根据所述图像信息构建知识图谱之后，所述方法还包括：

6.根据权利要求1至5中任一所述的多模态感知与认知数据集的构建方法，其特征在于，根据所述子区域图像和所述知识图谱进行图像描述，生成描述图像内容的自然语言文本，并根据所述自然语言文本构建多模态感知与认知数据集包括：

7.一种多模态感知与认知数据集的构建装置，其特征在于，所述装置包括：

8.根据权利要求7所述的多模态感知与认知数据集的构建装置，其特征在于，所述第一构建模块包括：

9.根据权利要求8所述的多模态感知与认知数据集的构建装置，其特征在于，所述装置还包括：

10.根据权利要求7至9中任一所述的多模态感知与认知数据集的构建装置，其特征在于，所述第二构建模块包括：

11. 一种电子设备，包括：

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括指令，当所述指令被执行时，使得计算机执行权利要求1至6中任一项所述的方法。

...

【技术特征摘要】

1.一种多模态感知与认知数据集的构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的多模态感知与认知数据集的构建方法，其特征在于，将所述图像信息切分为不重叠的子区域图像包括如下步骤：

3.根据权利要求1所述的多模态感知与认知数据集的构建方法，其特征在于，根据所述图像信息构建知识图谱之前，所述方法还包括：

4.根据权利要求1所述的多模态感知与认知数据集的构建方法，其特征在于，根据所述图像信息构建知识图谱包括：

5.根据权利要求4所述的多模态感知与认知数据集的构建方法，其特征在于，根据所述图像信息构建知识图谱之后，所述方法还包括：

6.根据权利要求1至5中任一所述的多模态感知与认知数据集的构建方法，其特征在于，根据所述子区域图像和所述知识图谱进行图像描述，生成描述图像内容的自然语言文本，并根据所述自然语...

【专利技术属性】
技术研发人员：杨亚婕，
申请(专利权)人：北京通用人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人