System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大语言模型的构建方法、装置、设备及计算机可读介质制造方法及图纸_技高网
当前位置: 首页 > 专利查询>北京大学专利>正文

大语言模型的构建方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:41707172 阅读:2 留言:0更新日期:2024-06-19 12:38
本申请涉及一种大语言模型的构建方法、装置、设备及计算机可读介质。该方法包括:获取描述相同内容的视觉数据、音频数据、文本数据以及用户在接收所述视觉数据、所述音频数据以及所述文本数据至少之一时产生的脑电波数据和眼动数据;对所述视觉数据和所述音频数据进行特征提取和整合,得到所述视觉数据和所述音频数据的交叉特征;利用全局模型知识图谱对所述交叉特征进行数据增强,得到所述交叉特征的图谱增强数据;将所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据作为多模态训练数据对初始大语言模型进行训练,直至模型收敛时,得到目标大语言模型。本申请解决了大模型缺乏多模态理解的综合机制的技术问题。

【技术实现步骤摘要】

本申请涉及大模型,尤其涉及一种大语言模型的构建方法、装置、设备及计算机可读介质


技术介绍

1、近年来,大型语言模型取得了显著进展。通过扩大数据规模和模型规模,大语言模型提高了惊人的新兴能力。通常包括情境学习、指令遵循和思维链。尽管大语言模型在大多数自然语言处理任务中表现出了令人惊讶的零样本和少样本推理能力,但是其操作框架仅限于处理和理解文本信息。这种设计上的内在局限性排除了直接处理视觉数据的可能性,因此需要额外的综合机制来实现全面的多模态理解。

2、针对大模型缺乏多模态理解的综合机制的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本申请提供了一种大语言模型的构建方法、装置、设备及计算机可读介质,以解决大模型缺乏多模态理解的综合机制的技术问题。

2、根据本申请实施例的一个方面,本申请提供了一种大语言模型的构建方法,包括:获取描述相同内容的视觉数据、音频数据、文本数据以及用户在接收所述视觉数据、所述音频数据以及所述文本数据至少之一时产生的脑电波数据和眼动数据;对所述视觉数据和所述音频数据进行特征提取和整合,得到所述视觉数据和所述音频数据的交叉特征;利用全局模型知识图谱对所述交叉特征进行数据增强,得到所述交叉特征的图谱增强数据;将所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据作为多模态训练数据对初始大语言模型进行训练,直至模型收敛时,得到目标大语言模型。

3、可选地,对所述视觉数据和所述音频数据进行特征提取和整合,得到所述视觉数据和所述音频数据的交叉特征包括:将所述视觉数据输入视觉编码器,以获取所述视觉编码器对所述视觉数据编码输出的视觉特征;将所述音频数据输入音频编码器,以获取所述音频编码器对所述音频数据编码输出的音频特征;将所述视觉特征和所述音频特征在时间序列上对齐,得到对齐特征;将所述对齐特征输入交叉transformer模块,以利用所述交叉transformer模块对所述视觉特征和所述音频特征进行特征交叉理解,得到所述交叉特征。

4、可选地,利用全局模型知识图谱对所述交叉特征进行数据增强,得到所述交叉特征的图谱增强数据包括:在所述全局模型知识图谱中查找表示所述交叉特征的基础实体;根据所述基础实体与其他实体的关联度,为每个所述基础实体查找关联度大于或等于预设阈值的关联实体;获取所述基础实体和所述关联实体的实体信息和属性信息,作为所述图谱增强数据。

5、可选地,将所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据作为多模态训练数据对初始大语言模型进行训练包括:分别为所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据分配权重;利用所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据的加权和构建优化函数;将所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据输入所述初始大语言模型,并使用所述优化函数对所述初始大语言模型的训练结果进行优化,直至模型收敛时,得到所述目标大语言模型。

6、可选地,使用所述优化函数对所述初始大语言模型的训练结果进行优化,直至模型收敛时,得到所述目标大语言模型包括:基于所述多模态训练数据的标注数据和所述训练结果确定所述初始大语言模型对所述多模态训练数据的理解偏差;按照所述理解偏差调整所述优化函数中所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据的权重,并继续迭代训练;当所述优化函数使所述初始大语言模型对所述多模态训练数据的理解偏差小于目标阈值时,确定模型收敛,得到所述目标大语言模型。

7、可选地,得到所述目标大语言模型之后,所述方法还包括:获取用户输入的检索数据;将所述检索数据输入所述目标大语言模型,以通过所述目标大语言模型识别所述检索数据包含的模态,并调用对应模态的编码器对所述检索数据进行实体抽取和内容理解,以及基于抽取到的实体信息和理解到的内容信息生成回答数据;将所述回答数据返回给所述用户。

8、可选地,检索数据包含的模态包括视觉数据、音频数据、文本数据、脑电波数据以及眼动数据至少之一。

9、根据本申请实施例的另一方面,本申请提供了一种大语言模型的构建装置,包括:多模态数据获取模块,用于获取描述相同内容的视觉数据、音频数据、文本数据以及用户在接收所述视觉数据、所述音频数据以及所述文本数据至少之一时产生的脑电波数据和眼动数据;特征交叉模块,用于对所述视觉数据和所述音频数据进行特征提取和整合,得到所述视觉数据和所述音频数据的交叉特征;知识图谱增强模块,用于利用全局模型知识图谱对所述交叉特征进行数据增强,得到所述交叉特征的图谱增强数据;多模态训练模块,用于将所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据作为多模态训练数据对初始大语言模型进行训练,直至模型收敛时,得到目标大语言模型。

10、根据本申请实施例的另一方面,本申请提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。

11、根据本申请实施例的另一方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。

12、本申请实施例提供的上述技术方案与相关技术相比具有如下优点:

13、本申请可以应用于深度学习技术中进行计算机视觉实现。本申请提供了一种大语言模型的构建方法,包括:获取描述相同内容的视觉数据、音频数据、文本数据以及用户在接收所述视觉数据、所述音频数据以及所述文本数据至少之一时产生的脑电波数据和眼动数据;对所述视觉数据和所述音频数据进行特征提取和整合,得到所述视觉数据和所述音频数据的交叉特征;利用全局模型知识图谱对所述交叉特征进行数据增强,得到所述交叉特征的图谱增强数据;将所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据作为多模态训练数据对初始大语言模型进行训练,直至模型收敛时,得到目标大语言模型。本申请通过对多模态数据的特征交叉融合以及在大语言模型的多模态训练中引入知识图谱、脑电波以及眼动数据,全面且有效地提升了大语言模型对多模态内容的理解和分析能力,解决了大模型缺乏多模态理解的综合机制的技术问题。

本文档来自技高网...

【技术保护点】

1.一种大语言模型的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述视觉数据和所述音频数据进行特征提取和整合,得到所述视觉数据和所述音频数据的交叉特征包括:

3.根据权利要求1所述的方法,其特征在于,所述利用全局模型知识图谱对所述交叉特征进行数据增强,得到所述交叉特征的图谱增强数据包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据作为多模态训练数据对初始大语言模型进行训练包括:

5.根据权利要求4所述的方法,其特征在于,所述使用所述优化函数对所述初始大语言模型的训练结果进行优化,直至模型收敛时,得到所述目标大语言模型包括:

6.根据权利要求1至5任一所述的方法,其特征在于,得到所述目标大语言模型之后,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述检索数据包含的模态包括视觉数据、音频数据、文本数据、脑电波数据以及眼动数据至少之一。

8.一种大语言模型的构建装置,其特征在于,包括:</p>

9.一种电子设备,包括存储器、处理器、通信接口及通信总线,所述存储器中存储有可在所述处理器上运行的计算机程序,所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的大语言模型的构建方法。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一所述的大语言模型的构建方法。

...

【技术特征摘要】

1.一种大语言模型的构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述视觉数据和所述音频数据进行特征提取和整合,得到所述视觉数据和所述音频数据的交叉特征包括:

3.根据权利要求1所述的方法,其特征在于,所述利用全局模型知识图谱对所述交叉特征进行数据增强,得到所述交叉特征的图谱增强数据包括:

4.根据权利要求1所述的方法,其特征在于,所述将所述图谱增强数据、所述文本数据、所述脑电波数据以及所述眼动数据作为多模态训练数据对初始大语言模型进行训练包括:

5.根据权利要求4所述的方法,其特征在于,所述使用所述优化函数对所述初始大语言模型的训练结果进行优化,直至模型收敛时,得到所述目标大语言模型包括:

6.根据权利要求1至5任一所述...

【专利技术属性】
技术研发人员:王平吴明辉赵晨旭苏安炀
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1