System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及人工智能,尤其涉及计算机视觉、深度学习、大模型等,可应用于生成式人工智能(artificial intelligencegenerated content,aigc)、人机交互等场景。
技术介绍
1、随着人工智能技术的发展,具有图像理解能力的多模态大语言模型(multimodallarge language model,mllm)发展迅速,mllm模型具备对用户上传的图像/视频进行理解分析的能力,填补了纯文本模态的大语言模型(multimodal large language model,llm)的视觉能力。如何生成用于训练mllm模型的多模态偏好数据,是需要解决的技术问题。
技术实现思路
1、本公开提供了一种生成多模态偏好数据的方法、装置、设备以及存储介质。
2、根据本公开的一方面,提供了一种生成多模态偏好数据的方法,包括:
3、接收用户指令、第一文件和针对该用户指令和该第一文件的多个问答信息;该第一文件包括图像和视频中的至少之一;
4、提取该第一文件的视觉信息;
5、将该用户指令、该多个问答信息和该视觉信息输入预先训练的神经网络模型,以获取针对各个该问答信息的评估值;
6、基于该用户指令、该第一文件、该多个问答信息和该针对各个该问答信息的评估值,生成多模态偏好数据。
7、根据本公开的另一方面,提供了一种生成多模态偏好数据的装置,包括:
8、接收模块,用于接收用户指令、第一文件和针对该用
9、提取模块,用于提取该第一文件的视觉信息;
10、评分模块,用于将该用户指令、该多个问答信息和该视觉信息输入预先训练的神经网络模型,以获取针对各个该问答信息的评估值;
11、生成模块,用于基于该用户指令、该第一文件、该多个问答信息和该针对各个该问答信息的评估值,生成多模态偏好数据。
12、根据本公开的另一方面,提供了一种电子设备,包括:
13、至少一个处理器;以及
14、与该至少一个处理器通信连接的存储器;其中,
15、该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一的方法。
16、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。
17、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。
18、本公开通过提取图像和/或视频文件的视觉信息,将该视觉信息、用户指令和针对该用户指令和图像和/或视频文件的多个问答信息输入预先训练的神经网络模型,由该神经网络模型对各个问答信息进行评估,并基于评估结果生成多模态偏好数据。本公开提出的多模态偏好数据的生成方法中,采用辅助手段提取图像和/或视频文件的视觉信息,并将该视觉信息提供给神经网络模型,从而弥补该神经网络模型在识别图像和/或视频文件上的能力不足,并充分利用该神经网络模型在文本理解上的能力,从而提高多模态偏好数据的质量;并且由于生成过程中无需人工标注信息,因此能够降低数据的生产成本。
19、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种生成多模态偏好数据的方法,包括:
2.根据权利要求1所述的方法,其中,所述预先训练的神经网络模型包括奖励模型。
3.根据权利要求1或2所述的方法,其中,所述基于所述用户指令、所述第一文件、所述多个问答信息和所述针对各个所述问答信息的评估值,生成多模态偏好数据,包括:
4.根据权利要求3所述的方法,其中,基于数据组合,得到所述多模态偏好数据,包括:针对每个数据组合,对所述数据组合中的两个或多个评估值进行比较,根据比较结果,对所述组合中的两个或多个问答信息的质量进行排序;
5.根据权利要求1-4中任一所述的方法,其中,所述多个问答信息由多个多模态大语言模型MLLM分别基于所述用户指令和所述第一文件生成。
6.根据权利要求1-5中任一所述的方法,其中,所述提取所述第一文件的视觉信息,包括:
7.根据权利要求6所述的方法,其中,所述视觉信息提取模块包括图像描述模型和垂类视觉算子中的至少之一。
8.根据权利要求7所述的方法,其中,所述垂类视觉算子包括人脸识别算子、动物识别算子、植物识别算子、车辆识别
9.一种生成多模态偏好数据的装置,包括:
10.根据权利要求9所述的装置,其中,所述预先训练的神经网络模型包括奖励模型。
11.根据权利要求9或10所述的装置,其中,生成模块包括:
12.根据权利要求11所述的装置,其中,所述数据生成子模块用于:
13.根据权利要求9-12中任一所述的装置,其中,所述多个问答信息由多个MLLM模型分别基于所述用户指令和所述第一文件生成。
14.根据权利要求9-13中任一所述的装置,其中,所述提取模块用于:
15.根据权利要求14所述的装置,其中,所述视觉信息提取模块包括图像描述模型和垂类视觉算子中的至少之一。
16.根据权利要求15所述的装置,其中,所述垂类视觉算子包括人脸识别算子、动物识别算子、植物识别算子、车辆识别算子和光学字符识别算子中的至少之一。
17.一种电子设备,包括:
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
...【技术特征摘要】
1.一种生成多模态偏好数据的方法,包括:
2.根据权利要求1所述的方法,其中,所述预先训练的神经网络模型包括奖励模型。
3.根据权利要求1或2所述的方法,其中,所述基于所述用户指令、所述第一文件、所述多个问答信息和所述针对各个所述问答信息的评估值,生成多模态偏好数据,包括:
4.根据权利要求3所述的方法,其中,基于数据组合,得到所述多模态偏好数据,包括:针对每个数据组合,对所述数据组合中的两个或多个评估值进行比较,根据比较结果,对所述组合中的两个或多个问答信息的质量进行排序;
5.根据权利要求1-4中任一所述的方法,其中,所述多个问答信息由多个多模态大语言模型mllm分别基于所述用户指令和所述第一文件生成。
6.根据权利要求1-5中任一所述的方法,其中,所述提取所述第一文件的视觉信息,包括:
7.根据权利要求6所述的方法,其中,所述视觉信息提取模块包括图像描述模型和垂类视觉算子中的至少之一。
8.根据权利要求7所述的方法,其中,所述垂类视觉算子包括人脸识别算子、动物识别算子、植物识别算子、车辆识别算子和光学字符识别算子中的至少之一。
9.一种生成多模态偏好数据...
【专利技术属性】
技术研发人员:顾佳昕,李弼,希滕,张刚,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。