一种基于多模态大模型的图表分析方法、架构及终端技术

技术编号：43784075 阅读：29 留言：0更新日期：2024-12-24 16:18

本发明专利技术公开了一种基于多模态大模型的图表分析方法、架构及终端，所述方法包括：多模态大模型的视觉编码器对待分析的图表进行投影处理，得到多个视觉投影令牌；所述多模态大模型的专家桥接模块对多个所述视觉投影令牌进行转换处理，分别得到多个视觉投影序列；所述多模态大模型的大语言模型对用户提问文本进行预处理，得到多个文本投影序列，并将多个所述视觉投影序列和多个所述文本投影序列进行拼接，得到多个拼接序列；所述大语言模型对多个所述拼接序列进行序列解码处理，得到与所述用户提问文本对应的图表应答结果。本发明专利技术通过构建多模态大模型，能够实现对图表内容的准确分析，并有效提高了图表的解析效率以及应答准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，尤其涉及一种基于多模态大模型的图表分析方法、架构、终端及计算机可读存储介质。

技术介绍

1、随着图表数据规模的快速增长，如何能够实现对图表内容的快速、高效、准确的分析成为越来越重要的研究内容。

2、但是，现有技术中多模态大模型在预训练时多是采用的自然图像，因此，对于无数据点标注的图表，多模态大模型无法从图表中提取可信的数值，这导致多模态大模型严重依赖自身的ocr（光学字符识别）能力处理图表，若ocr的能力较低，则会导致基于ocr得到的数值不准确，进而导致大模型输出的图表分析结果准确率低。现有技术中，通过对图表数据的有监督微调可提升多模态大模型在图表方面的分析能力，但会造成其通用性能尤其是其推理能力和连续对话能力的下降，导致多模态大模型无法在保持优秀的通用性能的同时增强对图表分析的能力。

3、因此，现有技术无法通过多模态大模型实现对图表内容的准确分析，还有待于改进和发展。

技术实现思路

1、本专利技术的主要目的在于提供一种基于多模态大模型的图表分析方法、架构、终端及计算机可读存储介质，旨在解决现有技术中无法通过多模态大模型对图表内容进行准确分析的问题。

2、为实现上述目的，本专利技术提供一种基于多模态大模型的图表分析方法，所述基于多模态大模型的图表分析方法包括如下步骤：

3、多模态大模型的视觉编码器对待分析的图表进行投影处理，得到多个视觉投影令牌；

4、所述多模态大模型的专家桥接模块对多个所述视觉投影

5、所述多模态大模型的大语言模型对用户提问文本进行预处理，得到多个文本投影序列，并将多个所述视觉投影序列和多个所述文本投影序列进行拼接，得到多个拼接序列；

6、所述大语言模型对多个所述拼接序列进行序列解码处理，得到与所述用户提问文本对应的图表应答结果。

7、可选地，所述的基于多模态大模型的图表分析方法，其中，所述多模态大模型的视觉编码器对待分析的图表进行投影处理，得到多个视觉投影令牌，具体包括：

8、获取待分析的图表，并将所述待分析的图表输入至所述多模态大模型；

9、通过所述多模态大模型中的所述视觉编码器对所述待分析的图表进行投影处理，得到多个视觉投影令牌。

10、可选地，所述的基于多模态大模型的图表分析方法，其中，所述专家桥接模块包括门控网络以及至少一个专家连接器；

11、其中，所述专家连接器包括表格对齐专家连接器、json对齐专家连接器以及代码对齐专家连接器。

12、可选地，所述的基于多模态大模型的图表分析方法，其中，通过对齐任务预训练获得所述专家连接器的初始化参数，其中：

13、通过图表表格对齐任务预训练获得所述表格对齐专家连接器的初始化参数；

14、通过图表json对齐任务预训练获得所述json对齐专家连接器的初始化参数；

15、通过图表代码对齐任务预训练获得所述代码对齐专家连接器的初始化参数。

16、可选地，所述的基于多模态大模型的图表分析方法，其中，所述多模态大模型的专家桥接模块对多个所述视觉投影令牌进行转换处理，分别得到多个视觉投影序列，具体包括：

17、将多个所述视觉投影令牌输入至所述专家桥接模块中，通过所述专家桥接模块确定每个所述视觉投影令牌对应的门控网络，并通过所述门控网络激活所述专家桥接模块中至少一个目标专家连接器；

18、将每个所述视觉投影令牌分别输入至每个所述目标专家连接器中，并通过每个所述目标专家连接器对每个所述视觉投影令牌进行转换处理，分别得到多个视觉投影序列。

19、可选地，所述的基于多模态大模型的图表分析方法，其中，所述通过所述门控网络激活所述专家桥接模块中至少一个目标专家连接器，具体包括：

20、所述门控网络根据每个所述视觉投影令牌计算所述专家桥接模块中每个专家连接器对应的路由权重；

21、根据所述路由权重按从大到小的顺序将对应的专家连接器进行排序，并激活排序靠前预设数量个目标专家连接器。

22、可选地，所述的基于多模态大模型的图表分析方法，其中，所述将每个所述视觉投影令牌分别输入至每个所述目标专家连接器中，并通过每个所述目标专家连接器对每个所述视觉投影令牌进行转换处理，分别得到多个视觉投影序列，具体包括：

23、将每个所述视觉投影令牌分别输入至每个所述目标专家连接器中，通过每个所述目标专家连接器对每个所述视觉投影令牌进行转换处理，则每个所述视觉投影令牌得到多个目标视觉投影令牌；

24、获取所述目标专家连接器对应的目标路由权重，并根据所述目标路由权重对多个所述目标视觉投影令牌进行加权平均处理，得到所述视觉投影令牌对应的视觉投影序列。

25、可选地，所述的基于多模态大模型的图表分析方法，其中，所述大语言模型包括编码器、拼接模块以及解码器；

26、所述多模态大模型的大语言模型对用户提问文本进行预处理，得到多个文本投影序列，并将多个所述视觉投影序列和多个所述文本投影序列进行拼接，得到多个拼接序列，具体包括：

27、获取用户提问文本，将所述用户提问文本输入至所述大语言模型，通过所述大语言模型中的编码器对所述用户提问文本进行分词处理和编码处理，得到多个文本投影序列；

28、通过所述大语言模型的拼接模块将多个所述视觉投影序列和多个所述文本投影序列进行拼接，得到多个拼接序列。

29、可选地，所述的基于多模态大模型的图表分析方法，其中，所述大语言模型对多个所述拼接序列进行序列解码处理，得到与所述用户提问文本对应的图表应答结果，具体包括：

30、将多个所述拼接序列输入至所述大语言模型的解码器；

31、通过所述解码器对多个所述拼接序列进行序列解码处理，得到与所述用户提问文本对应的图表应答结果。

32、此外，为实现上述目的，本专利技术还提供一种基于多模态大模型的图表分析方法的多模态大模型架构，其中，所述多模态大模型架构包括视觉编码器、专家桥接模块以及大语言模型，所述视觉编码器与所述大语言模型通过所述专家桥接模块连接。

33、可选地，所述多模态大模型架构预先根据如下步骤进行训练：

34、确定对齐任务，并根据所述对齐任务对所述多模态大模型架构中的所述专家桥接模块进行对齐预训练处理，得到专家连接器；

35、采用有监督的微调方法，对所述多模态大模型架构进行模型训练和模型微调；

36、其中，所述对齐任务为图表表格对齐任务、图表json对齐任务以及图表代码对齐任务中的一种或多种。

37、可选地，所述的多模态大模型架构，其中，所述确定对齐任务，并根据所述对齐任务对所述多模态大模型架构中的所述专家桥接模块进行对齐预训练处理，得到专家连接器，包括：

38、若所述对齐任务为图表表格对齐任务，则根据所述图表表格本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的图表分析方法，其特征在于，所述基于多模态大模型的图表分析方法包括：

2.根据权利要求1所述的基于多模态大模型的图表分析方法，其特征在于，所述多模态大模型的视觉编码器对待分析的图表进行投影处理，得到多个视觉投影令牌，具体包括：

3.根据权利要求1所述的基于多模态大模型的图表分析方法，其特征在于，所述专家桥接模块包括门控网络以及至少一个专家连接器；

4.根据权利要求3所述的基于多模态大模型的图表分析方法，其特征在于，通过对齐任务预训练获得所述专家连接器的初始化参数，其中：

5.根据权利要求3所述的基于多模态大模型的图表分析方法，其特征在于，所述多模态大模型的专家桥接模块对多个所述视觉投影令牌进行转换处理，分别得到多个视觉投影序列，具体包括：

6.根据权利要求5所述的基于多模态大模型的图表分析方法，其特征在于，所述通过所述门控网络激活所述专家桥接模块中至少一个目标专家连接器，具体包括：

7.根据权利要求5所述的基于多模态大模型的图表分析方法，其特征在于，所述将每个所述视觉投影令牌分别输入至

8.根据权利要求1所述的基于多模态大模型的图表分析方法，其特征在于，所述大语言模型包括编码器、拼接模块以及解码器；

9.根据权利要求8所述的基于多模态大模型的图表分析方法，其特征在于，所述大语言模型对多个所述拼接序列进行序列解码处理，得到与所述用户提问文本对应的图表应答结果，具体包括：

10.一种基于权利要求1-9任一项所述的基于多模态大模型的图表分析方法的多模态大模型架构，其特征在于，所述多模态大模型架构包括视觉编码器、专家桥接模块以及大语言模型，所述视觉编码器与所述大语言模型通过所述专家桥接模块连接。

11.根据权利要求10所述的多模态大模型架构，其特征在于，所述多模态大模型架构预先根据如下步骤进行训练：

12.根据权利要求11所述的多模态大模型架构，其特征在于，所述确定对齐任务，并根据所述对齐任务对所述多模态大模型架构中的所述专家桥接模块进行对齐预训练处理，得到专家连接器，包括：

13.根据权利要求11所述的多模态大模型架构，其特征在于，所述确定对齐任务，并根据所述对齐任务对所述多模态大模型架构中的所述专家桥接模块进行对齐预训练处理，得到专家连接器，包括：

14.根据权利要求11所述的多模态大模型架构，其特征在于，所述确定对齐任务，并根据所述对齐任务对所述多模态大模型架构中的所述专家桥接模块进行对齐预训练处理，得到专家连接器，包括：

15.根据权利要求11所述的多模态大模型架构，其特征在于，所述有监督的微调方法包括：高质量知识学习训练和特定于图表的退火调优训练。

16.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于多模态大模型的图表分析程序，所述基于多模态大模型的图表分析程序被所述处理器执行时实现如权利要求1-9任一项所述的基于多模态大模型的图表分析方法的步骤。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于多模态大模型的图表分析程序，所述基于多模态大模型的图表分析程序被处理器执行时实现如权利要求1-9任一项所述的基于多模态大模型的图表分析方法的步骤。

...

【技术特征摘要】

1.一种基于多模态大模型的图表分析方法，其特征在于，所述基于多模态大模型的图表分析方法包括：

3.根据权利要求1所述的基于多模态大模型的图表分析方法，其特征在于，所述专家桥接模块包括门控网络以及至少一个专家连接器；

4.根据权利要求3所述的基于多模态大模型的图表分析方法，其特征在于，通过对齐任务预训练获得所述专家连接器的初始化参数，其中：

7.根据权利要求5所述的基于多模态大模型的图表分析方法，其特征在于，所述将每个所述视觉投影令牌分别输入至每个所述目标专家连接器中，并通过每个所述目标专家连接器对每个所述视觉投影令牌进行转换处理，分别得到多个视觉投影序列，具体包括：

8.根据权利要求1所述的基于多模态大模型的图表分析方法，其特征在于，所述大语言模型包括编码器、拼接模块以及解码器；

10.一种基于权利要求1-9任一项所述的基于多模态大模型的...

【专利技术属性】
技术研发人员：齐逸岩，许正卓，瞿博文，幺宝刚，郭健，
申请(专利权)人：粤港澳大湾区数字经济研究院福田，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人