数据处理及模型微调训练方法、计算机程序产品技术

技术编号：42488672 阅读：6 留言：0更新日期：2024-08-21 13:06

本申请实施例提供了一种数据处理及模型微调训练方法、计算机程序产品。其中，一种数据处理方法包括：通过第一层次模型对文本图像进行处理，以获取所述文本图像对应的多模态信息；将所述多模态信息转换为可被第二层次模型接受的中间格式信息，并将所述中间格式信息输入所述第二层次模型，以通过所述第二层次模型基于所述中间格式信息获得所述文本图像中的目标文本内容；其中，所述第一层次模型为用于对文本图像进行多种模态特征提取的模型，所述第二层次模型为生成式语言模型。通过本申请实施例，实现了准确地对文本图像中的内容进行信息提取。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及人工智能，尤其涉及一种数据处理方法、一种模型微调训练方法、及一种计算机程序产品。

技术介绍

1、在日常数据处理场景中，存在着大量富含表格、表单、混合多版式的复杂视觉文本图像，如，各式登记表单、学术论文、投资研究报告、企业年度报告、财务报告以、产品说明书等对应的图像。这些文本图像中往往蕴藏着丰富的信息，但普通的文本检测模型如ocr(optical character recognition，光学字符识别)模型等在对这类复杂视觉文本图像进行文本识别时，会严重受到除文本之外的信息的干扰，从而无法准确提取出文本信息，继而导致基于文本信息的后续处理也会出现异常。

2、因此，如何对复杂视觉文本图像中的信息进行准确提取，成为一个亟待解决的问题。

技术实现思路

1、有鉴于此，本申请实施例提供一种数据处理及对应的模型微调方案，以至少部分解决上述问题。

2、根据本申请实施例的第一方面，提供了一种数据处理方法，包括：通过第一层次模型对文本图像进行处理，以获取所述文本图像对应的多模态信息；将所述多模态信息转换为可被第二层次模型接受的中间格式信息，并将所述中间格式信息输入所述第二层次模型，以通过所述第二层次模型基于所述中间格式信息获得所述文本图像中的目标文本内容；其中，所述第一层次模型为用于对文本图像进行多种模态特征提取的模型，所述第二层次模型为生成式语言模型。

3、根据本申请实施例的第二方面，提供了另一种数据处理方法，包括：获取用于指示对法律文本图像中的

4、根据本申请实施例的第三方面，提供了一种模型微调训练方法，包括：获取训练样本，所述训练样本包括：可被待进行微调训练的生成式语言模型接受的中间格式信息形式的文本样本以设定标记语言表示的文本样本、和所述文本样本中的待提取对象的信息样本，所述文本样本中对应于所述待提取对象的文本真值标注信息，所述文本样本包括中携带有文本信息和视觉要素版面要素信息；根据所述待提取对象的信息样本，确定对应的格式模板；根据所述文本样本、所述待提取对象的信息样本、和所述格式模板，生成提示信息；使用将所述提示信息输入具有推理能力对经过预训练的大生成式语言模型，并根据所述生成式语言模型进行微调训练，以使训练获得的大语言模型能够按照所述格式模板的格式，输出预测获得的从所述文本样本中提取的与所述待提取对象的预测文本和所述文本真值标注信息的差异，对所述模型进行微调训练信息样本对应的内容。

5、根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面到第三方面任一方面所述方法对应的操作。

6、根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面到第三方面任一方面所述的方法。

7、根据本申请实施例的第六方面，提供了一种计算机程序产品，包括计算机程序/指令，其中，该计算机程序/指令被处理器执行时实现如第一方面到第三方面任一方面所述的方法步骤。

8、根据本申请实施例提供的数据处理方案，针对复杂视觉文本图像，采用了两层次机器学习模型处理的方案，其中，第一层次模型用于提取文本图像的多模态信息，但该多模态信息有可能不能被作为第二层次的生成式语言模型接受，为此，本申请实施例的方案中，使用可被第二层次的生成式语言模型接受的中间格式信息的形式，将该多模态信息转换为中间格式信息，进而交由第二层次模型即生成式语言模型进行处理。从而，一方面，多模态信息可以有效表征复杂视觉的文本图像的不同模态的信息，以助于后续进行更好的文本识别和提取；另一方面，使用两层次模型的结构，充分利用作为第二层次的生成式语言模型的推理能力，以基于多模态信息对应的中间格式信息，来准确获取文本图像中的目标文本内容；再一方面，对于作为第二层次的生成式语言模型来说，其难以实现对多模态信息的处理，而将多模态信息转换为中间格式信息，则可保证生成式语言模型的有效处理，也由此进一步保证了该生成式语言模型获取的目标文本内容的准确性。

本文档来自技高网...

【技术保护点】

1.一种数据处理方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述多模态信息转换为可被第二层次模型接受的中间格式信息，包括：

3.根据权利要求1或2所述的方法，其中，所述第一层次模型至少包括文本检测模型和版面检测模型；

4.根据权利要求3所述的方法，其中，所述文本信息包括所述文本图像中包含的文本、以及所述文本对应的文本位置，所述版面要素信息包括所述文本图像包含的版面要素的类型和位置；

5.根据权利要求4所述的方法，其中，所述根据所述文本信息中的文本和文本位置，以及，所述版面要素信息的类型和位置，获取所述文本图像对应的多模态信息，包括：

6.根据权利要求4所述的方法，其中，所述第一层次模型还包括表格重建模型；

7.根据权利要求6所述的方法，其中，所述根据所述文本信息、所述版面要素信息和所述表格信息，获取所述文本图像对应的多模态信息，包括：

8.根据权利要求1-4中任一项所述的方法，其中，

9.根据权利要求8所述的方法，其中，所述根据所述格式模板和所述中间格式信息，生成提示信息，包括：

10.根据权利要求2所述的方法，其中，所述设定标记语言格式包括MarkDown语言格式。

11.一种数据处理方法，包括：

12.根据权利要求11所述的方法，其中，所述第一层次模型至少包括文本检测模型和版面检测模型；

13.一种模型微调训练方法，包括：

14.一种计算机程序产品，包括计算机程序/指令，其中，该计算机程序/指令被处理器执行时实现权利要求1-13任一项所述的方法步骤。

...

【技术特征摘要】

1.一种数据处理方法，包括：

2.根据权利要求1所述的方法，其中，所述将所述多模态信息转换为可被第二层次模型接受的中间格式信息，包括：

3.根据权利要求1或2所述的方法，其中，所述第一层次模型至少包括文本检测模型和版面检测模型；

6.根据权利要求4所述的方法，其中，所述第一层次模型还包括表格重建模型；

7.根据权利要求6所述的...

【专利技术属性】
技术研发人员：肖谦，林君，孙常龙，宋凯嵩，
申请(专利权)人：浙江阿里巴巴机器人有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人