当前位置: 首页 > 专利查询>哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院专利>正文

基于多模态大模型的图片金融指令解析方法及相关装置制造方法及图纸

技术编号：44827594 阅读：2 留言：0更新日期：2025-03-28 20:19

本申请提供了一种基于多模态大模型的图片金融指令解析方法及相关装置。方法包括：S1，输入包含投资交易指令的原始文档图片，使用光学字符识别模型对原始文档图片进行文本识别，得到文本块列表；S2，针对文本块列表，构建图片交易指令解析提示语句和位置信息向量，并将图片交易指令解析提示语句和位置信息向量输入图片交易指令解析大模型，由图片交易指令解析大模型输出对应的交易指令列表，交易指令列表包含图片中所有的交易指令；S3，针对交易指令列表，与交易业务知识库进行比对和验证，根据业务规则补充附属要素，以及根据文本特征修正因光学字符识别错误导致的文本错误要素；S4，输出经过上述处理步骤后的完整交易指令。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图片文本要素识别领域，具体为一种基于多模态大模型的图片金融指令解析方法及相关装置。

技术介绍

1、在投资领域的数字化转型中，图片交易指令的识别与解析成为提升交易效率的关键环节。传统上，交易经理向交易员传达的指令，常常以图片形式出现，这些图片指令中蕴含着丰富的交易信息，包括股票代码、交易量、价格等关键数据。

2、然而，图片指令往往伴随着复杂的背景、模糊的字迹或是行业特有的符号和术语，这给指令的准确理解和快速执行带来了不小的挑战。

技术实现思路

1、为应对这一难题，本申请提供了一种基于多模态大模型的图片金融指令解析方法、系统、计算机可读存储介质及装置。该方法通过深度学习技术，能够从图片中准确提取交易指令信息，即使在复杂背景或模糊字迹的情况下，也能保持较高的识别准确率。系统利用多模态大语言模型的预训练能力，结合自然语言处理和图像识别技术，通过对齐预训练和有监督微调，增强了对投资领域专业术语和符号的理解，确保了指令解析的精准度。

2、这一创新方法的应用，为投资领域带来了显著的变革。首先，自动图片指令解析技术能大幅降低基金公司的人力成本，缩短交易周期，显著提升工作效率。其次，通过大语言模型的强大参数优势，系统能更准确地理解图片指令中的信息，减少对人工干预的依赖，提高交易的准确性和效率。最后，通过与企业知识库的联动，系统能进一步优化图片指令的后处理，实现业务逻辑上的规则校验与匹配，确保交易的合规性和安全性。

3、综上所述，基于多模态大语言模型的

4、本专利技术旨在攻克传统图片交易指令人工解析方式所面临的效率与准确性难题。在传统的解析流程中，依赖人工阅读和理解图片指令不仅消耗大量时间与人力资源，而且极易受到主观判断的影响，增加了解析错误的潜在风险。面对日益增长的交易量与复杂多变的市场环境，投资领域迫切需要一种更快捷、更智能的解决方案，以显著提升指令识别的效率与准确性。

5、采用本专利技术提出的基于多模态大语言模型的图片交易指令解析方法和系统，能够实现指令解析的自动化与智能化，显著加快解析速度，大幅降低对人力的依赖，进而显著提升工作效率。大语言模型的引入，不仅能够处理复杂背景下的图片指令，还能通过深度学习理解行业特有的符号和术语，减少解析错误，确保交易指令的准确执行。这一创新方案，标志着投资领域在自动化与智能化道路上迈出了坚实的一步，为提升交易效率、降低运营成本、增强市场竞争力提供了强有力的技术支持。

6、有鉴于此，本申请第一方面提供了一种基于多模态大模型的图片金融指令解析方法。该方法包括：步骤s1，输入包含投资交易指令的原始文档图片，使用光学字符识别模型对所述原始文档图片进行文本识别，得到包含文本内容和文本坐标的文本块列表；步骤s2，针对所述文本块列表，构建图片交易指令解析提示语句和位置信息向量，并将所述图片交易指令解析提示语句和位置信息向量输入图片交易指令解析大模型，由所述图片交易指令解析大模型输出对应的交易指令列表，所述交易指令列表包含图片中所有的交易指令；步骤s3，针对所述交易指令列表，每一项指令都与交易业务知识库进行比对和验证，根据业务规则补充附属要素，以及根据文本特征修正因光学字符识别错误导致的文本错误要素，以确保其完整性和准确性；步骤s4，输出经过上述处理步骤后的完整交易指令。

7、结合第一方面，在一种可能的实现方式中，所述步骤s2包括：步骤s21，对于所述文本块列表中的文本内容，构建投资交易指令图片识别提示语句，所述投资交易指令图片识别提示语句包含以下的一项或是多项：a任务描述提示语句、b目标识别要素名称列表提示语句、c要素示例提示语句、d输出格式样例提示语句、e待解析的投资交易指令图片文本内容；其中，所述任务描述提示语句用于阐述识别任务目标的文本来源与输出格式；所述目标识别要素名称列表提示语句用于以高可读性列表展示要素名称；所述要素示例提示语句包含要素类型对应的可能要素值；输出格式样例提示语句用于给出输出结果格式示例；步骤s22，对于所述文本块列表中的文本位置坐标信息，使用位置坐标投影层构建文本位置坐标信息向量；步骤s23，将所述投资交易指令图片识别提示语句和所述文本位置坐标信息向量一起输入所述图片交易指令解析大模型，生成对应的多条交易指令组成的交易指令列表。

8、结合第一方面，在一种可能的实现方式中，所述图片交易指令解析大模型是一个自回归式的预训练语言模型，所述图片交易指令解析大模型的输入是一段字符串文本和文本位置坐标信息向量，所述字符串文本中包括任务描述，任务信息，任务要求，输出格式，用于指导和规范交易指令解析大模型的生成结果；所述文本位置坐标信息向量用于指导所述图片交易指令解析大模型理解文本内容在原图片上的相对位置，所述图片交易指令解析大模型的构建步骤具体包括：步骤s31，构建图片交易指令解析大模型位置坐标投影层预训练对齐数据集，采用包含强位置信息关联的数据构建预训练对齐数据集，采用表格文档图片，表单文档图片等，将文档图片的文本内容和文本位置坐标信息作为输入，文档图片的结构化信息作为标签出，构建有监督数据集；步骤s32，构建图片交易指令解析大模型微调数据集，使用包含位置相关信息的文档问答数据，将文档图片的文本内容、文本位置坐标信息和文档问答的问题作为输入，文档问答的答案作为标签，构建有监督微调数据集；步骤s33，使用图片交易指令大模型预训练对齐数据集，在已有的多模态大模型基础之上进行对齐训练，得到图片交易指令基础大模型；步骤s34，使用图片交易指令识别有监督微调数据集，在图片交易指令基础大模型上进行有监督微调训练，得到图片交易指令解析大模型。

9、结合第一方面，在一种可能的实现方式中，步骤s33还包括：步骤s2321，建立大规模表格图片与表格结构化表示文本的数据集，其中表格结构化表示文本的语法规范为html格式，进行文本清洗和过滤；步骤s2322，建立大规模文档图片与文档结构化表示文本的数据集，并使用规则剔除低质量数据，其中文档结构化表示文本的语法规范是markdown格式，其中表格的语法规范是html格式。

10、结合第一方面，在一种可能的实现方式中，所述步骤s3具体包括：步骤s31，遍历所述交易指令列表，使用业务相关的企业知识库对每条交易指令的要素进行检索匹配，根据关键要素补全附属要素；步骤s32，遍历补全后的交易指令列表，使用字符串比较算法，将要素值与业务知识库中的条目进行比对，纠正由于光学字符识别模型识别错误导致的错误要素；步骤s33，遍历补全后的交易指令列表，对重复冲突要素进行消歧修复，得到修正与补全后的最终交易指令列表。

11、本申请第二方面提供了一种基于多模态大模型的图片金融指令解析系统，该系统用于实现本申请第一方面至第一方面的任意一种可能的实现方式。所述系统包括：多模态大语言模型预训练模块，本文档来自技高网...

【技术保护点】

1.一种基于多模态大模型的图片金融指令解析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态大模型的图片金融指令解析方法，其特征在于，所述步骤S2包括：

3.根据权利要求2所述的基于多模态大模型的图片金融指令解析方法，其特征在于，所述图片交易指令解析大模型是一个自回归式的预训练语言模型，所述图片交易指令解析大模型的输入是一段字符串文本和文本位置坐标信息向量，所述字符串文本中包括任务描述，任务信息，任务要求，输出格式，用于指导和规范交易指令解析大模型的生成结果；所述文本位置坐标信息向量用于指导所述图片交易指令解析大模型理解文本内容在原图片上的相对位置，所述图片交易指令解析大模型的构建步骤具体包括：

4.根据权利要求3所述的基于多模态大模型的图片金融指令解析方法，其特征在于，步骤S33还包括：

5.根据权利要求1所述的基于多模态大模型的图片金融指令解析方法，其特征在于，所述步骤S3具体包括：

6.一种基于多模态大模型的图片金融指令解析系统，其特征在于，所述系统应用于权利要求1-5中任意一项所述的基于多模态大

7.根据权利要求6所述的基于多模态大模型的图片金融指令解析系统，其特征在于，大模型预训练模块包括多模态大语言模型预训练模块以及多模态大语言模型有监督微调模块；

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行如权利要求1～5任一项所述的基于多模态大模型的图片金融指令解析方法。

9.一种装置，其包括相连的处理器和存储器，其特征在于：所述处理器用于执行所述存储器中存储的计算机程序，以执行如权利要求1～5中任一项所述的基于多模态大模型的图片金融指令解析方法。

...

【技术特征摘要】

1.一种基于多模态大模型的图片金融指令解析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态大模型的图片金融指令解析方法，其特征在于，所述步骤s2包括：

4.根据权利要求3所述的基于多模态大模型的图片金融指令解析方法，其特征在于，步骤s33还包括：

5.根据权利要求1所述的基于多模态大模型...

【专利技术属性】
技术研发人员：陈清财，倪桐珂，吴湘平，朱文韬，
申请(专利权)人：哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人