System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种财政电子票据异常信息识别方法、系统、设备及介质技术方案_技高网

一种财政电子票据异常信息识别方法、系统、设备及介质技术方案

技术编号:43627191 阅读:13 留言:0更新日期:2024-12-11 15:06
本发明专利技术涉及一种财政电子票据异常信息识别方法、系统、设备及介质,该方法包括以下步骤:采集票据数据,过滤格式无效或错误的票据数据,提取过滤后的票据数据的关键特征;对票据数据使用数据增强技术得到增强后的票据数据,将增强后的票据数据转换为JSON格式的数据集;使用数据集对Qwen‑7b大语言模型进行微调训练,并设计针对票据中的关键信息的微调训练提示词,以引导Qwen‑7b大语言模型更好地关注和提取这些信息;基于训练后的Qwen‑7b大语言模型对财政电子票据进行判断,并输出识别结果,实现对财政电子票据项目窜用的监测与异常信息的识别。

【技术实现步骤摘要】

本专利技术涉及一种财政电子票据异常信息识别方法、系统、设备及介质,属于财政电子票据监管领域。


技术介绍

1、随着信息技术的发展,财政电子票据已成为现代财政管理的重要组成部分。它们不仅提高了票据处理的效率,还降低了纸质票据的使用,减少了人为错误的可能性。然而,随着电子票据的普及,异常信息的检测和处理也成为了一个关键问题。异常信息包括票据的伪造、篡改、重复提交、过期等,这些异常信息如果未被及时发现,可能导致财政资金的流失和财务管理的混乱。

2、目前,异常信息识别的传统方法主要包括规则基方法和统计学方法。规则基方法通过预设的规则对票据进行筛查,这些规则通常是基于经验和历史数据的。然而,这种方法难以应对复杂多变的异常模式和新型的欺诈手段。统计学方法则通过数据分析发现异常模式,但这些方法通常需要大量的历史数据和较强的计算能力,对实时性和动态变化的适应性有限。

3、现有技术如专利号为“us10795752b2”的美国专利公开了一种资料验证方法。该方法包括以下步骤:提取待验证的日记帐分录数据及支持文档,包括对账以识别潜在错误。使用自然语言处理技术提取与分类账相关的实体,确定对应数据字段的值及其映射关系。当存在一对一映射时,选择对应值;否则,获取增强数据并处理以确定值。将值与实际值比较,生成潜在错误通知。通过规则和机器学习处理数据,检测异常并识别行为偏差的上下文信息。

4、上述现有技术存在的问题是,高度依赖于nlp技术和机器学习模型的准确性,这些模型的性能可能受到数据质量、模型设计、训练数据等多种因素的影响。通过详细的分类和映射逻辑来处理数据,这种方法在处理结构化或半结构化数据时可能非常有效。然而,当面对高度非结构化或变化频繁的数据时,这种方法可能变得不够灵活。


技术实现思路

1、为了解决上述现有技术中存在的问题,本专利技术提出了一种财政电子票据异常信息识别方法、系统、设备及介质。

2、本专利技术的技术方案如下:

3、一方面,本专利技术提供了一种财政电子票据异常信息识别方法,包括以下步骤:

4、采集票据数据,过滤格式无效或错误的票据数据,提取过滤后的票据数据的关键特征;其中,票据数据包括财政政策规定、法律法规、政策解读以及历史票据的数据,关键特征包括开票单位、票据种类、票据总金额、票据项目、项目金额、备注信息以及二级项目信息;

5、对票据数据使用数据增强技术得到增强后的票据数据,将增强后的票据数据转换为json格式的数据集;

6、使用数据集对qwen-7b大语言模型进行微调训练,并设计针对票据中的关键信息的微调训练提示词,以引导qwen-7b大语言模型更好地关注和提取这些信息;

7、基于训练后的qwen-7b大语言模型对财政电子票据进行判断,并输出识别结果。

8、作为优选实施方式,所述数据增强技术包括回译、近义词代替以及笛卡尔集;

9、回译:将票据数据中的备注或二级项目信息通过翻译工具多次翻译为其他语种文字,再将其他语种文字翻译回中文,从而获得语句的相近表述;

10、近义词替代:将票据数据中的备注或二级项目信息中的关键词用近义词替代,形成新的样本;其中,关键词包括但不限于捐赠、赞助和集资;

11、笛卡尔集:将票据数据中篡用的可疑数据,与随机的票据数据做笛卡尔集,形成新的可疑样本。

12、作为优选实施方式,qwen-7b大语言模型的微调训练方法为:

13、将json格式的数据集分为训练数据集和验证数据集;

14、使用transformers库加载qwen-7b模型;

15、配置训练的学习率、批次大小以及训练轮;

16、加载预训练的qlora模型;

17、编写训练循环,使用qlora模型和训练数据集对qwen-7b模型进行微调,记录微调过程中的权重;

18、使用验证集评估微调后的模型性能,基于模型性能调整微调过程中的权重。

19、作为优选实施方式,模型推理过程中结合rag技术,具体为通过rag技术检索相关知识库或数据库中的信息,增强模型的生成能力。

20、作为优选实施方式,所述提示词包括项目名称和备注内容;

21、提示词保存于数据库中,通过mybatis框架的预处理语句将提示词注入进qwen-7b模型。

22、另一方面,本专利技术还提供了一种财政电子票据异常信息识别系统,包括:

23、数据采集模块,采集票据数据,过滤格式无效或错误的票据数据,提取过滤后的票据数据的关键特征;其中,票据数据包括财政政策规定、法律法规、政策解读以及历史票据的数据,关键特征包括开票单位、票据种类、票据总金额、票据项目、项目金额、备注信息以及二级项目信息;

24、数据处理模块,对票据数据使用数据增强技术得到增强后的票据数据,将增强后的票据数据转换为json格式的数据集;

25、模型训练模块,使用数据集对qwen-7b大语言模型进行微调训练,并设计针对票据中的关键信息的微调训练提示词,以引导qwen-7b大语言模型更好地关注和提取这些信息;

26、结果输出模块,基于训练后的qwen-7b大语言模型对财政电子票据进行判断,并输出识别结果。

27、再一方面,本专利技术还提供一种电子设备,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本专利技术任一实施例所述的财政电子票据异常信息识别方法。

28、再一方面,本专利技术还提供一种计算机可读介质,用于存储一个或者多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如本专利技术任一实施例所述的财政电子票据异常信息识别方法。

29、本专利技术具有如下有益效果:

30、本专利技术采用数据增强技术处理票据数据,这有助于增加数据集的多样性和丰富度,从而提高后续模型训练的准确性和鲁棒性。通过数据增强,模型能够学习到更多样化的数据特征,从而在处理实际数据时表现更加出色。使用大语言模型qwen-7b进行微调训练,该模型具备强大的语言理解和生成能力。通过设计针对票据中关键信息的微调训练提示词,可以引导模型更好地关注和提取这些信息,进一步提高数据处理的准确性和效率。

31、实现了票据数据的自动化处理和判断,大大减轻了人工审核的负担。通过训练后的qwen-7b大语言模型,可以对财政电子票据进行快速、准确的识别和判断,并输出识别结果。这不仅提高了工作效率,还降低了人为错误的风险。

本文档来自技高网...

【技术保护点】

1.一种财政电子票据异常信息识别方法,其特征在于,包括以下步骤:采集票据数据,过滤格式无效或错误的票据数据,提取过滤后的票据数据的关键特征;其中,票据数据包括财政政策规定、法律法规、政策解读以及历史票据的数据,关键特征包括开票单位、票据种类、票据总金额、票据项目、项目金额、备注信息以及二级项目信息;对票据数据使用数据增强技术得到增强后的票据数据,将增强后的票据数据转换为JSON格式的数据集;使用数据集对Qwen-7b大语言模型进行微调训练,并设计针对票据中的关键信息的微调训练提示词,以引导Qwen-7b大语言模型更好地关注和提取这些信息;基于训练后的Qwen-7b大语言模型对财政电子票据进行判断,并输出识别结果。

2.根据权利要求1所述的财政电子票据异常信息识别方法,其特征在于,所述数据增强技术包括回译、近义词代替以及笛卡尔集;

3.根据权利要求1所述的财政电子票据异常信息识别方法,其特征在于,Qwen-7b大语言模型的微调训练方法为:

4.根据权利要求3所述的财政电子票据异常信息识别方法,其特征在于,模型推理过程中结合RAG技术,具体为通过RAG技术检索相关知识库或数据库中的信息,增强模型的生成能力。

5.根据权利要求1所述的财政电子票据异常信息识别方法,其特征在于,所述提示词包括项目名称和备注内容;

6.一种财政电子票据异常信息识别系统,其特征在于,包括:

7.根据权利要求6所述的财政电子票据异常信息识别系统,其特征在于,所述模型训练模块,Qwen-7b大语言模型的微调训练方法为:

8.根据权利要求7所述的财政电子票据异常信息识别系统,其特征在于,所述模型训练模块,模型推理过程中结合RAG技术,具体为通过RAG技术检索相关知识库或数据库中的信息,增强模型的生成能力。

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的财政电子票据异常信息识别方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5任一项所述的财政电子票据异常信息识别方法。

...

【技术特征摘要】

1.一种财政电子票据异常信息识别方法,其特征在于,包括以下步骤:采集票据数据,过滤格式无效或错误的票据数据,提取过滤后的票据数据的关键特征;其中,票据数据包括财政政策规定、法律法规、政策解读以及历史票据的数据,关键特征包括开票单位、票据种类、票据总金额、票据项目、项目金额、备注信息以及二级项目信息;对票据数据使用数据增强技术得到增强后的票据数据,将增强后的票据数据转换为json格式的数据集;使用数据集对qwen-7b大语言模型进行微调训练,并设计针对票据中的关键信息的微调训练提示词,以引导qwen-7b大语言模型更好地关注和提取这些信息;基于训练后的qwen-7b大语言模型对财政电子票据进行判断,并输出识别结果。

2.根据权利要求1所述的财政电子票据异常信息识别方法,其特征在于,所述数据增强技术包括回译、近义词代替以及笛卡尔集;

3.根据权利要求1所述的财政电子票据异常信息识别方法,其特征在于,qwen-7b大语言模型的微调训练方法为:

4.根据权利要求3所述的财政电子票据异常信息识别方法,其特征在于,模型推理过程中结...

【专利技术属性】
技术研发人员:陈庸凯周丽红黄荣明陈海量池文倩马作玲
申请(专利权)人:福建博思软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1