System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,更具体地,涉及一种基于大语言模型的智能凭证稽核方法及系统。
技术介绍
1、当前,企业在处理稽核各类凭证文件的过程中,普遍采用以下两种主流技术手段:
2、人工审核:许多企业依赖专业财务人员对凭证进行逐一检查,以确保数据的准确性和合规性。在这个过程中,财务人员凭借其丰富的经验和专业知识,能够敏锐地发现潜在的问题和错误。例如,对于一些复杂的财务交易,人工审核能够根据上下文和业务逻辑进行综合判断,避免单纯依据数据而产生的误判。然而,人工审核也存在一些明显的局限性。比如,它高度依赖个人的精力和专注度,长时间的工作容易导致疲劳和疏漏。而且,当业务量大幅增加时,人工审核的效率难以跟上,可能会造成审核周期的延长,影响企业的运营效率。
3、ocr结合规则引擎:为提高效率,一些企业实施了基于ocr(光学字符识别)和预设规则的自动化引擎,用以分类和稽核凭证。ocr技术能够快速将纸质凭证或图像形式的凭证转换为可处理的电子数据,而规则引擎则根据预先设定的条件和逻辑对这些数据进行筛选和判断。这在很大程度上减轻了人工的负担,提高了处理速度。以发票的识别和验证为例,ocr可以准确读取发票上的关键信息,规则引擎则能迅速判断发票的真伪和合规性。但这种方式也并非完美无缺。由于规则的预设性,对于一些特殊情况或新出现的业务模式,可能无法进行有效的识别和处理。而且,ocr技术本身的准确性也会受到凭证质量、字体清晰度等因素的影响,从而可能导致误判。
4、这些方法在一定程度上满足了企业的基本需求,但随着业务量的增长和业务
5、现有技术如专利号为“cn117876139a”的中国专利公开了一种财务信息管理系统。该系统包括智能填单、智能审核、风险管控、费用分析、预算规划、通知审批和系统管理模块,实现全方位财务管理。智能填单模块利用ocr技术快速录入财务数据,与外部数据源联通,自动填写表单。智能审核模块通过逻辑验证自动化审核财务信息,能与税务机关直连验证发票真伪。风险管控自动拦截异常报账,费用分析模块数字化分析报销数据,生成智能报表。预算与规划模块基于历史数据提供财务建议,通知与审批模块管理审批流程,系统管理模块负责用户权限和系统日志。本专利技术提高了工作效率、降低了风险、对财务数据进行数字化分析以及提供了预测与规划建议,同时简化了流程管理。
6、上述现有技术存在的问题有:
7、规则引擎灵活性差:规则引擎往往难以适应快速变化的业务需求和多样化的凭证格式,导致其应用范围受限。
8、处理速度慢:面对大量凭证,规则引擎的处理速度难以满足企业对效率的要求,成为业务流程中的瓶颈。
9、缺乏语义理解:现有技术通常无法深入理解凭证内容的语义,这可能导致对凭证的误解或错误处理,影响决策的准确性。
技术实现思路
1、为解决上述技术问题,本专利技术提出了一种基于大语言模型的智能凭证稽核方法及系统。
2、本专利技术技术方案如下:
3、本专利技术提出方法一种基于大语言模型的智能凭证稽核方法,包括以下步骤:
4、步骤s1,采集用户上传凭证数字副本并为上传的数字副本添加标签,通过添加的标签对处理流程进行追踪与排序;
5、步骤s2,使用光学字符识别ocr技术,提取上传的数字副本结构化文字信息;
6、步骤s3,使用大型语言模型,对光学字符识别ocr提取的文字信息进行语义分析;
7、步骤s4,基于语义分析的结果,将凭证数字副本归类到预设的类别中;
8、步骤s5,使用预设规则和大语言模型的深入语义理解,参照收集的原始票据结构化数据对分类后的凭证数字副本进行稽核;
9、步骤s6,将凭证数字副本的分类和稽核的结果按照添加标签进行汇总,得到凭证数字副本稽核最终结果并输出给用户,用户根据输出结果对稽核流程进行管理和调整;
10、步骤s7,根据用户对输出结果的反馈,将分类和稽核结果存入知识库持续进行大语言模型训练和优化,自动调整分类和稽核规则。
11、作为优选实施方式,所述使用光学字符识别ocr技术,提取上传的数字副本结构化文字信息,包括以下步骤:
12、移除用户上传凭证的数字副本中存在的背景噪声,将数字副本图像转换为黑白,调整数字副本图像的亮度和对比度;
13、使用文本定位算法定位数字副本中的文本区域;
14、对每个文本区域进行字符分割,使用光学字符识别ocr引擎对每个字符进行识别,将图像中的字符转换为文本数据;
15、对识别结果进行后处理操作,并输出文本数据;所述后处理操作包括字符的连接、错误矫正、去除多余空格和特殊字符。
16、作为优选实施方式,所述基于语义分析的结果,将凭证数字副本归类到预设的类别中,其中一级分类包括:科研差旅费报销业务、通用报销业务、举办会议和培训报销业务、劳务费、设备采购、人力成本报销业务;每个一级分类下设置若干二级分类。
17、作为优选实施方式,所述参照收集的原始票据结构化数据对分类后的凭证数字副本进行稽核;其中,凭证数字副本项目名称稽核,通过大型中文文本向量化模型text2vec-large-chinese将稽核的项目名称向量化,并使用余弦相似度计算与原始票据名称相似度,计算出的相似度大于预设阈值,则保留高度相似且语义相同的凭证项目名称。
18、另一方面,本专利技术还提供一种基于大语言模型的智能凭证稽核系统,包括:
19、凭证采集模块,采集用户上传凭证数字副本并为上传的数字副本添加标签,通过添加的标签对处理流程进行追踪与排序;
20、光学字符识别ocr处理模块,使用光学字符识别ocr技术,提取上传的数字副本结构化文字信息;
21、语义分析模块,使用大型语言模型,对光学字符识别ocr提取的文字信息进行语义分析;
22、分类模块,基于语义分析的结果,将凭证数字副本归类到预设的类别中;
23、智能稽核模块,使用预设规则和大语言模型的深入语义理解,参照收集的原始票据结构化数据对分类后的凭证数字副本进行稽核;
24、结果输出与反馈调整模块,将凭证数字副本的分类和稽核的结果按照添加标签进行汇总,得到凭证数字副本稽核最终结果并输出给用户,用户根据输出结果对稽核流程进行管理和调整;
25、知识库学习模块,根据用户对输出结果的反馈,将分类和稽核结果存入知识库持续进行大语言模型训练和优化,自动调整分类和稽核规则。
26、作为优选实施方式,所述光学字符识别ocr处理模块,使用光学字符识别ocr技术,提取上传的数字副本结构化文字信息,包括以下步骤:
27、移除用户上传凭证的数字副本中存在的背景噪声,将数字副本图像转换为黑白,调整数字副本图像的亮度和对比度;
28、使用文本定位算法定位数字副本中的文本区域;
29、对每个文本区域进行字本文档来自技高网...
【技术保护点】
1.一种基于大语言模型的智能凭证稽核方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于大语言模型的智能凭证稽核方法,其特征在于,所述使用光学字符识别OCR技术,提取上传的数字副本结构化文字信息,包括以下步骤:
3.根据权利要求1所述的一种基于大语言模型的智能凭证稽核方法,其特征在于:所述基于语义分析的结果,将凭证数字副本归类到预设的类别中,其中一级分类包括:科研差旅费报销业务、通用报销业务、举办会议和培训报销业务、劳务费、设备采购、人力成本报销业务;每个一级分类下设置若干二级分类。
4.根据权利要求1所述的一种基于大语言模型的智能凭证稽核方法,其特征在于:所述参照收集的原始票据结构化数据对分类后的凭证数字副本进行稽核;其中,凭证数字副本项目名称稽核,通过大型中文文本向量化模型text2vec-large-chinese将稽核的项目名称向量化,并使用余弦相似度计算与原始票据名称相似度,计算出的相似度大于预设阈值,则保留高度相似且语义相同的凭证项目名称。
5.一种基于大语言模型的智能凭证稽核系统,其特征在于,包括:
>6.根据权利要求5所述的一种基于大语言模型的智能凭证稽核系统,其特征在于,所述光学字符识别OCR处理模块,使用光学字符识别OCR技术,提取上传的数字副本结构化文字信息,包括以下步骤:
7.根据权利要求5所述的一种基于大语言模型的智能凭证稽核系统,其特征在于:所述分类模块基于语义分析的结果,将凭证数字副本归类到预设的类别中,其中一级分类包括:科研差旅费报销业务、通用报销业务、举办会议和培训报销业务、劳务费、设备采购、人力成本报销业务;每个一级分类下设置若干二级分类。
8.根据权利要求5所述的一种基于大语言模型的智能凭证稽核系统,其特征在于:所述分类模块,参照收集的原始票据结构化数据对分类后的凭证数字副本进行稽核;其中,凭证数字副本项目名称稽核,通过大型中文文本向量化模型text2vec-large-chinese将稽核的项目名称向量化,并使用余弦相似度计算与原始票据名称相似度,计算出的相似度大于预设阈值,则保留高度相似且语义相同的凭证项目名称。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述的一种基于大语言模型的智能凭证稽核方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的一种基权利要求书于大语言模型的智能凭证稽核方法。
...【技术特征摘要】
1.一种基于大语言模型的智能凭证稽核方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于大语言模型的智能凭证稽核方法,其特征在于,所述使用光学字符识别ocr技术,提取上传的数字副本结构化文字信息,包括以下步骤:
3.根据权利要求1所述的一种基于大语言模型的智能凭证稽核方法,其特征在于:所述基于语义分析的结果,将凭证数字副本归类到预设的类别中,其中一级分类包括:科研差旅费报销业务、通用报销业务、举办会议和培训报销业务、劳务费、设备采购、人力成本报销业务;每个一级分类下设置若干二级分类。
4.根据权利要求1所述的一种基于大语言模型的智能凭证稽核方法,其特征在于:所述参照收集的原始票据结构化数据对分类后的凭证数字副本进行稽核;其中,凭证数字副本项目名称稽核,通过大型中文文本向量化模型text2vec-large-chinese将稽核的项目名称向量化,并使用余弦相似度计算与原始票据名称相似度,计算出的相似度大于预设阈值,则保留高度相似且语义相同的凭证项目名称。
5.一种基于大语言模型的智能凭证稽核系统,其特征在于,包括:
6.根据权利要求5所述的一种基于大语言模型的智能凭证稽核系统,其特征在于,所述光学字符识别ocr处理模块,使用光学字符识别ocr技术,...
【专利技术属性】
技术研发人员:王伙明,陈庸凯,吴刚,
申请(专利权)人:福建博思软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。