System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息,尤其涉及一种票据与订单行的多对多匹配方法。
技术介绍
1、随着国家财税政策的不断演进,电子发票和数字票据的使用日益普及,对财务管理和供应链自动化提出了新的要求。在传统的财务管理和供应商票据处理流程中,通常采用人工处理的方式,在提交票据时,一个订单有多个订单行,一张发票也存在多条行明细。需要手动填写大量信息,不仅耗时耗力,而且容易出错,影响财务数据的准确性。在票据与订单行核对时,票据的项目名称及规格型号与订单行的物料描述存在差异,并且存在票据和订单行多对多的问题,即一个订单行有多张票据,或一张票据对应多个订单行,现有自动化匹配方法大多局限于单一的票据类型或简单的信息比对,缺乏对复杂场景下票据与订单行多对多匹配的自动化方法。
2、针对以上问题,现有的票据与订单行多对多匹配方法是通过规则过滤,并结合自然语言处理技术实现。该方法对不同格式电子发票进行解析转换为结构化票据数据,以便于与订单行进行匹配。根据预定义的业务规则进行规则过滤,采用文本语义匹配模型来预测票据和订单行的匹配相似度,对匹配结果进行后处理。基于规则和模型混合匹配方法进行多对多匹配,提高票据和订单行匹配的准确性和效率。
技术实现思路
1、为了解决上述问题,本专利技术提出一种发票和订单行的多对多匹配方法,具体步骤如下:
2、步骤s1、发票解析:针对不同格式电子发票解析出关键信息,对于已经结构化的电子发票,直接进行数据读取;
3、步骤s2、票据和待匹配订单行预处理:相同意义字
4、步骤s3、规则过滤票据:在提交的票据数据中,筛选出与待匹配订单行同一单位名称的票据行数据;
5、步骤s4、票据和订单行多对多匹配:对于满足设定条件的票据,设计累计模型数值求和,采用重排模型计算待匹配订单行的物料描述与票据的发票描述语义相似度分数,结合累计模型和重排模型得分,按照权重比例计算综合匹配分数,并按照从大到小的顺序排序;
6、步骤s5、匹配结果后处理:检验匹配结果是否符合最优匹配策略,即确保一个订单匹配的发票数量最多;此外,对匹配到的票据数据进行去重处理,取前一个或多个票据,以确保匹配结果的唯一性和准确性。
7、进一步地,步骤s1所述针对不同格式电子发票解析出关键信息包括发票号码、开票日期、发票价款、发票税款,价税合计,项目名称及规格型号;对于已经结构化的电子发票,直接进行数据读取,发票解析方法如下:
8、发票格式识别,对电子发票文件进行格式识别,确定其为ofd、xml、图像或其他电子格式;对非结构化图像格式的发票进行光学字符识别处理,将其转换为可编辑的文本格式;
9、关键信息定位,利用发票的固定布局特征,通过视觉检查或机器学习方法,确定发票上关键信息的位置;使用模板匹配技术来识别发票号码、开票日期、发票价款、发票税款,价税合计,项目名称及规格型号这些固定字段的位置;
10、关键信息提取,根据定位结果,从发票文本中提取关键信息,对于结构化数据,如xml或json格式的电子发票,直接解析相应的标签或键值对;对于非结构化数据,使用正则表达式提取所需信息;
11、数据结构化输出,将提取的关键信息转换为统一的数据结构,以便于后续订单行数据进行匹配。
12、进一步地,步骤s2中所述对票据和待匹配订单行分别进行预处理,具体地,发票解析后的结构化票据数据描述含有购买方名称,销售方名称,购买方纳税人识别号,销售方纳税人识别号,发票号码,开票日期,合计金额,合计税额,项目名称,规格型号,单位,数量,单价,金额,税率/征收率,税额,备注,开票人,发票描述字段;待匹配订单行的物料描述内容含有订单号,订单行项目号,物料名称,供应商名称,度量单位,数量,单价和提交日期字段。
13、进一步地,所述的票据预处理具体方法:
14、相同意义字段转换名称统一,对于票据中具有相同意义但名称不同的字段,进行标准化处理,确保字段名称的一致性;
15、检测每个字段是否有缺失,补全缺失值为空字符;
16、分别对日期,数值和字符格式数据标准化,将开票日期字段不同格式日期或字符串统一转换为统一日期格式,将合计金额,合计税额,数量,单价,金额,税率/征收率,税额统一转换为数值型格式,并对该字段中的空字符串替换为0,将其他字段信息转换为字符串格式;
17、去除购买方名称,销售方名称字段标点符号、英文括号和中文括号和前后空格;
18、将项目名称及规格型号合并为发票描述字段,便于与订单行的物料描述内容进行匹配。
19、进一步地,所述的待匹配订单行预处理具体方法:
20、相同意义字段转换名称统一,采用名称映射方式将具有相同意义字段转换为同一字段名称;
21、分别对日期,数值和字符格式数据标准化,将提交日期字段不同格式日期或字符串统一转换为统一日期格式,将订单行号,数量和单价统一转换为数值型格式,并对该字段中的空字符串替换为0,将其他字段信息转换为字符串格式;
22、去除供应商名称字段标点符号、英文括号和中文括号和前后空格。
23、进一步地,步骤s3所述应用预设的匹配规则,筛选出销售方名称与订单行中的供应商名称相匹配的票据行数据,排除所有单位名称不匹配的票据行数据,缩小后续匹配过程的搜索范围;将筛选后的票据数据输出,作为下一步匹配过程的输入。
24、进一步地,步骤s4所述票据和订单行多对多匹配,结合票据的多维信息进行预设条件匹配和文本内容语义理解,通过权重系数将数值型数据和文本语义相似度得分结合起来,具体地,票据和订单行多对多匹配方法如下:
25、条件预设,确定匹配过程中所需满足的条件;
26、累计模型设计,对满足条件预设的票据进行数值求和,计算公式如下:
27、
28、其中,xi是随机变量x可能取到的所有值,即所有条件预设,p(x=xi)为xi满足某个预设条件,sa为累计模型得分;
29、重排模型语义相似度计算,采用重排模型对待匹配订单行的物料描述与票据的发票描述语义相似度分数计算公式如下:
30、
31、其中,q为订单行物料描述,t为票据发票描述,v(q)和v(t)分别为订单行物料描述和票据发票描述文本特征向量,v(q)·v(t)表示两个向量的点积,||v(q)||和||v(t)||分别表示向量的欧几里得范数,sr为重排模型得分;
32、综合匹配分数计算,结合累计模型和重排模型得分,按照权重比例计算综合匹配分数计算公式如下:
33、s=w1·sa+w2·sr
34、其中,w1和w2是权重系数,sa为累计模型得分,sr为重排模型得分,s为综合匹配分数;
35、匹配结果排序输出,按照综合匹配分数从大到小的顺本文档来自技高网...
【技术保护点】
1.一种票据与订单行的多对多匹配方法,其特征在于,该方法具体步骤如下:
2.根据权利要求1所述的一种票据与订单行多对多匹配方法,其特征在于,步骤S1所述针对不同格式电子发票解析出关键信息包括发票号码、开票日期、发票价款、发票税款,价税合计,项目名称及规格型号;对于已经结构化的电子发票,直接进行数据读取,发票解析方法如下:
3.根据权利要求1所述的一种票据与订单行的多对多匹配方法,其特征在于,步骤S2中所述对票据和待匹配订单行分别进行预处理,具体地,发票解析后的结构化票据数据描述含有购买方名称,销售方名称,购买方纳税人识别号,销售方纳税人识别号,发票号码,开票日期,合计金额,合计税额,项目名称,规格型号,单位,数量,单价,金额,税率/征收率,税额,备注,开票人,发票描述字段;待匹配订单行的物料描述内容含有订单号,订单行项目号,物料名称,供应商名称,度量单位,数量,单价和提交日期字段。
4.根据权利要求3所述的一种票据与订单行的多对多匹配方法,其特征在于,所述的票据预处理具体方法:
5.根据权利要求3所述的一种票据与订单行的多对多匹配方
6.根据权利要求1所述的一种票据与订单行多对多匹配方法,其特征在于,步骤S3所述应用预设的匹配规则,筛选出销售方名称与订单行中的供应商名称相匹配的票据行数据,排除所有单位名称不匹配的票据行数据,缩小后续匹配过程的搜索范围;将筛选后的票据数据输出,作为下一步匹配过程的输入。
7.根据权利要求1所述的一种票据与订单行的多对多匹配方法,其特征在于,步骤S4所述票据和订单行多对多匹配,结合票据的多维信息进行预设条件匹配和文本内容语义理解,通过权重系数将数值型数据和文本语义相似度得分结合起来,具体地,票据和订单行多对多匹配方法如下:
8.根据权利要求1所述的一种票据与订单行的多对多匹配方法,其特征在于,步骤S5所述匹配结果后处理,具体处理方法如下:
9.一种票据与订单行多对多匹配系统,其特征在于,包括发票解析单元、票据和待匹配订单行预处理单元、规则过滤票据单元、票据和订单行多对多匹配单元,匹配结果后处理单元和系统数据库;
10.一种计算机可读指令的存储介质,所述计算机可读指令的存储介质上存储计算机程序,可读指令被处理器执行所述计算机程序,实现所述一种票据与订单行多对多匹配的步骤。
...【技术特征摘要】
1.一种票据与订单行的多对多匹配方法,其特征在于,该方法具体步骤如下:
2.根据权利要求1所述的一种票据与订单行多对多匹配方法,其特征在于,步骤s1所述针对不同格式电子发票解析出关键信息包括发票号码、开票日期、发票价款、发票税款,价税合计,项目名称及规格型号;对于已经结构化的电子发票,直接进行数据读取,发票解析方法如下:
3.根据权利要求1所述的一种票据与订单行的多对多匹配方法,其特征在于,步骤s2中所述对票据和待匹配订单行分别进行预处理,具体地,发票解析后的结构化票据数据描述含有购买方名称,销售方名称,购买方纳税人识别号,销售方纳税人识别号,发票号码,开票日期,合计金额,合计税额,项目名称,规格型号,单位,数量,单价,金额,税率/征收率,税额,备注,开票人,发票描述字段;待匹配订单行的物料描述内容含有订单号,订单行项目号,物料名称,供应商名称,度量单位,数量,单价和提交日期字段。
4.根据权利要求3所述的一种票据与订单行的多对多匹配方法,其特征在于,所述的票据预处理具体方法:
5.根据权利要求3所述的一种票据与订单行的多对多匹配方法,其特征在于,所述的待匹配订单行预处理具体方法:<...
【专利技术属性】
技术研发人员:葛星,高仁,周若璇,许斌,刘亚斐,柏能,张珺,房红,钱开余,姜勇,
申请(专利权)人:国网江苏省电力有限公司物资分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。