当前位置: 首页 > 专利查询>复旦大学专利>正文

基于相对位置结构的票据字段匹配方法组成比例

技术编号:37967831 阅读:9 留言:0更新日期:2023-06-30 09:43
本发明专利技术提供一种基于相对位置结构的票据字段匹配方法,首先对票据图像中的各个字段值文本以及字段名文本进行检测,得到多个文本检测框及其坐标;然后计算得到各个文本检测框的相对位置特征编码;接着计算每个字段值文本检测框的相对位置特征编码和每个字段名文本检测框的相对位置特征编码两两之间的特征距离;最后基于多个特征距离获取字段值文本和字段名文本之间的匹配关系,并将字段值文本和与其特征距离最小的字段名文本相匹配。因此,通过本发明专利技术的方法就能基于特征距离,也即基于相对位置结构将对应的字段名文本和字段值文本进行匹配,有效消除了票据字段值文本打印旋转、偏移情况对票据字段匹配造成的不利影响。偏移情况对票据字段匹配造成的不利影响。偏移情况对票据字段匹配造成的不利影响。

【技术实现步骤摘要】
基于相对位置结构的票据字段匹配方法


[0001]本专利技术涉及票据信息提取
,具体涉及一种基于相对位置结构的票据字段匹配方法。

技术介绍

[0002]近年来,得益于深度学习迅猛发展,基于深度学习的文本检测与识别技术在各类实际场景中得到了广泛的应用。
[0003]将深度学习应用于票据识别中时,首先将票据图像输入文本检测模型,得到票据图像内各行文本的文本检测框;然后通过文本识别模型得到检测框内的文本内容。在实际业务需求中,还需要对票据中的字段名和字段值进行匹配,其中,字段名通常为票据生产时统一印刷的,而字段值为开票时通过打印机进行打印的。
[0004]在现有方法中,往往通过票据模板来确定各个字段值文本所在的位置,再与文本检测框的位置对比进行匹配。然而在实际应用场景中,票据图像中的字段值文本的打印位置往往存在旋转,偏移等情况,给票据字段匹配带来了困难。

技术实现思路

[0005]为解决上述问题,提供一种基于相对位置结构的票据字段匹配方法,利用票据图像中字段名与字段值相对位置结构的相似性来对字段名与字段值进行匹配,从而在不使用模板的情况下实现票据字段匹配,并且可以消除字段值文本打印位置旋转、偏移对票据字段匹配的影响,本专利技术采用了如下技术方案:
[0006]本专利技术提供了一种基于相对位置结构的票据字段匹配方法,其特征在于,包括:步骤S1,对票据图像的各个字段值文本以及各个字段名文本进行检测,获取多个文本检测框及其坐标,其中,文本检测框包括字段值文本检测框以及字段名文本检测框;步骤S2,分别计算得到各个所述文本检测框的相对位置特征编码;步骤S3,计算每个所述字段值文本检测框的所述相对位置特征编码与每个所述字段名文本检测框的所述相对位置特征编码两两之间的特征距离;步骤S4,基于各个所述特征距离,获取所述字段值文本与所述字段名文本之间的匹配关系,其中,将每个所述字段值文本和与该字段值文本的所述特征距离最小的所述字段名文本相匹配。
[0007]本专利技术提供的基于相对位置结构的票据字段匹配方法,还可以具有这样的技术特征,其中,步骤S2包括以下子步骤:步骤S2

1,对每个所述文本检测框,计算从该文本检测框的左上角端点到该文本检测框的右上角端点的向量,作为该文本检测框的自身参考向量;步骤S2

2,对每个所述文本检测框,计算从该文本检测框的左上角端点到每个其他所述文本检测框的左上角端点的向量,作为相对参考向量,从而获取一组所述相对参考向量;步骤S2

3,将步骤S2

2得到的一组所述相对参考向量记为一组极坐标,其中,每个所述极坐标的极角为所述相对参考向量与对应的所述文本检测框的所述自身参考向量的逆时针夹角,极径为所述相对参考向量的长度;步骤S2

4,按照预定的归一化算法对每个所述极坐标的所
述极径进行归一化;步骤S2

5,将每个所述文本检测框的归一化后的一组所述极坐标记为该文本检测框的所述相对位置特征编码。
[0008]本专利技术提供的基于相对位置结构的票据字段匹配方法,还可以具有这样的技术特征,其中,步骤S2

4中,根据以下归一化公式来进行归一化:
[0009][0010]式中,ρ
j
是极坐标j的极径,ρ

i
是归一化后的极坐标i的极径,ρ
i
是归一化前的极坐标i的极径。
[0011]本专利技术提供的基于相对位置结构的票据字段匹配方法,还可以具有这样的技术特征,其中,将步骤S3中的两个所述相对位置特征编码分别记作相对位置特征编码a以及相对位置特征编码b,步骤S3包括以下子步骤:步骤S3

1,分别计算所述相对位置特征编码a中每个所述极坐标与所述相对位置特征编码b中的每个所述极坐标的极坐标不相似度;步骤S3

2,根据所述极坐标不相似度,对相对位置特征编码a中每个极坐标和相对位置特征编码b中的每个极坐标进行二分图匹配,其中,极坐标不相似度较小的优先进行匹配;步骤S3

3,根据步骤S3

2的匹配结果计算所述相对位置特征编码a和所述相对位置特征编码b的所述特征距离。
[0012]本专利技术提供的基于相对位置结构的票据字段匹配方法,还可以具有这样的技术特征,其中,步骤S3

1中,根据以下公式计算所述极坐标不相似度:
[0013]vector_distance[i,j]=(1+de[i,j])2+(1+dc[i,j])2‑2[0014][0015]dc[i,j]=0.5+0.5*cos(θ
i

θ
j
)
[0016]式中,vector_distance[i,j]为所述极坐标不相似度,de[i,j]为所述相对位置特征编码a中的第i个所述极坐标与所述相对位置特征编码b中的第j个所述极坐标之间的欧几里得距离,dc[i,j]为所述相对位置特征编码a中的第i个所述极坐标与所述相对位置特征编码b中的第j个所述极坐标之间的余弦距离,ρ
i
表示第i个所述极坐标的所述极径,θ
i
表示第i个所述极坐标的所述极角。
[0017]本专利技术提供的基于相对位置结构的票据字段匹配方法,还可以具有这样的技术特征,其中,步骤S3

3中,根据以下公式计算所述特征距离:
[0018]code_distance(a,b)=∑matched_distance(a,b,i)
[0019]式中,code_distance(a,b)为所述特征距离,matched_distance(a,b,i)为所述位置特征编码a的第i个所述极坐标与所述位置特征编码b中相匹配的所述极坐标的所述极坐标不相似度。
[0020]专利技术作用与效果
[0021]根据本专利技术的基于相对位置结构的票据字段匹配方法,首先对票据图像中的各个字段值文本以及字段名文本进行了检测,得到了多个文本检测框及其坐标;然后计算得到了各个文本检测框的相对位置特征编码;接着计算每个字段值文本检测框的相对位置特征编码和每个字段名文本检测框的相对位置特征编码两两之间的特征距离;最后基于多个特征距离,获取了字段值文本和字段名文本之间的匹配关系,并将字段值文本和与其特征距
离最小的字段名文本相匹配。票据的字段值文本在开票打印时难免存在打印旋转、偏移等情况,但字段名文本的相对位置结构和字段值文本的相对位置结构的相似关系仍然存在,因此,通过本专利技术的方法就能基于特征距离,也即基于相对位置结构将对应的字段名文本和字段值文本进行匹配,有效消除了票据字段值文本打印旋转、偏移情况对票据字段匹配造成的不利影响。
附图说明
[0022]图1是本专利技术实施例中基于相对位置结构的票据字段匹配方法的流程图;
[0023]图2是本专利技术实施例中票据图像的示意图;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于相对位置结构的票据字段匹配方法,其特征在于,包括:步骤S1,对票据图像的各个字段值文本以及各个字段名文本进行检测,获取多个文本检测框及其坐标,其中,文本检测框包括字段值文本检测框以及字段名文本检测框;步骤S2,分别计算得到各个所述文本检测框的相对位置特征编码;步骤S3,计算每个所述字段值文本检测框的所述相对位置特征编码与每个所述字段名文本检测框的所述相对位置特征编码两两之间的特征距离;步骤S4,基于各个所述特征距离,获取所述字段值文本与所述字段名文本之间的匹配关系,其中,将每个所述字段值文本和与该字段值文本的所述特征距离最小的所述字段名文本相匹配。2.根据权利要求1所述的基于相对位置结构的票据字段匹配方法,其特征在于:其中,步骤S2包括以下子步骤:步骤S2

1,对每个所述文本检测框,计算从该文本检测框的左上角端点到该文本检测框的右上角端点的向量,作为该文本检测框的自身参考向量;步骤S2

2,对每个所述文本检测框,计算从该文本检测框的左上角端点到每个其他所述文本检测框的左上角端点的向量,作为相对参考向量,从而获取一组所述相对参考向量;步骤S2

3,将步骤S2

2得到的一组所述相对参考向量记为一组极坐标,其中,每个所述极坐标的极角为所述相对参考向量与对应的所述文本检测框的所述自身参考向量的逆时针夹角,极径为所述相对参考向量的长度;步骤S2

4,按照预定的归一化算法对每个所述极坐标的所述极径进行归一化;步骤S2

5,将每个所述文本检测框的归一化后的一组所述极坐标记为该文本检测框的所述相对位置特征编码。3.根据权利要求2所述的基于相对位置结构的票据字段匹配方法,其特征在于:其中,步骤S2

4中,根据以下归一化公式来进行归一化:式中,ρ
j
是极坐标j的极径,ρ

i
是归一化后的极坐标i的极径,ρ
i
是归一化前的极坐标i的极径。4.根据权利要求1所述的基于相对位置结构的票据字段匹配方法,其特征在于...

【专利技术属性】
技术研发人员:李斌须子逸薛向阳
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1