一种处理方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:37397539 阅读:8 留言:0更新日期:2023-04-30 09:26
本申请实施例公开了一种处理方法、装置、设备和计算机可读存储介质。该方法包括:获得待处理对象,对待处理对象进行字符识别,获得待处理对象中的第一信息;对第一信息进行序列化处理,获得至少一个文本块和各个文本块的结构信息,文本块为具有正确且完整语义信息的文字集合;基于第一信息、至少一个文本块和各个文本块的结构信息,对至少一个文本块进行分类处理和匹配处理,获得分类结果和匹配结果;将分类结果和匹配结果确定为待处理对象的处理结果。结果。结果。

【技术实现步骤摘要】
一种处理方法、装置、设备和计算机可读存储介质


[0001]本申请涉及数据处理
,尤其涉及一种处理方法、装置、设备和计算机可读存储介质。

技术介绍

[0002]在可视化文档问答(Document Visual Question Answering,Doc VQA)范畴,从海量的扫描文档中确定出键(Key)和键值(Value),或确定出问题(Question)和答案(Answer),以及确定出Key和对应的Value(或Question对应的Answer)是文档处理的重要任务。
[0003]相关技术中,通常采用机器学习模型对文档进行处理,然而,在对机器学习模型训练过程中,由于文档格式不统一,且每种格式的文档数据量较少,导致机器学习模型的泛化能力较差,难以保证文档处理结果的准确性。

技术实现思路

[0004]有鉴于此,本申请实施例提供一种处理方法、装置、设备和计算机可读存储介质,能够提高待处理对象的处理结果的准确性。
[0005]本申请技术方案是这样实现的:
[0006]本申请实施例提供一种处理方法,包括:
[0007]获得待处理对象,对所述待处理对象进行字符识别,获得所述待处理对象中的第一信息;
[0008]对所述第一信息进行序列化处理,获得至少一个文本块和各个文本块的结构信息,所述文本块为具有正确且完整语义信息的文字集合;
[0009]基于所述第一信息、所述至少一个文本块和各个文本块的结构信息,对所述至少一个文本块进行分类处理和匹配处理,获得分类结果和匹配结果;
[0010]将所述分类结果和匹配结果确定为所述待处理对象的处理结果。
[0011]本申请实施例提供一种处理装置,包括:
[0012]第一获取模块,用于获得待处理对象,对所述待处理对象进行字符识别,获得所述待处理对象中的第一信息;
[0013]第二获取模块,用于对所述第一信息进行序列化处理,获得至少一个文本块和各个文本块的结构信息,所述文本块为具有正确且完整语义信息的文字集合;
[0014]处理模块,用于基于所述第一信息、所述至少一个文本块和各个文本块的结构信息,对所述至少一个文本块进行分类处理和匹配处理,获得分类结果和匹配结果;
[0015]第一确定模块,用于将所述分类结果和匹配结果确定为所述待处理对象的处理结果。
[0016]本申请实施例提供一种处理设备,包括:
[0017]存储器,用于存储可执行处理指令;
[0018]处理器,用于执行所述存储器中存储的可执行处理指令时,实现本申请实施例提供的处理方法。
[0019]本申请实施例提供一种计算机可读存储介质,所述计算机存储介质中存储有计算机可执行指令,所述计算机可执行指令配置为执行上述处理方法的步骤。
[0020]本申请实施例提供了一种处理方法、装置、设备和计算机可读存储介质,采用本技术方案,首先,获得待处理对象,对待处理对象进行字符识别获得待处理对象中的第一信息;然后,对第一信息进行序列化处理,获得至少一个文本块和各个文本块的结构信息;最后,基于第一信息、各个文本块和各个文本块的结构信息,对各个文本块进行分类和匹配处理,获得分类结果和匹配结果,并将分类结果和匹配结果确定为待处理对象的处理结果。如此,通过对待处理对象中的第一信息进行序列化处理,避免了获得的文本块具有不正确语义信息,可以更加准确地确定出文本块之间的结构信息,进一步地,基于第一信息、各个文本块和各个文本块的结构信息对各个文本块进行分类和匹配处理,利用了待处理对象的多种特征,避免了在对各个文本块进行分类和匹配处理时出现过拟合的问题,从而提高了待处理对象的处理结果的准确性。
附图说明
[0021]图1为本申请实施例提供的一种处理方法的流程示意图;
[0022]图2为本申请实施例提供的一种基于文本序列化和结构信息的文档图像处理方法的流程示意图;
[0023]图3为本申请实施例提供的一种基于文本序列化和结构信息的文档图像处理流程示意图;
[0024]图4为本申请实施例提供的一种处理装置的结构示意图;
[0025]图5为本申请实施例提供的一种处理设备的组成结构示意图。
具体实施方式
[0026]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
[0027]为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
[0028]在以下的描述中,涉及到“一些实施例\另一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例\另一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0029]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
[0030]在对文档进行处理时,由于文档的类型繁多(例如发票,报销单,发货单等),且同一个类型的文档也会有多种文档格式,采用传统的机器学习方法来解决文档处理问题时,需要针对不同的版式来训练不同的机器学习模型。由于很多文档格式是企业特有的(往往
带有一定的随机性),而且训练数据所需的人工标注流程比较复杂,对标注质量有很高要求,这往往导致很难收集到足够多的训练数据来达到理想的模型处理效果。
[0031]相关技术中,直接将光学字符识别(optical character recognition,OCR)的结果与图像特征图(Feature Map)信息进行融合当作输入进入Doc VQA模型,最后得到语义实体识别(Semantic Entity Recognition)的结果,语义实体识别可以识别Question(或key),Answer(或value)和标题(Header),进行关系抽取(Relation Extraction),确定Key和Value的配对关系。然而,由于OCR识别结果为非序列化,OCR识别的结果通常会按照从左到右、从上到下的顺序输出,但在很多文档中,会存在较多的内容折行。如果按照直接的OCR识别结果输入跨模态Doc VQA的模型,会不符合阅读顺序并且打乱语义和排版信息。此外,由于文档的格式不统一,导致每种格式的文档数据量较少,直接使用OCR识别结果作为文本特征和图像特征相融合,得到的模型泛化能力较差,无法达到较好的文档处理结果。
[0032]基于相关技术存在的问题,本申请实施例提供一种处理方法,该方法能够提高待处理对象的处理结果的准确性。如图1所示,为本申请实施例提供的一种处理方法的流程示意图,该方法包括以下步骤:
[0033]S101、获得待处理对象,对待处理对象进行字符识别,获得待处理对象中的第一信息。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种处理方法,包括:获得待处理对象,对所述待处理对象进行字符识别,获得所述待处理对象中的第一信息;对所述第一信息进行序列化处理,获得至少一个文本块和各个文本块的结构信息,所述文本块为具有正确且完整语义信息的文字集合;基于所述第一信息、所述至少一个文本块和各个文本块的结构信息,对所述至少一个文本块进行分类处理和匹配处理,获得分类结果和匹配结果;将所述分类结果和匹配结果确定为所述待处理对象的处理结果。2.根据权利要求1所述的方法,所述第一信息包括各个文字对应的语义信息、位置信息和所述待处理对象的排版信息;对所述第一信息进行序列化处理,获得至少一个文本块和各个文本块的结构信息,包括:获得所述待处理对象中各个文字对应的语义信息、位置信息和所述待处理对象的排版信息;根据所述语义信息、位置信息和所述排版信息将所述待处理对象中的文字划分为至少一个文本块;基于各个文本块对应的语义信息和位置信息,确定所述各个文本块的结构信息。3.根据权利要求2所述的方法,所述根据所述语义信息、位置信息和所述排版信息将所述待处理对象中的文字划分为至少一个文本块,包括:获得第i个文字对应的第一语义信息、第一位置信息和第一排版信息,以及第i+1个文字对应的第二语义信息、第二位置信息和第二排版信息,其中i=1,

,N,N为所述待处理对象中的文字的个数;确定所述第一语义信息和所述第二语义信息满足第一匹配条件,所述第一排版信息和所述第二排版信息相同,且所述第一位置信息和所述第二位置信息满足第二匹配条件,确定所述第i个文字和所述第i+1个文字属于同一个文本块。4.根据权利要求1所述的方法,所述基于所述第一信息、所述至少一个文本块和各个文本块的结构信息,对所述至少一个文本块进行分类处理和匹配处理,获得分类结果和匹配结果,包括:对所述第一信息、所述至少一个文本块和各个文本块的结构信息进行融合处理,获得第一融合处理结果;利用训练好的第一分类模型对所述第一融合处理结果进行预测,获得各个文本块对应的对象类型,将所述各个文本块对应的对象类型作为分类结果,所述对象类型至少包括问题类型或答案类型;将问题类型的第一文本块和答案类型的第二文本块进行匹配处理,获得匹配处理结果,所述匹配处理结果包括第一文本块和第二文本块的对应关系。5.根据权利要求1所述的方法,还包括:获得所述待处理对象对应的整体图像特征和局部图像特...

【专利技术属性】
技术研发人员:田秋雨王敏陈永洒罗林锋
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1