System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据处理方法及相关设备技术_技高网

一种数据处理方法及相关设备技术

技术编号:41077418 阅读:15 留言:0更新日期:2024-04-25 10:03
本申请实施例公开了一种数据处理方法,该方法应用于文本识别/字符识别场景,该方法包括:获取输入数据,该输入图像为图像数据或音频数据,并根据输入数据的第一模态特征获取第二模态特征,第一模态特征为图像数据的视觉特征或者音频数据的音频特征,第二模态特征为字符特征;再融合第一模态特征与第二模态特征以得到目标特征,可以高效融合不同模态数据的信息,使得获取的目标特征具有多模态数据的特性,提高目标特征的表达能力。从而根据该目标特征获取的第一识别结果的精度更高。且相较于只根据纠正后的第二模态特征确定识别结果的方法,通过再次引入纠正前的第一模态特征,可以减少第二模态特征的过度纠正问题。

【技术实现步骤摘要】

本申请涉及人工智能领域,尤其涉及一种数据处理方法及相关设备


技术介绍

1、人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,ai基础理论等。

2、随着光学字符识别(optical character recognition,ocr)技术的快速发展,利用ocr技术代替人力进行识别和处理图像中的文字信息的应用变得越来越广泛。ocr技术被广泛应用于证件识别、车牌识别,广告图片文本识别和票据识别等现实场景。为了避免视觉遮挡等不良因素对识别内容造成干扰,常常使用语言模型对视觉模型识别后的字符信息进行纠正,并将纠正结果作为字符的最终识别结果。然而,纠正结果高度依赖于语言模型学习到的语义信息,可能会导致将正确的识别结果修改为错误的识别结果,即上述识别方式会出现过度纠偏问题。

3、因此,如何解决文字识别中语言模型的过度纠偏是亟待解决的技术问题。


技术实现思路

1、本申请实施例提供了一种数据处理方法及相关设备,用于提升数据字符识别的准确性。

2、本申请实施例第一方面提供了一种数据处理方法,该方法应用于文本识别/字符识别场景,该方法包括:获取输入数据,该输入图像为图像数据或音频数据;提取输入数据的第一模态特征;基于第一模态特征获取第二模态特征,第一模态特征与第二模态特征为不同模态的特征;第一模态特征为图像数据的视觉特征或者音频数据的音频特征,第二模态特征为字符特征;融合第一模态特征与第二模态特征以得到目标特征。该目标特征同时考虑到第一模态特征与第二模态特征,使得目标特征具有更丰富的多种模态信息。基于目标特征获取输入数据的第一识别结果,第一识别结果用于指示输入数据中含有的字符。

3、本申请实施例中,根据输入数据的第一模态特征获取第二模态特征,并融合第一模态特征与第二模态特征以得到目标特征,可以高效融合不同模态数据的信息,使得获取的目标特征具有多模态数据的特性,提高目标特征的表达能力。从而根据该目标特征获取的第一识别结果的精度更高。且相较于只根据纠正后的第二模态特征确定识别结果的方法,通过再次引入纠正前的第一模态特征,可以减少第二模态特征的过度纠正问题。

4、可选地,在第一方面的一种可能的实现方式中,上述步骤:基于第一模态特征获取第二模态特征,包括:基于第一模态特征获取第二识别结果,第二识别结果为图像数据的字符识别结果或音频数据的字符识别结果;基于第二识别结果获取第二模态特征。

5、该种可能的实现方式中,通过与第一模态特征相关的第二识别结果获取第二模态特征,可以实现对第一模态特征的部分纠正。

6、可选地,在第一方面的一种可能的实现方式中,上述步骤:提取输入数据的第一模态特征,包括:将输入数据输入第一特征提取模块以得到第一模态特征,第一特征提取模块用于提取视觉特征或音频特征;基于第二识别结果获取第二模态特征,包括:将第二识别结果输入第二特征提取模块以得到第二模态特征,第二特征提取模块用于提取字符特征。

7、该种可能的实现方式中,以第一特征提取模块用于提取视觉特征为例,为了减少视觉遮挡等不良因素对识别内容造成干扰,可以使用第二提取特征对视觉模块识别到的第一模态特征进行纠正。

8、可选地,在第一方面的一种可能的实现方式中,上述步骤还包括:基于第二识别结果与第一识别结果获取输入数据的目标识别结果,该目标识别结果作为输入数据中字符的识别结果。或者理解为,将目标识别结果作为输入数据中字符的最终识别结果。

9、该种可能的实现方式中,通过同时考虑第一模态特征得到的原始结果(即第二识别结果)与第二模态特征得到的纠正结果(即第一识别结果)。尤其是对于图像识别来说。可以实现结合语言模块(即获取第二模态特征的模块)的纠正能力强以及视觉模块(即获取第一模态特征的模块)识别能力强的优点,从而提高图像中字符的识别能力。

10、可选地,在第一方面的一种可能的实现方式中,上述步骤:基于第二识别结果与第一识别结果获取输入数据的目标识别结果,包括:获取第一概率与第二概率,第一概率为第一识别结果中各字符的概率,第二概率为第二识别结果中各字符的概率;基于第一概率与第二概率确定目标识别结果。

11、该种可能的实现方式中,通过融合各字符在第一识别结果中的第一概率以及各字符在第二识别结果中的第二概率,同时考虑到初始模态对应结果中各字符的概率以及纠正结果中各字符的概率,从而提升识别各字符的准确率。

12、可选地,在第一方面的一种可能的实现方式中,上述步骤:基于第一概率与第二概率确定目标识别结果,包括:将第一识别结果与第二识别结果中相同位置字符对应的第一概率与第二概率相加;基于相加后的概率确定目标识别结果。其中,相加可以是直接相加,也可以是加权后再相加等,具体此处不做限定。

13、该种可能的实现方式中,通过初始模态对应结果中各字符的概率以及纠正结果中各字符的概率相加,并基于相加后的概率获取目标识别结果,从而提升目标识别结果的准确率。

14、可选地,在第一方面的一种可能的实现方式中,上述步骤:融合第一模态特征与第二模态特征以得到目标特征,包括:将相同位置字符的第一模态特征与第二模态特征融合以得到目标特征。

15、该种可能的实现方式中,通过将相同位置字符的不同模态特征进行融合,使得目标特征具有不同模态的信息,从而提升目标特征的表达能力。

16、可选地,在第一方面的一种可能的实现方式中,上述步骤:基于目标特征获取输入数据的第一识别结果,包括:确定目标特征与多个字符的对应关系;获取多个字符的排列方式集合,排列方式集合包括多种排列方式;基于排列方式集合中的每个排列方式对每个排列方式下的最后一个字符进行最大似然估计,以得到第一识别结果。

17、该种可能的实现方式中,通过将排列方式集合中每个排列方式下的最后一个字符作为预测字符进行最大似然估计,可以基于不同的排列方式学习到不同的上下文信息(例如,左向右与右向左),从而提升第一识别结果的准确率。

18、可选地,在第一方面的一种可能的实现方式中,上述的输入数据为含有字符的图像数据,第一模态特征为视觉特征,第二模态特征为字符特征。

19、该种可能的实现方式中,该方法可以应用于图像中的字符识别或文字识别场景。例如,证件信息、票据信息的识别/自动录入场景、残疾人的辅助阅读场景、违禁词的过滤场景等。

20、可选地,在第一方面的一种可能的实现方式中,上述的输入数据为音频数据本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一模态特征获取第二模态特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述提取所述输入数据的第一模态特征,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第二识别结果与所述第一识别结果获取所述输入数据的目标识别结果,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一概率与所述第二概率确定所述目标识别结果,包括:

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述融合所述第一模态特征与所述第二模态特征以得到目标特征,包括:

8.根据权利要求1至7中任一项所述的方法,其特征在于,所述基于所述目标特征获取所述输入数据的第一识别结果,包括:

9.一种数据处理设备,其特征在于,所述数据处理设备包括:

10.根据权利要求9所述的数据处理设备,其特征在于,所述获取单元,具体用于基于所述第一模态特征获取第二识别结果,所述第二识别结果为所述图像数据的字符识别结果或所述音频数据的字符识别结果;

11.根据权利要求10所述的数据处理设备,其特征在于,所述提取单元,具体用于将所述输入数据输入第一特征提取模块以得到所述第一模态特征,所述第一特征提取模块用于提取所述视觉特征或所述音频特征;

12.根据权利要求10或11所述的数据处理设备,其特征在于,所述获取单元,还用于基于所述第二识别结果与所述第一识别结果获取所述输入数据的目标识别结果,所述目标识别结果作为所述输入数据中字符的识别结果。

13.根据权利要求12所述的数据处理设备,其特征在于,所述获取单元,具体用于获取第一概率与第二概率,所述第一概率为所述第一识别结果中各字符的概率,所述第二概率为所述第二识别结果中各字符的概率;

14.根据权利要求13所述的数据处理设备,其特征在于,所述获取单元,具体用于将所述第一识别结果与所述第二识别结果中相同位置字符对应的第一概率与第二概率相加;

15.根据权利要求9至14中任一项所述的数据处理设备,其特征在于,所述融合单元,具体用于将相同位置字符的所述第一模态特征与所述第二模态特征融合以得到所述目标特征。

16.根据权利要求9至15中任一项所述的数据处理设备,其特征在于,所述获取单元,具体用于确定目标特征与多个字符的对应关系;

17.一种数据处理设备,其特征在于,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序或指令,当所述程序或指令被所述处理器执行时,使得所述数据处理设备执行如权利要求1至8中任一项所述的方法。

18.一种计算机存储介质,其特征在于,包括计算机指令,当所述计算机指令在终端设备上运行时,使得所述终端设备执行如权利要求1至8中任一项所述的方法。

19.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至8中任一项所述的方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第一模态特征获取第二模态特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述提取所述输入数据的第一模态特征,包括:

4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述第二识别结果与所述第一识别结果获取所述输入数据的目标识别结果,包括:

6.根据权利要求5所述的方法,其特征在于,所述基于所述第一概率与所述第二概率确定所述目标识别结果,包括:

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述融合所述第一模态特征与所述第二模态特征以得到目标特征,包括:

8.根据权利要求1至7中任一项所述的方法,其特征在于,所述基于所述目标特征获取所述输入数据的第一识别结果,包括:

9.一种数据处理设备,其特征在于,所述数据处理设备包括:

10.根据权利要求9所述的数据处理设备,其特征在于,所述获取单元,具体用于基于所述第一模态特征获取第二识别结果,所述第二识别结果为所述图像数据的字符识别结果或所述音频数据的字符识别结果;

11.根据权利要求10所述的数据处理设备,其特征在于,所述提取单元,具体用于将所述输入数据输入第一特征提取模块以得到所述第一模态特征,所述第一特征提取模块用于提取所述视觉特征或所述音频特征;

12.根据权利要求10或11所述的数据处...

【专利技术属性】
技术研发人员:傅奕飞胡海林朱铭健陈醒濠王云鹤
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1