System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于人工智能与文本检测识别,特别是涉及一种基于空间位置与场景关联的文本检测识别模型校准方法。
技术介绍
1、在早期的文本信息抽取系统中,处理流程通常涉及两个独立的步骤:文本检测和文本识别。文本检测阶段的主要任务是定位输入图像中的文本区域并对其进行裁剪,获得只包含文本区域的图像。文本识别阶段的工作是将前一步骤裁剪得到的文本图像区域输入到一个专门的非端到端的文本识别系统中,最终提取出文字内容。然而,这种流水线式的处理方法存在一系列不足之处。最明显的问题是,两个阶段之间可能出现错误积累。如果文本检测阶段未能准确定位所有相关的文本区域,或者检测得不够精确,那么非端到端文本识别系统在处理这些不完整或部分错误的输入时,其输出的质量和准确性自然会大打折扣。此外,由于这两个阶段是分别独立优化的,它们之间缺乏有效协同作用,这可能导致在整个处理流程中效率低下和资源浪费。随着深度学习技术的进步和算法研究的深入,近年来越来越多的研究开始倾向于采用检测-识别端到端的文本识别模型。这种模型的核心优势在于它将文本检测和文本识别两个过程合并为一个统一的模型框架,通过这种方式,可以更好地利用两者之间的潜在协同效应。具体说来,端到端模型通过联合优化策略,同时训练文本检测器和识别器,从而实现更高的操作效率和更低的错误率。这种一体化的处理方式不仅减少了计算资源的消耗,而且由于模型能够在整个识别过程中共享视觉特征和上下文信息,因此在实际应用中能够达到更加准确和快速的识别。此外,端到端系统的另一个显著优势是简化了整个系统的架构。在传统的分离模型中,不同模块之间需
2、与非端到端文本检测识别模型主要关注于从已确定的文本区域中准确预测出文本内容不同,端到端模型则需要同时实现文本在图像中位置的准确定位和图像中文本内容的准确识别。这一更贴近实际应用的功能模式使得端到端模型在实际应用中的表现更为全面,但同时也引入了新的问题。端到端文本检测识别模型的预测置信度不仅反映了文本内容的识别准确性,还包括了文本位置定位的精确度。因此,端到端文本检测识别模型的置信度可靠性评估需要综合考虑这两个方面。在非端到端文本检测识别模型中,过自信通常源于对训练数据的过度拟合,无限制地最大化目标文本序列的似然。而在端到端文本检测识别模型中,过自信的原因也同样源于对训练数据的过度拟合,但其表现形式更为复杂。一方面,端到端文本检测识别模型使用目标文本序列似然最大化训练范式对文本内容预测进行监督。在这种监督范式下,文本内容的预测概率会不断的增加,最终超过实际真实的概率,导致文本内容过自信。另一方面,端到端文本检测识别模型使用目标文本位置与预测文本位置的绝对距离最小化训练范式对预测文本位置进行监督。端到端文本检测识别模型通常采用多边形文本轮廓二维点集位置坐标的位置标注形式,直接通过对目标文本位置的轮廓点集的坐标进行回归拟合来优化文本位置预测。虽然这种标注方式能够提供一定的文本位置信息,但是人为标注的文本位置标签存在主观因素,难以避免地存在一些标注噪声,无法完全真实地反映文本的实际位置,尤其是在复杂背景或不规则文本场景下。然而,在这些非真实的文本位置标签的不断监督优化下,当前的训练范式会无限制地不断优化文本位置预测趋向于这些非真实的文本位置标签,从而导致模型对这些含噪的文本位置过度拟合,使得模型过自信地认为拟合到了实际真实的文本位置,进而造成了文本位置过自信。然而,当前的文本识别模型置信度校准算法主要针对于文本内容过自信问题而设计,并没有考虑到文本位置对预测置信度的潜在影响。事实上,对于端到端文本检测识别模型而言,文本的预测位置也在很大程度上影响着预测置信度的评估,而忽略这一因素可能导致校准结果不能全面反映模型预测的可靠性,从而导致次优的校准结果。因此,一个针对端到端文本检测识别模型的校准算法应综合考虑文本内容的准确性和文本位置的精确度对预测置信度的影响,以实现更精确可靠的置信度校准。
技术实现思路
1、有鉴于此,有必要针对端到端文本检测识别模型的置信度校准的技术问题,提供一种基于空间位置与场景关联的文本检测识别模型校准方法,所述方法将内容和位置两种相关性集成到最终的正则化中,作为更有效的校准约束。具体来说,该方法由两个过程组成,即标准训练过程及校准过程。在标准训练过程中,端到端文本检测识别模型分别采用目标文本序列似然最大化的训练范式和目标文本位置的绝对距离最小化的训练范式来分别监督文本内容和文本位置的优化过程,旨在最大化目标文本序列的概率以及精确地拟合文本的目标位置,产生识别损失。相反地,引入校准过程来对标准训练过程进行正则,分别通过约束目标文本序列似然最大化以及目标文本位置的绝对距离最小化来缓解端到端文本检测识别模型的文本内容过自信和文本位置过自信。具体地,校准过程将文本关联序列以及文本平滑位置引进来分别对文本内容以及文本位置实现额外的监督,以正则化标准训练过程。利用场景感知的文本关联序列挖掘模型,从而挖掘出更适应图像内场景的文本关联序列。与此同时,利用空间位置平滑方法,通过对目标文本位置进行位置平滑,产生文本平滑位置集。这些文本关联序列以及文本平滑位置标签也被用于监督端到端文本检测识别模型训练,从而产生正则损失。此外,引入全局校准强度因子,调整识别损失和正则化损失之间的优化权重来实现可控性校准。
2、本专利技术公开了基于空间位置与场景关联的文本检测识别模型校准方法,包括以下步骤:
3、步骤1,根据目标文本序列的似然最大化和目标文本位置的绝对距离最小化的训练范式对端到端文本检测识别模型进行监督,分别获得文本内容损失和文本位置损失并结合获得识别损失;
4、步骤2,通过场景感知的文本关联序列挖掘模型获取文本关联序列集,构建实例特定的与当前场景更为贴合的文本关联序列集;
5、步骤3,通过空间位置平滑方法对目标文本位置进行空间平滑获取文本平滑位置集,构建实例特定的文本平滑位置集;
6、步骤4,根据场景感知的文本关联序列集,联合正则内容损失,约束目标文本序列似然最大化,实现场景有效的文本内容置信度校准;
7、步骤5,根据文本平滑位置集,联合正则位置损失,约束目标文本位置的绝对距离最小化,实现文本位置置信度校准;
8、步骤6,引入全局校准强度系数,联合正则内容损失和正则位置损失,构建空间位置平滑与场景感知关联正则化损失函数,实现总体的可控性端到端置信度校准;
9、步骤7,联合识别损失和正则化损失得到最终损失,利用最终损失重新训练待校准训练模型,最后得到校准后的端到端文本检测识别模型,用于输出预测文本序列、预测文本位置及校准的置信度。
10、进一步地,步骤1包括以下步骤:
11、输入样本数据,所述样本数据包括文本图像,所述文本图像内含有多个彼此独立的文本实例,每个所述文本实例均由对应的目标文本位置和目标文本序列组成;
12、接着将文本图像输入到端本文档来自技高网...
【技术保护点】
1.基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,步骤1包括以下步骤:
3.根据权利要求2所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,步骤2中,所述场景感知的文本关联序列挖掘模型包括编码器和解码器,所述编码器包括位置嵌入层、位置注意力网络、标记嵌入层和全局图像编码器;具体步骤为:
4.根据权利要求3所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,所述感知表示生成步骤如下:
5.根据权利要求4所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,在步骤2中,将解码器的输出表示zN转换为预测分布,得到场景感知的文本关联序列挖掘模型的预测概率分布pc如下所示:
6.根据权利要求3所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,步骤3具体步骤如下:
7.根据权利要求6所述的基于空间位置与场景关联的文本检测识别模型校准方法,其
8.根据权利要求7所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,步骤5具体步骤如下:
9.根据权利要求8所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,步骤6具体步骤如下:
10.根据权利要求9所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,步骤7具体步骤如下:
...【技术特征摘要】
1.基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,步骤1包括以下步骤:
3.根据权利要求2所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,步骤2中,所述场景感知的文本关联序列挖掘模型包括编码器和解码器,所述编码器包括位置嵌入层、位置注意力网络、标记嵌入层和全局图像编码器;具体步骤为:
4.根据权利要求3所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,所述感知表示生成步骤如下:
5.根据权利要求4所述的基于空间位置与场景关联的文本检测识别模型校准方法,其特征在于,在步骤2中,将解码器的...
【专利技术属性】
技术研发人员:黄双萍,徐可可,彭政华,黄森,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。