基于AI的文字位置和内容识别方法技术

技术编号：44336656 阅读：3 留言：0更新日期：2025-02-18 20:47

本发明专利技术公开了基于AI的文字位置和内容识别方法，涉及文字识别技术领域，本方法通过双向LSTM模型从多尺度融合特征中提取序列特征，结合上下文信息进行聚合，并引入注意力机制，输出上下文特征。通过连接时序分类CTC算法对上下文特征进行字符预测，输出预测概率，并结合语言模型LM对预测结果进行解码，获取解码文字序列。进一步地，通过自适应修正模型对解码结果进行修正，输出最终的识别结果。将各个步骤的结果进行汇总，并通过综合评估系数Sfinal对识别结果进行智能化决策和反馈调整，此一系列优化措施使得系统能够动态适应不同的输入条件，不仅提升了识别精度，还提高了系统的自适应性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文字识别，具体为基于ai的文字位置和内容识别方法。

技术介绍

1、在人工智能ai技术日益发展的背景下，计算机视觉成为ai应用的重要领域之一。计算机视觉涉及图像和视频的处理与分析，其中一个关键任务就是文字识别ocr。文字识别ocr技术的应用非常广泛，特别是再物流称重过程中具体应用。基于ai的文字位置和内容识别方法进一步扩展了传统ocr的能力，通过结合图像预处理、多尺度特征提取、序列建模与上下文理解等技术，能够实现更为精准的对身份证、驾驶证、行驶证、随车清单等证件，以及，物流单据、集装箱、火车厢标识和货物表面喷码信息等进行文字定位和内容识别。

2、在现有的文字识别系统中，传统的ocr技术往往受到图像质量、文字排列不规则、背景噪声等因素的影响，导致识别精度降低。传统方法在处理复杂场景如手写体、低对比度文本、扭曲或倾斜的文字等时，通常表现不佳。现有技术中，大多数系统缺乏对多尺度、多样性图像的处理能力，也难以应对复杂的上下文语境，进而影响整体的识别效果和应用的广泛性；

3、这些现状和不足主要源于传统ocr技术在算法设计上的局限性，如单尺度特征提取方式、缺乏有效的上下文建模等。这些问题的存在不仅影响了系统在实际应用中的表现，还可能导致识别结果出现严重的误差，尤其是在处理复杂背景或多种字体混合的文档时，这些误差会显著影响数据的可靠性和一致性。此外，在工业、医疗、金融等对数据准确性要求极高的领域，低精度的文字识别还可能导致信息错误、工作效率低下甚至造成严重的经济损失。

技术实现思路

1、针对现有技术的不足，本专利技术提供了基于ai的文字位置和内容识别方法，解决了
技术介绍
中提到的问题。

2、为实现以上目的，本专利技术通过以下技术方案予以实现：基于ai的文字位置和内容识别方法，包括以下步骤：

3、s1、对输入的图片进行预处理，输出预处理图片imgdenoise，并通过多尺度归一化处理，获取标准图像imgnom，使用空间变换网络stn变体模型对标准图像imgnom进行图片校正，输出校正图片imgcorr；

4、s2、利用ocr文本检测技术，从校正图片imgcorr总检测文本区域，再利用多尺度卷积神经网络ms-cnn从校正图片imgcorr的文本区域中，提取多尺度特征fms，再依据所提取到的多尺度特征fms进行多尺度特征融合，获取多尺度融合特征ffusion；

5、s3、利用双向lstm模型从融合后的多尺度融合特征ffusion中提取序列特征，再结合上下文信息进行聚合，输出聚合序列特征fseq，并引入注意力机制，输出上下文特征fcontext；

6、s4、采用链接时序分类ctc算法对上下文特征fcontext进行字符预测，输出预测概率pctc，同时结合语言模型lm对预测概率pctc进行解码，获取解码文字序列tdecoded；

7、s5、对解码文字序列tdecoded进行处理，基于上下文自适应调整识别结果，输出识别结果tfinal，并对识别结果tfinal进行自适应修正，获取修正结果tadaptive；

8、s6、将校正图片imgcorr、多尺度融合特征efusion、上下文特征fcontext、解码文字序列tdecoded和修正结果tadaptive进行汇总，输出评估函数fi(params)，并进行综合汇总计算输出综合评估系数sfinal，并预设识别阈值threshold与综合评估系数sfinal进行对比评估，并输出动作决策execfinal。

9、优选的，所述s1包括s11、s12和s13；

10、s11、通过采集文字图片输入，对图片进行图像去噪和颜色空间转换处理,输出预处理图片imgdenoise，以确保图像中的文字无论其倾斜、弯曲还是其他变形情况都能被准确处理，再对输出的预处理图片imgdenoise进行多尺度归一化处理，输出标准图像imgnom；

11、所述预处理图片imgdenoise和标准图像imgnom通过以下处理方式进行处理；

12、imgdenoise＝denoise(img)imgcolor＝colortransform(imgdenoise)

13、

14、式中，denoise(img)表示降噪处理函数，用于去噪操作，colortransform(imgdenoise)表示颜色空间转换函数，用于颜色空间转换操作，imgnom(s)表示在尺度s下归一化的标准图像，imgdenoise(s)表示在尺度s下的预处理图片，μimg(s)表示尺度s下图像的均值，σimg(s)表示尺度s下图像的标准差，imgcolor表示颜色转换函数；

15、s12、再将输出的标准图像imgnom，使用空间变换网络stn变体模型，进行图像校正，输出校正图片imgcorr；

16、所述校正图片imgcorr通过以下空间变换网络stn变体模型输出获取；

17、

18、式中，s表示不同的尺度总数，λs表示第s个尺度的权重系数，表示尺度s下的空间变换网络变体模型的变换函数；

19、s13、使用ocr中的east模型通过卷积层和多尺度图像金字塔处理，获取校正图片imgcorr的边界框，east模型中，分支1和分支2负责检测文本边界，分支3和分支4则负责检测文本边界框的朝向，再通过roipooling技术缩放检测到的区域，确保特征映射保持高分辨率，减少文本大小变化的影响，输出优化的文本区域。

20、优选的，所述s2包括s21和s22；

21、s21、利用多尺度卷积神经网络ms-cnn在不同的尺度上对校正图片imgcorr的文本区域，进行卷积操作提取不同层次的特征，包括边缘特征、纹理特征和形状特征，同时对卷积后的特征进行池化，优化特征维度的同时保留图像信息，增强模型的抗干扰能力，应用非线性激活函数relu对卷积结果进行非线性变换，进行提取多尺度特征fms；

22、所述多尺度特征fms通过以下算法公式计算获取；

23、

24、式中，αs表示第s个尺度的权重系数，σ表示非线性激活函数，表示在尺度s下应用卷积神经网络cnn的操作，这个操作包括多层卷积、池化和非线性激活；

25、s22、通过对多尺度特征fms进行池化操作，优化计算量并去除冗余信息，再将不同尺度s下的池化特征加权求和，获取多尺度融合特征ffusion；

26、

27、式中，βs表示第s个尺度的融合权重系数，pool表示池化操作。

28、优选的，所述s3包括s31和s32；

29、s31、使用crnn模型中的双向lstm从多尺度融合特征ffusion中提取序列特征，通过两个lstm层模型进行提取每个时间步的上下文信息，所述两个lstm层模型一个处理从前往后的序列，另一个处理从后往前的序列，输出聚合序列特征fseq；

30、所述聚合本文档来自技高网...

【技术保护点】

1.基于AI的文字位置和内容识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于AI的文字位置和内容识别方法，其特征在于：所述S1包括S11、S12和S13；

3.根据权利要求1所述的基于AI的文字位置和内容识别方法，其特征在于：所述S2包括S21和S22；

4.根据权利要求1所述的基于AI的文字位置和内容识别方法，其特征在于：所述S3包括S31和S32；

5.根据权利要求4所述的基于AI的文字位置和内容识别方法，其特征在于：所述S4包括S41和S42；

6.根据权利要求5所述的基于AI的文字位置和内容识别方法，其特征在于：S42、将连接时序分类算法CTC输出预测概率Pctc与语言模型LM结合，通过语言模型LM中的n-gram模型结合BeamSearch进行解码预测字符序列，获取解码文字序列Tdecoded；

7.根据权利要求1所述的基于AI的文字位置和内容识别方法，其特征在于：所述S5包括S51和S52；

8.根据权利要求7所述的基于AI的文字位置和内容识别方法，其特征在于：S52

9.根据权利要求1所述的基于AI的文字位置和内容识别方法，其特征在于：所述S6包括S61和S62；

10.根据权利要求9所述的基于AI的文字位置和内容识别方法，其特征在于：S62、通过用户基于识别需求进行预设识别阈值Threshold，输入综合评估系数Sfinal进行对比评估，并根据评估结果输出动作决策Execfinal，进行输出识别结果、生成报告和自动存档，具体评估内容如下；

...

【技术特征摘要】

1.基于ai的文字位置和内容识别方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于ai的文字位置和内容识别方法，其特征在于：所述s1包括s11、s12和s13；

3.根据权利要求1所述的基于ai的文字位置和内容识别方法，其特征在于：所述s2包括s21和s22；

4.根据权利要求1所述的基于ai的文字位置和内容识别方法，其特征在于：所述s3包括s31和s32；

5.根据权利要求4所述的基于ai的文字位置和内容识别方法，其特征在于：所述s4包括s41和s42；

6.根据权利要求5所述的基于ai的文字位置和内容识别方法，其特征在于：s42、将连接时序分类算法ctc输出预测概率pctc与语言模型lm结合，通过语言模型lm中的n-gram模型结合beamsearch进行解码预测字符序列，获取解码文...

【专利技术属性】
技术研发人员：田彦军，任晓东，吴涛，张文茂，
申请(专利权)人：太原易思软件技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人