System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于AI的文字位置和内容识别方法技术_技高网

基于AI的文字位置和内容识别方法技术

技术编号:44336656 阅读:0 留言:0更新日期:2025-02-18 20:47
本发明专利技术公开了基于AI的文字位置和内容识别方法,涉及文字识别技术领域,本方法通过双向LSTM模型从多尺度融合特征中提取序列特征,结合上下文信息进行聚合,并引入注意力机制,输出上下文特征。通过连接时序分类CTC算法对上下文特征进行字符预测,输出预测概率,并结合语言模型LM对预测结果进行解码,获取解码文字序列。进一步地,通过自适应修正模型对解码结果进行修正,输出最终的识别结果。将各个步骤的结果进行汇总,并通过综合评估系数Sfinal对识别结果进行智能化决策和反馈调整,此一系列优化措施使得系统能够动态适应不同的输入条件,不仅提升了识别精度,还提高了系统的自适应性和鲁棒性。

【技术实现步骤摘要】

本专利技术涉及文字识别,具体为基于ai的文字位置和内容识别方法。


技术介绍

1、在人工智能ai技术日益发展的背景下,计算机视觉成为ai应用的重要领域之一。计算机视觉涉及图像和视频的处理与分析,其中一个关键任务就是文字识别ocr。文字识别ocr技术的应用非常广泛,特别是再物流称重过程中具体应用。基于ai的文字位置和内容识别方法进一步扩展了传统ocr的能力,通过结合图像预处理、多尺度特征提取、序列建模与上下文理解等技术,能够实现更为精准的对身份证、驾驶证、行驶证、随车清单等证件,以及,物流单据、集装箱、火车厢标识和货物表面喷码信息等进行文字定位和内容识别。

2、在现有的文字识别系统中,传统的ocr技术往往受到图像质量、文字排列不规则、背景噪声等因素的影响,导致识别精度降低。传统方法在处理复杂场景如手写体、低对比度文本、扭曲或倾斜的文字等时,通常表现不佳。现有技术中,大多数系统缺乏对多尺度、多样性图像的处理能力,也难以应对复杂的上下文语境,进而影响整体的识别效果和应用的广泛性;

3、这些现状和不足主要源于传统ocr技术在算法设计上的局限性,如单尺度特征提取方式、缺乏有效的上下文建模等。这些问题的存在不仅影响了系统在实际应用中的表现,还可能导致识别结果出现严重的误差,尤其是在处理复杂背景或多种字体混合的文档时,这些误差会显著影响数据的可靠性和一致性。此外,在工业、医疗、金融等对数据准确性要求极高的领域,低精度的文字识别还可能导致信息错误、工作效率低下甚至造成严重的经济损失。


技术实现思

1、针对现有技术的不足,本专利技术提供了基于ai的文字位置和内容识别方法,解决了
技术介绍
中提到的问题。

2、为实现以上目的,本专利技术通过以下技术方案予以实现:基于ai的文字位置和内容识别方法,包括以下步骤:

3、s1、对输入的图片进行预处理,输出预处理图片imgdenoise,并通过多尺度归一化处理,获取标准图像imgnom,使用空间变换网络stn变体模型对标准图像imgnom进行图片校正,输出校正图片imgcorr;

4、s2、利用ocr文本检测技术,从校正图片imgcorr总检测文本区域,再利用多尺度卷积神经网络ms-cnn从校正图片imgcorr的文本区域中,提取多尺度特征fms,再依据所提取到的多尺度特征fms进行多尺度特征融合,获取多尺度融合特征ffusion;

5、s3、利用双向lstm模型从融合后的多尺度融合特征ffusion中提取序列特征,再结合上下文信息进行聚合,输出聚合序列特征fseq,并引入注意力机制,输出上下文特征fcontext;

6、s4、采用链接时序分类ctc算法对上下文特征fcontext进行字符预测,输出预测概率pctc,同时结合语言模型lm对预测概率pctc进行解码,获取解码文字序列tdecoded;

7、s5、对解码文字序列tdecoded进行处理,基于上下文自适应调整识别结果,输出识别结果tfinal,并对识别结果tfinal进行自适应修正,获取修正结果tadaptive;

8、s6、将校正图片imgcorr、多尺度融合特征efusion、上下文特征fcontext、解码文字序列tdecoded和修正结果tadaptive进行汇总,输出评估函数fi(params),并进行综合汇总计算输出综合评估系数sfinal,并预设识别阈值threshold与综合评估系数sfinal进行对比评估,并输出动作决策execfinal。

9、优选的,所述s1包括s11、s12和s13;

10、s11、通过采集文字图片输入,对图片进行图像去噪和颜色空间转换处理,输出预处理图片imgdenoise,以确保图像中的文字无论其倾斜、弯曲还是其他变形情况都能被准确处理,再对输出的预处理图片imgdenoise进行多尺度归一化处理,输出标准图像imgnom;

11、所述预处理图片imgdenoise和标准图像imgnom通过以下处理方式进行处理;

12、imgdenoise=denoise(img)imgcolor=colortransform(imgdenoise)

13、

14、式中,denoise(img)表示降噪处理函数,用于去噪操作,colortransform(imgdenoise)表示颜色空间转换函数,用于颜色空间转换操作,imgnom(s)表示在尺度s下归一化的标准图像,imgdenoise(s)表示在尺度s下的预处理图片,μimg(s)表示尺度s下图像的均值,σimg(s)表示尺度s下图像的标准差,imgcolor表示颜色转换函数;

15、s12、再将输出的标准图像imgnom,使用空间变换网络stn变体模型,进行图像校正,输出校正图片imgcorr;

16、所述校正图片imgcorr通过以下空间变换网络stn变体模型输出获取;

17、

18、式中,s表示不同的尺度总数,λs表示第s个尺度的权重系数,表示尺度s下的空间变换网络变体模型的变换函数;

19、s13、使用ocr中的east模型通过卷积层和多尺度图像金字塔处理,获取校正图片imgcorr的边界框,east模型中,分支1和分支2负责检测文本边界,分支3和分支4则负责检测文本边界框的朝向,再通过roipooling技术缩放检测到的区域,确保特征映射保持高分辨率,减少文本大小变化的影响,输出优化的文本区域。

20、优选的,所述s2包括s21和s22;

21、s21、利用多尺度卷积神经网络ms-cnn在不同的尺度上对校正图片imgcorr的文本区域,进行卷积操作提取不同层次的特征,包括边缘特征、纹理特征和形状特征,同时对卷积后的特征进行池化,优化特征维度的同时保留图像信息,增强模型的抗干扰能力,应用非线性激活函数relu对卷积结果进行非线性变换,进行提取多尺度特征fms;

22、所述多尺度特征fms通过以下算法公式计算获取;

23、

24、式中,αs表示第s个尺度的权重系数,σ表示非线性激活函数,表示在尺度s下应用卷积神经网络cnn的操作,这个操作包括多层卷积、池化和非线性激活;

25、s22、通过对多尺度特征fms进行池化操作,优化计算量并去除冗余信息,再将不同尺度s下的池化特征加权求和,获取多尺度融合特征ffusion;

26、

27、式中,βs表示第s个尺度的融合权重系数,pool表示池化操作。

28、优选的,所述s3包括s31和s32;

29、s31、使用crnn模型中的双向lstm从多尺度融合特征ffusion中提取序列特征,通过两个lstm层模型进行提取每个时间步的上下文信息,所述两个lstm层模型一个处理从前往后的序列,另一个处理从后往前的序列,输出聚合序列特征fseq;

30、所述聚合本文档来自技高网...

【技术保护点】

1.基于AI的文字位置和内容识别方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S1包括S11、S12和S13;

3.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S2包括S21和S22;

4.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S3包括S31和S32;

5.根据权利要求4所述的基于AI的文字位置和内容识别方法,其特征在于:所述S4包括S41和S42;

6.根据权利要求5所述的基于AI的文字位置和内容识别方法,其特征在于:S42、将连接时序分类算法CTC输出预测概率Pctc与语言模型LM结合,通过语言模型LM中的n-gram模型结合BeamSearch进行解码预测字符序列,获取解码文字序列Tdecoded;

7.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S5包括S51和S52;

8.根据权利要求7所述的基于AI的文字位置和内容识别方法,其特征在于:S52、再将所获取的识别结果Tfinal输入到自适应修正模型中,进行自适应修正文本在上下文中的连贯性和易读性,输出修正结果Tadaptive;

9.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S6包括S61和S62;

10.根据权利要求9所述的基于AI的文字位置和内容识别方法,其特征在于:S62、通过用户基于识别需求进行预设识别阈值Threshold,输入综合评估系数Sfinal进行对比评估,并根据评估结果输出动作决策Execfinal,进行输出识别结果、生成报告和自动存档,具体评估内容如下;

...

【技术特征摘要】

1.基于ai的文字位置和内容识别方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于ai的文字位置和内容识别方法,其特征在于:所述s1包括s11、s12和s13;

3.根据权利要求1所述的基于ai的文字位置和内容识别方法,其特征在于:所述s2包括s21和s22;

4.根据权利要求1所述的基于ai的文字位置和内容识别方法,其特征在于:所述s3包括s31和s32;

5.根据权利要求4所述的基于ai的文字位置和内容识别方法,其特征在于:所述s4包括s41和s42;

6.根据权利要求5所述的基于ai的文字位置和内容识别方法,其特征在于:s42、将连接时序分类算法ctc输出预测概率pctc与语言模型lm结合,通过语言模型lm中的n-gram模型结合beamsearch进行解码预测字符序列,获取解码文...

【专利技术属性】
技术研发人员:田彦军任晓东吴涛张文茂
申请(专利权)人:太原易思软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1