System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文字识别,具体为基于ai的文字位置和内容识别方法。
技术介绍
1、在人工智能ai技术日益发展的背景下,计算机视觉成为ai应用的重要领域之一。计算机视觉涉及图像和视频的处理与分析,其中一个关键任务就是文字识别ocr。文字识别ocr技术的应用非常广泛,特别是再物流称重过程中具体应用。基于ai的文字位置和内容识别方法进一步扩展了传统ocr的能力,通过结合图像预处理、多尺度特征提取、序列建模与上下文理解等技术,能够实现更为精准的对身份证、驾驶证、行驶证、随车清单等证件,以及,物流单据、集装箱、火车厢标识和货物表面喷码信息等进行文字定位和内容识别。
2、在现有的文字识别系统中,传统的ocr技术往往受到图像质量、文字排列不规则、背景噪声等因素的影响,导致识别精度降低。传统方法在处理复杂场景如手写体、低对比度文本、扭曲或倾斜的文字等时,通常表现不佳。现有技术中,大多数系统缺乏对多尺度、多样性图像的处理能力,也难以应对复杂的上下文语境,进而影响整体的识别效果和应用的广泛性;
3、这些现状和不足主要源于传统ocr技术在算法设计上的局限性,如单尺度特征提取方式、缺乏有效的上下文建模等。这些问题的存在不仅影响了系统在实际应用中的表现,还可能导致识别结果出现严重的误差,尤其是在处理复杂背景或多种字体混合的文档时,这些误差会显著影响数据的可靠性和一致性。此外,在工业、医疗、金融等对数据准确性要求极高的领域,低精度的文字识别还可能导致信息错误、工作效率低下甚至造成严重的经济损失。
技术实现思
1、针对现有技术的不足,本专利技术提供了基于ai的文字位置和内容识别方法,解决了
技术介绍
中提到的问题。
2、为实现以上目的,本专利技术通过以下技术方案予以实现:基于ai的文字位置和内容识别方法,包括以下步骤:
3、s1、对输入的图片进行预处理,输出预处理图片imgdenoise,并通过多尺度归一化处理,获取标准图像imgnom,使用空间变换网络stn变体模型对标准图像imgnom进行图片校正,输出校正图片imgcorr;
4、s2、利用ocr文本检测技术,从校正图片imgcorr总检测文本区域,再利用多尺度卷积神经网络ms-cnn从校正图片imgcorr的文本区域中,提取多尺度特征fms,再依据所提取到的多尺度特征fms进行多尺度特征融合,获取多尺度融合特征ffusion;
5、s3、利用双向lstm模型从融合后的多尺度融合特征ffusion中提取序列特征,再结合上下文信息进行聚合,输出聚合序列特征fseq,并引入注意力机制,输出上下文特征fcontext;
6、s4、采用链接时序分类ctc算法对上下文特征fcontext进行字符预测,输出预测概率pctc,同时结合语言模型lm对预测概率pctc进行解码,获取解码文字序列tdecoded;
7、s5、对解码文字序列tdecoded进行处理,基于上下文自适应调整识别结果,输出识别结果tfinal,并对识别结果tfinal进行自适应修正,获取修正结果tadaptive;
8、s6、将校正图片imgcorr、多尺度融合特征efusion、上下文特征fcontext、解码文字序列tdecoded和修正结果tadaptive进行汇总,输出评估函数fi(params),并进行综合汇总计算输出综合评估系数sfinal,并预设识别阈值threshold与综合评估系数sfinal进行对比评估,并输出动作决策execfinal。
9、优选的,所述s1包括s11、s12和s13;
10、s11、通过采集文字图片输入,对图片进行图像去噪和颜色空间转换处理,输出预处理图片imgdenoise,以确保图像中的文字无论其倾斜、弯曲还是其他变形情况都能被准确处理,再对输出的预处理图片imgdenoise进行多尺度归一化处理,输出标准图像imgnom;
11、所述预处理图片imgdenoise和标准图像imgnom通过以下处理方式进行处理;
12、imgdenoise=denoise(img)imgcolor=colortransform(imgdenoise)
13、
14、式中,denoise(img)表示降噪处理函数,用于去噪操作,colortransform(imgdenoise)表示颜色空间转换函数,用于颜色空间转换操作,imgnom(s)表示在尺度s下归一化的标准图像,imgdenoise(s)表示在尺度s下的预处理图片,μimg(s)表示尺度s下图像的均值,σimg(s)表示尺度s下图像的标准差,imgcolor表示颜色转换函数;
15、s12、再将输出的标准图像imgnom,使用空间变换网络stn变体模型,进行图像校正,输出校正图片imgcorr;
16、所述校正图片imgcorr通过以下空间变换网络stn变体模型输出获取;
17、
18、式中,s表示不同的尺度总数,λs表示第s个尺度的权重系数,表示尺度s下的空间变换网络变体模型的变换函数;
19、s13、使用ocr中的east模型通过卷积层和多尺度图像金字塔处理,获取校正图片imgcorr的边界框,east模型中,分支1和分支2负责检测文本边界,分支3和分支4则负责检测文本边界框的朝向,再通过roipooling技术缩放检测到的区域,确保特征映射保持高分辨率,减少文本大小变化的影响,输出优化的文本区域。
20、优选的,所述s2包括s21和s22;
21、s21、利用多尺度卷积神经网络ms-cnn在不同的尺度上对校正图片imgcorr的文本区域,进行卷积操作提取不同层次的特征,包括边缘特征、纹理特征和形状特征,同时对卷积后的特征进行池化,优化特征维度的同时保留图像信息,增强模型的抗干扰能力,应用非线性激活函数relu对卷积结果进行非线性变换,进行提取多尺度特征fms;
22、所述多尺度特征fms通过以下算法公式计算获取;
23、
24、式中,αs表示第s个尺度的权重系数,σ表示非线性激活函数,表示在尺度s下应用卷积神经网络cnn的操作,这个操作包括多层卷积、池化和非线性激活;
25、s22、通过对多尺度特征fms进行池化操作,优化计算量并去除冗余信息,再将不同尺度s下的池化特征加权求和,获取多尺度融合特征ffusion;
26、
27、式中,βs表示第s个尺度的融合权重系数,pool表示池化操作。
28、优选的,所述s3包括s31和s32;
29、s31、使用crnn模型中的双向lstm从多尺度融合特征ffusion中提取序列特征,通过两个lstm层模型进行提取每个时间步的上下文信息,所述两个lstm层模型一个处理从前往后的序列,另一个处理从后往前的序列,输出聚合序列特征fseq;
30、所述聚合本文档来自技高网...
【技术保护点】
1.基于AI的文字位置和内容识别方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S1包括S11、S12和S13;
3.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S2包括S21和S22;
4.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S3包括S31和S32;
5.根据权利要求4所述的基于AI的文字位置和内容识别方法,其特征在于:所述S4包括S41和S42;
6.根据权利要求5所述的基于AI的文字位置和内容识别方法,其特征在于:S42、将连接时序分类算法CTC输出预测概率Pctc与语言模型LM结合,通过语言模型LM中的n-gram模型结合BeamSearch进行解码预测字符序列,获取解码文字序列Tdecoded;
7.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S5包括S51和S52;
8.根据权利要求7所述的基于AI的文字位置和内容识别方法,其特征在于:S52
9.根据权利要求1所述的基于AI的文字位置和内容识别方法,其特征在于:所述S6包括S61和S62;
10.根据权利要求9所述的基于AI的文字位置和内容识别方法,其特征在于:S62、通过用户基于识别需求进行预设识别阈值Threshold,输入综合评估系数Sfinal进行对比评估,并根据评估结果输出动作决策Execfinal,进行输出识别结果、生成报告和自动存档,具体评估内容如下;
...【技术特征摘要】
1.基于ai的文字位置和内容识别方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的基于ai的文字位置和内容识别方法,其特征在于:所述s1包括s11、s12和s13;
3.根据权利要求1所述的基于ai的文字位置和内容识别方法,其特征在于:所述s2包括s21和s22;
4.根据权利要求1所述的基于ai的文字位置和内容识别方法,其特征在于:所述s3包括s31和s32;
5.根据权利要求4所述的基于ai的文字位置和内容识别方法,其特征在于:所述s4包括s41和s42;
6.根据权利要求5所述的基于ai的文字位置和内容识别方法,其特征在于:s42、将连接时序分类算法ctc输出预测概率pctc与语言模型lm结合,通过语言模型lm中的n-gram模型结合beamsearch进行解码预测字符序列,获取解码文...
【专利技术属性】
技术研发人员:田彦军,任晓东,吴涛,张文茂,
申请(专利权)人:太原易思软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。