基于云计算技术的图像识别方法技术

技术编号:39804889 阅读:16 留言:0更新日期:2023-12-22 02:38
本申请提供了一种基于云计算技术的图像识别方法,包括:云计算平台对用户上传的原始图像进行切分,得到

【技术实现步骤摘要】
基于云计算技术的图像识别方法、装置及相关设备
[0001]本申请要求于
2022

06

07
日提交中国国家知识产权局

申请号为
202210636827.6、
申请名称为“一种长文本切片识别的服务化部署方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中



[0002]本申请涉及人工智能
,尤其涉及一种基于云计算技术的图像识别方法

装置及相关设备


技术介绍

[0003]随着光学字符识别
(optical character recognition

OCR)
技术的发展,识别输入图像中的文本信息,在票据识别

文本扫描

网络图像的安全性审核

图书检索等场景中存在广泛应用

[0004]通常情况下,输入的图像中可以包括一行或者多行字符串,每行字符串可以构成该图像中的一个文本行,并且,不同文本行的图像尺寸可以相同,也可以不同

例如,在图1所示的输入图像中,可以包括3个文本行,其中,文本行1为“篮球运动赛事”,文本行2为“BASKETBALL GAMES”,文本行3为“举办方:
XXX”。
[0005]目前,在识别图像中的文本时,通常会从该图像中切分得到多个切片图像,每个切片图像中包括至少一个文本行

后,将该多个切片图像中尺寸相近的切片图像压缩成相同尺寸的切片图像,以此得到多个图像集合

其中,每个图像集合中包括至少一个固定尺寸的切片图像,不同图像集合中的切片图像的尺寸不同

最后,利用各个图像集合个对应的识别模型,对图像集合中各个切片图像上的文本行进行识别,得到图像中的文本

[0006]但是,实际应用时,所识别得到的文本与图像中的实际文本经常存在差异,从而导致识别图像中文本的准确性较低


技术实现思路

[0007]有鉴于此,本申请实施例提供了一种基于云计算技术的图像识别方法,用于提高识别图像中文本的准确性

本申请还提供了对应的装置

计算设备

计算设备集群

计算机可读存储介质以及计算机程序产品

[0008]第一方面,本申请实施例提供了一种基于云计算技术的图像识别方法,该方法应用于云计算平台,具体地,云计算平台获取用户上传的原始图像,并对该原始图像进行切分,得到
M
个切片图像
(M
为正整数
)
,每个切片图像中包括文本行,然后,云计算平台根据对每个切片图像进行裁剪,得到
M
组子切片图像,每组子切片图像基于一个切片图像裁剪得到,并且,每组子切片图像中的不同子切片图像的尺寸相同;接着,云计算平台利用
AI
模型识别每组子切片图像,得到
M
组文本子串,每组文本子串包括至少一个文本子串,从而云计算平台根据
M
组文本中传生成原始图像中的文本,并将该原始图像中的文本提供给用户或进行保存

[0009]由于云计算平台在识别原始图像中的文本时,是将原始图像中的每个切片图像切分成多个尺寸相同的子切片图像并进行识别,并没有对切片图像进行压缩,这可以避免压缩切片图像所产生的信息损失会对图像识别产生影响,从而可以提高识别原始图像中的文本的准确性

并且,对于不同尺寸的切片图像,云计算平台可以将其裁剪成多个相同尺寸的子切片图像,然后再利用同一
AI
模型对每种尺寸的切片图像所对应的子切片图像进行文本识别,这样,仅使用一个
AI
模型,即可识别任意尺寸的切片图像中的文本,如此,可以有效减少所要部署的
AI
模型的数量,降低
AI
模型的维护难度以及维护成本
(
当然,云计算平台也可以基于不同的尺寸裁剪不同的子切片图像
)。
[0010]在一种可能的实施方式中,每组子切片图像中的子切片图像的尺寸,根据原始图像所属的类别确定,并且,裁剪不同类别的原始图像中的切片图像所采用的尺寸不同

比如,对于海报类型的原始图像,在对包括艺术字文本的切片图像进行裁剪时,所采用的尺寸可以是
32
×
1024(
像素
)
,而对报刊类型的原始图像,在对包括非艺术字文本的切片图像进行裁剪时,所采用的尺寸可以是
32
×
256


如此,可以根据不同类型的原始图像采用不同的尺寸对切片图像进行裁剪,以此可以使得裁剪得到的子切片图像的大小更加符合实际应用的需求,从而有助于提高
AI
模型识别子切片图像中的文本子串的准确性

[0011]在一种可能的实施方式中,对原始图像进行切分所得到的
M
个切片图像的尺寸不同,并且,裁剪该
M
个切片图像所采用的尺寸相同

如此,利用一个
AI
模型,可以识别该原始图像中不同尺寸的切片图像中的文本行,从而可以有效减少所要部署的
AI
模型的数量,降低
AI
模型的维护难度以及维护成本

[0012]在一种可能的实施方式中,
M
个切片图像属于多个不同的类型,并且,
M
组子切片图像通过不同的
AI
模型进行识别

比如,当同一原始图像中包括打印体内容以及手写体内容时,针对原始图像进行切分得到的包括打印体内容的切片图像,可以利用
32
×
256(
像素
)
的尺寸进行裁剪,并利用
AI
模型1对裁剪得到的一组子切片图像进行识别,而针对原始图像进行切分得到的包括手写体内容的切片图像,可以利用
32
×
512(
像素
)
的尺寸进行裁剪,并利用
AI
模型2对裁剪得到的一组子切片图像进行识别

如此,通过对不同类型的切片图像采用不同尺寸进行裁剪

采用不同的
AI
模型进行识别,可以使得裁剪得到的子切片图像的大小更加符合实际应用的需求,从而有助于提高识别每组子切片图像中的文本子串的准确性

[0013]在一种可能的实施方式中,云计算平台配置有多个
AI
模型,并且该多个
AI
模型支持被云计算平台提供的目标服务进行调用,该目标服务为多个服务中的任一服务,该多个服务用于识别不同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于云计算技术的图像识别方法,其特征在于,所述方法应用于云计算平台,所述方法包括:所述云计算平台获取用户上传的原始图像,并对所述原始图像进行切分,得到
M
个包括文本行的切片图像,所述
M
为正整数;所述云计算平台对每个切片图像进行裁剪,得到
M
组子切片图像,每组子切片图像基于一个切片图像裁剪得到,并利用人工智能
AI
模型识别每组子切片图像,得到
M
组文本子串,其中,每组文本子串包括至少一个文本子串,每组子切片图像中的不同子切片图像的尺寸相同;所述云计算平台根据所述
M
组文本子串生成所述原始图像中的文本,并将所述原始图像中的文本提供给所述用户或进行保存
。2.
根据权利要求1所述的方法,其特征在于,每组子切片图像中的子切片图像的尺寸根据所述原始图像所属的类别确定,并且,裁剪不同类别的原始图像中的切片图像所采用的尺寸不同
。3.
根据权利要求1或2所述的方法,其特征在于,所述
M
个切片图像的尺寸不同,并且,裁剪所述
M
个切片图像所采用的尺寸相同
。4.
根据权利要求1至3任一项所述的方法,其特征在于,所述
M
个切片图像属于多个不同的类型,并且,所述
M
组子切片图像通过不同的
AI
模型进行识别
。5.
根据权利要求1至4任一项所述的方法,其特征在于,所述云计算平台配置有多个
AI
模型,所述多个
AI
模型支持被所述云计算平台提供的目标服务进行调用,所述目标服务为多个服务中的任一服务,所述多个服务用于识别不同类型的原始图像
。6.
根据权利要求5所述的方法,其特征在于,所述不同的
AI
模型部署于至少一个计算设备
。7.
根据权利要求1至6任一项所述的方法,其特征在于,所述云计算平台根据所述
M
组文本子串生成所述原始图像中的文本,包括:所述云计算平台对每组文本子串进行拼接,得到
M
个文本行;所述云计算平台根据所述
M
个文本行,生成所述原始图像中的文本
。8.
根据权利要求1至7任一项所述的方法,其特征在于,所述
M
组文本子串中包括目标组文本子串,所述目标组文本子串包括第一文本子串以及第二文本子串,所述第一文本子串对应的第一子切片图像与所述第二文本子串对应的第二子切片图像之间存在重叠区域,所述重叠区域的尺寸为预设尺寸,所述重叠区域内的字符用于指导所述第一文本子串与所述第二文本子串之间的拼接
。9.
根据权利要求8所述的方法,其特征在于,所述重叠区域内的字符是根据所述第一文本子串在所述第一子切片图像上的成像位置进行确定,所述第一文本子串在所述第一子切片图像上的成像位置由所述
AI
模型输出
。10.
根据权利要求1至9任一项所述的方法,其特征在于,所述云计算平台获取用户上传的原始图像,包括:所述云计算平台输出信息输入界面;所述云计算平台获取所述用户通过所述信息输入界面上传的原始图像
。11.
一种基于云计算技术的图像识别装置,其特征在于,所述图像识别装置应用于云计
算平台,所述图像识别装置包括:交互模块,用于获取用户上传的原始图像;裁剪模块,用于对所述原始图像进行切分,得到
M
个包括文本行的切片图像,所述
M
为正整数;对每个切片图像进行裁剪,得到
M
组子切片图像,每组子切片图像基于一个切片图像裁剪得到;识别模块,用于利用人工智能
AI
模型识别每组子切片图像,得到
M
组文本子串,其中,每组文本子串...

【专利技术属性】
技术研发人员:徐武恒谢泽澄吴新邓华伟廖明辉黄铮朱声高
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1