基于场景文字的自适应文字检测方法技术

技术编号:39828631 阅读:13 留言:0更新日期:2023-12-29 16:05
本发明专利技术公开了基于场景文字的自适应文字检测方法

【技术实现步骤摘要】
基于场景文字的自适应文字检测方法、系统、设备及介质


[0001]本专利技术涉及文字识别
,具体地说是一种基于场景文字的自适应文字检测方法

系统

设备及介质


技术介绍

[0002]场景文字识别作为计算机视觉领域中重要的一部分,在许多领域都有广泛的应用,例如电子商务领域

安全监控领域以及工业自动化领域等

目前在场景文字识别中的文字检测方面有过很多研究,但由于场景存在复杂的背景噪声

多变的前景

字形变换

图像模糊以及光照不均匀等不可控因素,使得该问题仍然存在诸多挑战

[0003]目前文字检测的方法有很多种,其中大体包括两组即基于区域和基于连通分量
(connected

component,
简称
CC)。
基于区域的方法通常采用滑动窗口来扫描原始图像,根据文本的纹理特征来区分文本组和非文本组,但是这些方法通常需要各种局部决策和大量的手动设计功能,最终导致其精度低且耗时长等问题

基于连通分量的方法是通过使用像素属性
(
如颜色

笔画宽度等
)
从原始图像中提取连通分量并通过分析其特征如几何特征

形状规则化特征

边缘特征

笔画特征和空间相关特征等,通过分析这些特征,来生成候选文本字符串,再将候选文本字符串中的非文本筛选之后,从而获得最终的文本检测结果

相比于基于区域的方法,基于连通分量的方式能获得更好的结果并消耗更少的时间,但是其仍然存在一些问题,比如对于不同复杂度的图像,提取连通分量的准确率不高,且当没有设置过多约束和阈值时,能否生成候选文本字符串以及能否正确区分文本与非文本等问题

[0004]故如何提升场景文字中的文字检测的准确率是目前亟待解决的技术问题


技术实现思路

[0005]本专利技术的技术任务是提供一种基于场景文字的自适应文字检测方法

系统

设备及介质,来解决如何提升场景文字中的文字检测的准确率的问题

[0006]本专利技术的技术任务是按以下方式实现的,一种基于场景文字的自适应文字检测方法,该方法具体如下:
[0007]采用自适应色彩缩减方式对连通分量进行提取;
[0008]通过相邻字符模型进行字符连接,即通过将
CC
分组,再采用字符连接的方式生成文本字符串;
[0009]采用基于模糊的分类器提取基于像素密度和分布的特征

[0010]作为优选,采用自适应色彩缩减方式对连通分量进行提取具体如下:
[0011]提取图像像素:通过
Canny
检测器计算边缘图像
I
e
,
并将边缘图像
I
e
中的像素从原始图像像素中排除,得到主色图像
I
m

[0012]初始化颜色中心并对颜色中心进行更新;
[0013]构建颜色层;
[0014]将图像颜色层处理结构及其逆图像和
Sobel map
相结合,从而完成连通分量的提
取,得到完整的候选字符

[0015]更优地,初始化颜色中心并对颜色中心进行更新具体如下:
[0016]相似颜色的像素点通常集中分布在颜色中心中,将颜色空间划分成8×8×8的子立方体;
[0017]将主色图像
I
m
中的所有像素投影到颜色空间中;其中,每个子立方体的像素数为该立方体的密度;
[0018]找到密度值最大的子立方体,将其中像素的平均颜色值作为初始化颜色中心的值,对于颜色中心的更新,通过将满足条件式的像素分配到立方体中更新颜色中心,条件式具体如下:
[0019][0020]其中,
l
表示子立方体的边长;
p
r
、p
g
、p
b
和表示第
p
个像素和第
i
个颜色层在第
t
次迭代时的颜色值,并计算立方体中所有像素的平均颜色值,将平均颜色值作为新的颜色中心,直到颜色中心没有变化,从而得到最终的颜色中心

[0021]更优地,构建颜色层具体如下:
[0022]在主色图像
I
m
和边缘图像
I
e
中找出满足条件式,且等于最终颜色中心的像素点,从而构建一个颜色层,直到主色
I
m
中的所有像素被分配构建所有颜色层

[0023]更优地,通过将
CC
分组,再采用字符连接的方式生成文本字符串具体如下:
[0024]构建一个包含一系列
CC
对的训练集,对于由两个
CC
构成的每对,提取几何和空间特征训练一个
ELM
分类器,用于判断两个
CC
是否相邻,判断依据是由高度

水平距离以及颜色信息特征构成:
[0025]若相邻,则将该两个
CC
视为正数,若两个正数对组成相同的分量并位于相似的方向上,则将两个正数对合并在一起,直到没有可以合并的对或链

[0026]更优地,采用基于模糊的分类器提取基于像素密度和分布的特征具体如下:
[0027]将检测到的文本区域利用显著性图来增强图像中的精细细节,并从中提取像素分布信息,将提取的信息作为已经用一组训练数据集训练好的模糊逻辑分类器的输入,最终完成文本信息与非文本信息的分割

[0028]一种基于场景文字的自适应文字检测系统,该系统包括:
[0029]提取模块一,用于采用自适应色彩缩减方式对连通分量进行提取;
[0030]连接模块,用于通过相邻字符模型进行字符连接,即通过将
CC
分组,再采用字符连接的方式生成文本字符串;
[0031]提取模块二,用于采用基于模糊的分类器提取基于像素密度和分布的特征

[0032]作为优选,该系统工作过程具体如下:
[0033](1)
获得原始图像集,并对其提取边缘像素:通过
Canny
检测器计算边缘图像,并将边缘图像中的像素从原始图像中排除,得到主色图像;
[0034](2)
初始化并更新颜色中心,将色彩空间划分为8×8×8的子立方体,并将边缘图像中的所有像素投影到色彩空间中,其中每个子立方体的像素数为该立方体的密度,每个色彩空间中的像素数即视为初始颜色中心,通过条件式更新颜色中心直至其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于场景文字的自适应文字检测方法,其特征在于,该方法具体如下:采用自适应色彩缩减方式对连通分量进行提取;通过相邻字符模型进行字符连接,即通过将
CC
分组,再采用字符连接的方式生成文本字符串;采用基于模糊的分类器提取基于像素密度和分布的特征
。2.
根据权利要求1所述的基于场景文字的自适应文字检测方法,其特征在于,采用自适应色彩缩减方式对连通分量进行提取具体如下:提取图像像素:通过
Canny
检测器计算边缘图像
I
e
,
并将边缘图像
I
e
中的像素从原始图像像素中排除,得到主色图像
I
m
;初始化颜色中心并对颜色中心进行更新;构建颜色层;将图像颜色层处理结构及其逆图像和
Sobel map
相结合,从而完成连通分量的提取,得到完整的候选字符
。3.
根据权利要求2所述的基于场景文字的自适应文字检测方法,其特征在于,初始化颜色中心并对颜色中心进行更新具体如下:相似颜色的像素点通常集中分布在颜色中心中,将颜色空间划分成8×8×8的子立方体;将主色图像
I
m
中的所有像素投影到颜色空间中;其中,每个子立方体的像素数为该立方体的密度;找到密度值最大的子立方体,将其中像素的平均颜色值作为初始化颜色中心的值,对于颜色中心的更新,通过将满足条件式的像素分配到立方体中更新颜色中心,条件式具体如下:其中,
l
表示子立方体的边长;
p
r
、p
g
、p
b
和表示第
p
个像素和第
i
个颜色层在第
t
次迭代时的颜色值,并计算立方体中所有像素的平均颜色值,将平均颜色值作为新的颜色中心,直到颜色中心没有变化,从而得到最终的颜色中心
。4.
根据权利要求2或3所述的基于场景文字的自适应文字检测方法,其特征在于,构建颜色层具体如下:在主色图像
I
m
和边缘图像
I
e
中找出满足条件式,且等于最终颜色中心的像素点,从而构建一个颜色层,直到主色
I
m
中的所有像素被分配构建所有颜色层
。5.
根据权利要求4所述的基于场景文字的自适应文字检测方法,其特征在于,通过将
CC
分组,再采用字符连接的方式生成文本字符串具体如下:构建一个包含一系列
CC
对的训练集,对于由两个
CC
构成的每对,提取几何和空间特征训练一个
ELM
分类器,用于判断两个
CC
是否相邻,判断依据是由高度

水平距离以及颜色信息特征构成:若相邻,则将该两个
CC
视为正数,若两个正数对组成相同的分量并位于相似的方向上,则将两个正数对合并在一起,直到没有可以合并的对或链

6.
根据权利要求5所述的基于场景文字的自适应文字检测方法,其特征在于,采用基于模糊的分类器提取基于像素密度和分...

【专利技术属性】
技术研发人员:李雪杨彤陈其宾姜凯
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1