一种屏幕图像中的文字优化定位方法技术

技术编号:39830268 阅读:14 留言:0更新日期:2023-12-29 16:11
本发明专利技术公开了一种屏幕图像中的文字优化定位方法,包括步骤:

【技术实现步骤摘要】
一种屏幕图像中的文字优化定位方法


[0001]本专利技术涉及计算机视觉化领域,尤其涉及一种屏幕图像中的文字优化定位方法


技术介绍

[0002]基于视觉信息的软件测试

软件界面检索等领域,常常需要从软件运行时产生的屏幕图像中定位给定文本,以确定界面控件的位置,或者判断界面是否匹配某一文字检索标准等

从屏幕图像中定位文本成为软件工程中一个共性需求

[0003]现有从屏幕图像定位文本的技术包括模板匹配和
OCR(optical character recognition)
文字识别匹配,各自存在一些优势和不足

模板匹配在整个屏幕图像中匹配文字的给定渲染子图,定位文字所在的小块区域

该方式定位速度快,在环境不变的情况下准确度高,但适应性差,切换软件运行环境后
(
如依托的操作系统变化

浏览器软件变化
)
,给定文字的渲染图可能随着环境变化而发生变化,从而导致在屏幕图像中匹配原有渲染图准确度锐减
。OCR
文字识别匹配先对屏幕图像进行
OCR
文字识别,得到其中所有文字及其出现位置信息,然后再通过文字的字符串匹配来定位其位置
。OCR
文字识别匹配适应性强,但速度慢,受
OCR
本身的效果影响,也未必能够保证准确度


技术实现思路

[0004]专利技术目的:本专利技术的目的是提供一种能快速

自适应地在屏幕图像中定位给定文字位置的屏幕图像中的文字优化定位方法

[0005]技术方案:本专利技术的文字优化定位方法,包括以下步骤:
[0006]S1
,对于需要定位的文字,要求用户给定该文字在当前软件运行环境下的一组示例文字及所在屏幕图像;其中,需要定位的文字具有某一类渲染特征;
[0007]S2
,在大量参数组成的渲染配置空间中,采用文字渲染配置识别算法识别出样本文字的具体渲染配置;
[0008]S3
,对于具有同一类渲染特征的其它文字,根据自动识别的渲染配置将文字渲染成图像,利用模板匹配算法在屏幕中匹配该图像来定位文字的所在位置

[0009]进一步,步骤
S2
中,所述采用文字渲染配置识别算法识别出样本文字的具体渲染配置,包括步骤如下:
[0010]S21
,通过
OCR
文字识别工具,获取紧密包含样本文字的小图;
[0011]S22
,采用三元二次多项式回归拟合推测函数
P
size
,由所述推测函数
P
size
推测样本文字的大致字体大小;
[0012]S23
,通过基于深度学习的图像分类算法对样本文字的字体类型

字体风格

字重

渲染引擎分别进行智能预测;
[0013]S24
,通过图像处理方法,判断文字样本图的前后背景颜色;
[0014]S25
,采用基于优先级队列和启发式搜索方法,来找到样本文字的最佳渲染配置

[0015]进一步,步骤
S21
中,当样本文字周围有其他文本时,
OCR
文字识别工具无法准确获
得样本文字所在边界区域时,采取如下步骤:
[0016]先提取紧密包含样本文字的小图,然后使用轮廓识别算法来获取小图中的轮廓,对每个轮廓判断其是否为文字框;如果满足外框是一个矩形,轮廓面积和外框面积基本相近,且宽长比符合文字的特征,则认为当前轮廓为一个文字框

[0017]进一步,步骤
S22
中,推测函数
P
size
推测样本文字的大致字体大小的实现步骤如下:
[0018]S221
,通过构建训练库,得到每个训练文字对应的
h
px
、b
up
、b
down
特征和字体大小
f
size
,作为训练数据;其中,
h
px
为文字的像素高度;
b
up
为文字中是否包含上凸字母,若含有上凸字母则
b
up
=1,否则
b
up
=0;
b
down
为文字中是否包含下沉字母,若含有下沉字母则
b
down
=1,否则
b
down
=0;
[0019]S222
,在训练数据的基础上,使用三元二次多项式回归来拟合推测函数
P
size
,推测函数
P
size
的输入为
h
px
、b
up
、b
down
,输出为
f
size

[0020]S223
,通过轮廓识别,获取步骤
21
中得到的小图中文字的像素高度;同时将得到的
h
px
、b
up
、b
down
代入推测函数
P
size
,获得样本文字的大致字体大小

[0021]进一步,步骤
S23
中,对样本文字的字体类型

字体风格

字重

渲染引擎分别进行智能预测的实现步骤如下:
[0022]S231
,分别针对字体类型

字体风格

字重

渲染引擎建立文字图片训练样本库;
[0023]S232
,构建基于残差网络
ResNet50
建立的深度学习预测模型,基于样本库,训练从文字图片到渲染参数的深度学习预测模型;
[0024]S233
,采用深度学习预测模型对步骤
21
得到的样本文字图片进行预测,得到分类概率向量,分类概率向量的每项值代表属于该分类的可能性

[0025]进一步,步骤
S24
中,判断文字样本图的前后背景颜色的实现步骤如下:
[0026]S241
,通过图像处理方法将图片灰度化,将繁多的颜色种类分类为白底黑字以及灰底白字两种分类;同时将样本文字图二值化,在二值化图上提取图片四周的像素值,计算出四周像素值的均值
m

[0027]m

(mean(top_row)+mean(bottow_row)+mean(left_colum)+mean(righ本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种屏幕图像中的文字优化定位方法,其特征在于,包括以下步骤:
S1
,对于需要定位的文字,要求用户给定该文字在当前软件运行环境下的一组示例文字及所在屏幕图像;其中,需要定位的文字具有某一类渲染特征;
S2
,在大量参数组成的渲染配置空间中,采用文字渲染配置识别算法识别出样本文字的具体渲染配置;
S3
,对于具有同一类渲染特征的其它文字,根据自动识别的渲染配置将文字渲染成图像,利用模板匹配算法在屏幕中匹配该图像来定位文字的所在位置
。2.
根据权利要求1所述屏幕图像中的文字优化定位方法,其特征在于,步骤
S2
中,所述采用文字渲染配置识别算法识别出样本文字的具体渲染配置,包括步骤如下:
S21
,通过
OCR
文字识别工具,获取紧密包含样本文字的小图;
S22
,采用三元二次多项式回归拟合推测函数
P
size
,由所述推测函数
P
size
推测样本文字的大致字体大小;
S23
,通过基于深度学习的图像分类算法对样本文字的字体类型

字体风格

字重

渲染引擎分别进行智能预测;
S24
,通过图像处理方法,判断文字样本图的前后背景颜色;
S25
,采用基于优先级队列和启发式搜索方法,来找到样本文字的最佳渲染配置
。3.
根据权利要求2所述屏幕图像中的文字优化定位方法,其特征在于,步骤
S21
中,当样本文字周围有其他文本时,
OCR
文字识别工具无法准确获得样本文字所在边界区域时,采取如下步骤:先提取紧密包含样本文字的小图,然后使用轮廓识别算法来获取小图中的轮廓,对每个轮廓判断其是否为文字框;如果满足外框是一个矩形,轮廓面积和外框面积基本相近,且宽长比符合文字的特征,则认为当前轮廓为一个文字框
。4.
根据权利要求2所述屏幕图像中的文字优化定位方法,其特征在于,步骤
S22
中,推测函数
P
size
推测样本文字的大致字体大小的实现步骤如下:
S221
,通过构建训练库,得到每个训练文字对应的
h
px
、b
up
、b
down
特征和字体大小
f
size
,作为训练数据;其中,
h
px
为文字的像素高度;
b
up
为文字中是否包含上凸字母,若含有上凸字母则
b
up
=1,否则
b
up
=0;
b
down
为文字中是否包含下沉字母,若含有下沉字母则
b
down
=1,否则
b
down
=0;
S222
,在训练数据的基础上,使用三元二次多项式回归来拟合推测函数
P
size
,推测函数
P
size
的输入为
h
px
、b
up
、b
down
,输出为
f
size

S223
,通过轮廓识别,获取步骤
21
中得到的小图中文字的像素高度;同时将得到的
h
px
、b
up
、b
down
代入推测函数
P
size
,获得样本文字的大致字体大小
。5.
根据权利要求2所述屏幕图像中的文字优化定位方法,其特征在于,步骤
S23
中,对样本文字的字体类型

字体风格

字重

渲染引擎分别进行智能预测的实现步骤如下:
S231
,分别针对字体类型

字体风格

字重

渲染引擎建立文字图片训练样本库;
S232
,构建基于残差网络
ResNet50
建立的深度学习预测模型,基于样本库,训练从文字图片到渲染参数的深度学习预测模型;
S233...

【专利技术属性】
技术研发人员:钱巨林诚昊
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1